凤凰网科技讯 12月18日,在火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型。据透露,这是一个更具性价比的方案——豆包视觉理解模型千tokens输入价格仅为3厘,经换算,一元钱可处理284张720P的图片,比行业价格便宜85%。
据火山引擎总裁谭待在现场介绍,豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。此外,该模型有较为细腻的视觉描述和创作能力。
图:火山引擎总裁谭待
此前,豆包视觉理解模型已经接入豆包App和PC端产品。而考虑到要让用户的输入更快更方便,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。
此外,豆包大模型多款产品也迎来重要更新,据现场披露,豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本,更是在业界首次实现精准生成汉字和一句话P图的产品化能力,该模型已接入即梦AI和豆包App。
另据分享,2025年春季将推出具备更长视频生成能力的豆包视频生成模型1.5版,豆包端到端实时语音模型也将很快上线。谭待表示,豆包大模型虽然发布较晚,但一直在快速迭代进化。
数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。