北京产大模型成果首次登上Nature，赋予AI万能学习法

作者：爱集微 02-10 07:23

来源：联合新闻网 #大模型#

1.3w

近日，北京智源人工智能研究院的一项突破性研究成果在国际顶级学术期刊《自然》（Nature）上线，这是中国科研机构主导的大模型成果首次在《自然》正刊发表。

智源这项名为“通过预测下一个词元进行多模态学习的多模态大模型”的成果，采用自回归路线，可以统一多模态学习，训练出优秀的原生多模态大模型，这对于确立自回归成为生成式人工智能统一路线具有重大意义。

据了解，长期以来，AI在学习不同类型的「感官」资讯时，往往需要「分科而治」，理解文字用一套方法，生成图片用另一套，处理影像又需要不同的专业模型，过程复杂且协同起来较为困难。而智源研究院研发的Emu3模型，借鉴了GPT成功的关键思路「预测下一个词元」，成功统一了对文本、图像及影像的理解与生成能力。打个比方，就如同给AI找到了一个「万能学习法」，无论面对的是一段文字、一张照片，还是一段动态影像，AI都用同一种逻辑去分析和创造。

实验表明，这种统一方法在图片生成、图文理解和视频影像创作等多个任务上，达到了与当前各类专用模型相当的水准，且具备更强的扩展潜力和通用性。

《自然》编辑点评这项研究时表示，基于「预测下一个词元」，Emu3实现了大规模文本、图像和影像的统一学习，其在生成与感知任务上的性能可与使用专门路线相当，这一成果对构建可扩展、统一的多模态智能系统具有重要意义。

此外，基于这一核心路径的反覆运算版本Emu3.5模型，已展现出对物理世界运行规律的初步学习与模拟能力，能够尝试预测场景的下一步变化，为发展更通用、更接近人类认知方式的大模型与智能体奠定了基础。