大模型激战迎来新高度 “AI智能体”成为新焦点

作者：陈炳欣 2024-05-22

来源：爱集微 #大模型# #OpenAI# #通义千问# #豆包大模型# #AI智能体#

5.6w

5月，全球大模型热度激增，数得上名号的几个大模型玩家，如OpenAI、谷歌、阿里、百度、字节、腾讯等，均一窝蜂地释出大动作，或者全面升级，或者开源免费，或者低价抢市，让原本就激战正酣的大模型市场，再掀新高潮。同时，记者也注意到，近期大模型厂商有向个人助手、智能体平台延伸的趋势，推动着其他厂商开始跟进。在长文模型、多模态之后，“AI智能体”有望成为新的焦点。

国际国内大模型激战加剧

国际上，OpenAI抢在谷歌之前，率先推出全面升级的GPT-4o版本大模型，展示了毫秒级反应和多模态交互的新能力。随后，谷歌在其I/O开发者大会上展示了AI助手Astra和旗舰大模型Gemini。在国内，阿里云于5月9日正式发布通义千问2.5；5月15日字节跳动发布豆包大模型；5月17日腾讯云展示基于混元大模型的一站式AI智能体创作与分发平台腾讯元器；更早的4月15日，百度推出了AgentBuilder、AppBuilder、ModelBuilder三大开发工具。

GPT-4o是OpenAI最新发布的版本。它在保持GPT-4级别的智能的同时，对文本、视觉和音频功能进行了改进，可以实时响应用户的语音提问，让交互体验变得更自然、更简单。GPT-4o还增强了ChatGPT的视觉功能，通过照片或屏幕截图，ChatGPT现在可以迅速回答相关问题。OpenAI还表示，GPT-4o的多语言功能得到了增强，在50种不同的语言中表现更佳。在OpenAI的API中，GPT-4o的处理速度是GPT-4(特别是GPT-4 Turbo)的两倍。

谷歌则凭借新推出的AI助手Project Astra展开反击。这款AI智能体产品不仅支持实时对话，还能通过视频聊天的方式与用户进行交互。Project Astra能够被集成于智能手机、台式电脑等设备中，谷歌也在探索将其嵌入到智能眼镜或其他设备。为Project Astra提供支持的是谷歌的Gemini 1.5 Pro模型。在过去的几个月里，谷歌除了将Gemini 1.5 Pro上下文窗口扩展到200万token之外，还通过数据和算法的改进增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力。现在，1.5 Pro可以对Google AI Studio中上传的视频图像和音频进行推理。

阿里云智能集团首席技术官周靖人表示，新发布的通义千问2.5版本，理解能力、逻辑能力、指令遵循和代码能力都进一步增强。据悉，新版经过权威基准OpenCompass评测，中文性能比如文本理解、文本生成、知识问答等多个方面，已全面赶超GPT-4 Turbo。通义APP单次可处理高达1000万字的长文本，并能同时解析100份不同格式的文档。在音视频理解能力上，能够同时上传50个音视频文件，并对其进行包括内容识别理解、摘要总结、多语言翻译在内的多项处理。在代码编程能力上，集成智能编码助手通义灵码，帮助用户提高编码效率。

豆包大模型可以提供多模态能力的模型产品，目前涵盖通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等九款模型。字节跳动还基于豆包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”，以及星绘、即梦等AI创作工具，并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务。火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。

腾讯元器作为一站式AI智能体创作与分发平台，企业和开发者可以基于其直接创建智能体，使用腾讯官方的插件和知识库，还能将这些智能体一键分发到QQ、微信客服、腾讯云等渠道中。腾讯还同时发布了多个版本的模型，如hunyuan-pro、hunyuan-standard、hunyuan-lite，其中hunyuan-standard具备256k的超长上下文理解能力，单次处理字符数超过38万个。

“AI智能体”成为新焦点

近来，有关AI智能体的话题很热，不仅是大模型厂商，各类终端厂商也在推出不同带有AI智能体性质的产品。未来AI Agent有望成为AI应用层的基本架构，“Agent+”的产品将会越来越多。

在OpenAI此前发布的产品中，有两个产品可以当作类似AI智能体工具使用，GPTs和Assistant API。它们同时支持接入自定义的接口和数据，前者可以在界面直接操作，后者则是一个API。GPTs为OpenAI在去年首届开发者大会上推出，用户可以添加知识、操作和说明，并发布以供其他人使用。Assistants API则是一个全面的API开发助手，是OpenAI专门设计的用于帮助开发者在自己的程序中构建Agent的工具，并提供了“代码解释器”“检索”和“函数调用”三项功能。

最新发布的GPT-4o则显著提升了使用体验，让用户能够更像与助手互动一样自然地使用ChatGPT。OpenAI首席技术官Muri Murati说：“我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与GPT的协作。这一点非常重要，因为我们正在展望人类与机器之间互动的未来。”

腾讯元器也瞄准智能体应用，通过模仿人的决策过程，可以个性化定制，让使用者拥有一个24小时待命的全能助手。多个版本的模型包括hunyuan-pro、hunyuan-standard、hunyuan-lite，通过腾讯云对外开放，满足企业客户、开发者在不同场景下的模型需求，落地最优性价比模型方案。百度则在今年4月份上线了文心智能体平台AgentBuilder，支持零代码、低代码两种模式，商家用几句话就能生成智能体。

AI智能体，顾名思义就是具有一种能够自动完成各种任务的软件。不同于传统的人工智能，AI智能体具备通过独立思考、调用工具去逐步完成给定目标的能力。它可以理解自然语言，也可以根据用户的需求和喜好来提供个性化的服务。相较于人们熟悉的Copilot模式，例如Siri，AI智能体更加独立。目前的各家均致力于推出人工智能助理，希望设备不再只是机械地完成人类指令，而是可以参与人类工作流，为诸如编写代码、策划活动、优化流程等事项提供建议，与人类协同完成。远期目标是，当人类给出一个工作目标后，AI智能体就能够针对目标独立思考并会根据给定任务详细拆解出每一步的计划步骤，依靠来自外界的反馈和自主思考，自己给自己创建prompt，来实现目标。

当前仍处“弱人工智能”阶段

一般认为人工智能的发展将经历三个阶段，即第一个阶段的大语言模型，第二阶段的多模态，以及第三阶段的AI 智能体。大语言模型，就像大脑，能够跟人们对话；到了第二阶段等于多了感官，如眼睛、耳朵等，能够接收到更多类型的资讯，包括图片、声音，能够更深入地理解人们的意图。而AI智能体的阶段，除了可以接收外界信息、有了感官之外，还能够做执行。

在ChatGPT浪潮席卷全球之时，很多人认为大模型距离真正的通用人工智能AGI已经非常接近，很多厂商都投入了基础大模型的研究。但经过了一段时间后，大家对大模型真实的能力边界有了清晰的认知，发现大模型仍存在大量的问题如幻觉、上下文容量限制等，导致其无法直接通向AGI，于是AI智能体正在成为了新的研究方向。人们希望通过让大模型借助一个或多个AI智能体的能力，构建成为具备自主思考决策和执行能力的智能体，继续实现通往AGI的道路。AI智能体有可能成为未来一段时间AI研究的前沿方向。

不过，相关专家指出，AI智能体也分为弱人工智能和强人工智能。现在大多数人使用大语言模型，仍然是输入一段提示词，然后得到大模型生成的一段答案。这个过程就像你让一个人编写一篇文章，你设计一个个“提示词”，引导他不停敲打键盘，直到将文章完成。弱AI智能体依然无法摆脱这样的窠臼。AI智能体的发展改善着这一过程。它会先生成关于文章主题的提纲，然后搜集资料，写出初稿，阅读生成的初稿，思考哪些部分需要修改。然后修改初稿，继续这个过程。整个工作流程是不断迭代的。人工智能越强，其独立性也越强。