据媒体报道,特斯拉CEO马斯克近日宣称,明年其开发的人形机器人Optimus将实现小规模量产。特斯拉计划将该型产品首先应用于自家工厂当中,同时计划提供一项租赁服务,为用户提供更为灵活的选择方案。黄仁勋在近日接受采访时也表示,未来人形机器人将像汽车一样普及,预估100年后人形机器人将无处不在,会是产量最大的机器系统。
随着新技术、新产品、新业态的快速发展,人形机器人正在成为全球科技创新的新热点,AI大模型的渗透则被视为产业发展的分水岭,它让人形机器人拥有感知、思考、决策等能力的预期不再遥不可及。随着科技巨头的纷纷涌入,全球人形机器人产业正在按下加速键。
大厂加速人形机器人产业布局
近日,特斯拉在美国德克萨斯州奥斯汀举行2024年度股东大会。会上,马斯克充满信心地表示,到明年特斯拉将拥有1000个,甚至可能达到数千个Optimus机器人投入运行。马斯克在对比自动驾驶和人形机器人市场潜力后乐观地认为,自动驾驶产业的市场规模可能达到5万亿-7万亿美元,但人形机器人的市场潜力可能更大,高达25万亿美元。
特斯拉已经投入人形机器人领域发展多年。在2021年首届AI DAY上,特斯拉首次公布Optimus的概念图。2022年Optimus原型机实现首秀。2023年特斯拉开始使用自研的超算 Dojo为Optimus提供算力支持,加快训练速度。而特斯拉最新发布的视频中,Optimus已经具备走进工厂的工作能力。视频中,Optimus可以实现在电池流水线上进行搬运、分拣等动作,展示了在工业场景下操作熟练的运控细节和精细化工作能力。
如果说特斯拉是直接投入人形机器人进行开发与制造,英伟达则是在产业生态上进行布局。资料显示,早在十年前,即2014年,英伟达就已开始介入机器人领域。当时,黄仁勋曾亲手将一台NVIDIA DGX AI超级计算机交付给OpenAI。2023年英伟达在COMPUTEX上发布全新Jetson AGX Orin工业级计算平台。该平台可以提供更强的计算能力,意味着在农业、建筑、能源、航空抗体、卫星等极端环境中打造更强劲的机器人有了可能。2024年,英伟达围绕具身智能加速布局,宣布成立通用具身智能体研究实验室GEAR。
得益于大模型的快速发展,生成式AI技术正在加速推进人形机器人的成熟与应用。英伟达机器人和边缘计算副总裁Deepu Talla认为,大模型使机器人能够更自然地理解和响应人类指令。“鉴于这些特性,生成式AI非常适合用于机器人技术。”
大模型让“决策”更聪明
我国也在加快推进人形机器人产业的发展。去年10月,工业和信息化部印发《人形机器人创新发展指导意见》,提出到2025年人形机器人创新体系初步建立;到2027年综合实力达到世界先进水平,成为重要的经济增长新引擎。与此同时,以优必选、傅利叶、智元等为代表的初创公司也陆续面世;而以达闼、越疆、大疆等为代表的传统机器人企业则拥有多年的技术积累;小米、阿里等互联网巨头也凭借在人机交互、AI、物联网等方面的优势,强势进入新市场。
作为机器人的重要分支,人形机器人凭借“拟人”优势赋予其的功能多样性与普适性,可以适用于更加广泛的社会岗位,市场前景被寄予厚望。高盛预测,到2035年,人形机器人市场或将达到1540亿美元,成为继智能驾驶电动车后的又一AI落地场景。
AI大模型的渗透被视为人形机器人产业发展的一道分水岭,其使人形机器人拥有感知、思考、决策等能力不再遥不可及。以往受到算法模型的局限,人形机器人很难具备“泛化”能力,只能针对特定领域进行训练,满足某一特定用途,这极大限制了人形机器人的应用场景。而具备强大泛化能力的大模型出现,使人形机器人有了大幅跃升的现实基础。科大讯飞开放平台研发总监刘可为在此前演讲时指出,大模型横空出世,机器人行业迎来全新发展机遇。以具身智能为代表的人形机器人成为发展趋势。决策更聪明、功能更实用、体验更自然,应用更多样。
去年4月,AI公司Levatas便与波士顿动力合作,将ChatGPT以及谷歌公司的语音合成技术接入Spot机器狗,使其成功实现与人类的交互。多模态大模型则能让人形机器人能够通过“视觉”与外部环境交互。去年7月,谷歌DeepMind推出RT-2,这是全球首个VLA模型,可控制机器人的视觉-语言-动作。通过将 VLA预训练与机器人数据相结合,能够端到端输出机器人的控制指令。通过测试,RT-2 与之前的模型相比,在符号理解、推理和人类识别 三个方面具有更高的任务成功率以及更强的泛化和涌现能力。可以说,大模型赋予了人形机器人一个通识大脑,能够顺畅地和外部对话,还可以增加任务理解、拆分和逻辑推理等方面的决策能力。
数据与算力仍面临挑战
尽管各大巨头都在针对人形机器人进行探索,也取得了不小的成果,但就现实来看,机器人大模型距离实际应用还面临不少问题。首先面临的就是可用于机器人训练的高质量数据非常匮乏。由于机器人需要通过多种传感器感知环境状态,然后执行实际动作,完成任务,因此训练用于机器人的大模型需要用到大量机器人在真实世界中与环境进行交互的数据集。对于ChatGPT来说,公开的互联网数据十分充足,有大量的公域数据可供爬取。但现实中的人形机器人保有量却太少,可用于收集训练数据的机器人就更加稀少。如何解决机器人算法的训练需要大量数据是当前行业面临的一大挑战。
近日,英伟达宣布开源旗下Nemotron-4 340B(3400亿参数)模型,开发人员可使用该模型生成合成数据,用于大模型的训练。有观点认为,英伟达此举的目标或许就是指向人形机器人的数据集市场。由于现实数据过于稀少,因此合成数据已被视为解决机器人领域高质量训练数据不足、采集效率低下问题的重要途径。机器人智能体可以通过模仿学习在生成的数据集上进行训练。英伟达Nemotron-4 340B使用了9万亿个token对其进行训练,可以为开发人员提供一个可扩展的生成合成数据模型。此举或将进一步巩固其在人形机器人训练市场的核心地位。
另一个瓶颈则是芯片算力问题。机器人大模型对机器人行动控制的周期仍太长,无法做到实时响应。谷歌RT-2的演示视频需要2倍速播放才能实现比较流畅的机器人动作,而斯坦福大学李飞飞团队提出了智能系统 VoxPoser更是需要8倍速才能有流畅的动作表现。实时性的提升依赖于算力,对于面对高复杂性环境的人形机器人尤其重要。中科院院士姚期智在 2023 世界机器人大会的演讲中就强调,计算能力的挑战非常重要。
浙江大学教授熊蓉也在2024中国人形机器人生态大会中也指出,人形机器人的大脑执行环境感知、行为控制、人机交互等功能,小脑进行复杂运动建模与控制,肢体则进行各种命令的执行,并保持灵活稳定。人形机器人的系统研制方面,存在关节多、模块多、要求多,缺乏功能-结构-机电-材料一体化设计等方面的挑战,需要解决系统研制、稳定控制、通用智能等方面的难题。
总之,面对机器人数据、芯片算力及软硬件融合等方面的问题,各家科技巨头厂商都在进行深入探索,但距离实现真正的具身智能水平的模型还有较长的一段路要走。