SuperDrive背后的“思考”：如何让智驾决策更像老司机

作者：爱集微 06-18 14:52

来源：地平线HorizonRobotics #地平线# #智能驾驶#

1.9w

如果故事的开头，从端到端和模块化两种自动驾驶系统的发展溯源讲起，人们会发现，路线之争对于高阶智驾而言并非是问题的关键。系统的性能、可靠性、安全性等因素需要以人为核心寻找合理的“设计交集”，从而共同约束相关发展路径的实际应用和效果呈现。

自2024年开始，城区NOA普及速度不断加快。然则在一些研究机构的报告中显示，截至2023年底，只有3%的城区NOA渗透率说明其中仍有明显的应用鸿沟等待跨越。其中原因就是现实的随机性为正确预测下一秒造成了极大的困难，反映到实际自动驾驶行为中的表现就是：决策保守，应对死板、机械，效率低。在地平线看来，选择一条可达成的发展路径需要遵循“用户价值”，从场景出发，地平线全新一代智驾方案Horizon SuperDrive™（下简称“SuperDrive”）为了解决城区的规控难题采用了更拟人、更像老司机的“交互博弈”。

让智驾系统更“老练”的交互博弈

什么样的智能驾驶能被称为老司机？首先来看一些SuperDrive在城市中的行驶片段——

从以上场景的自动驾驶行为可以看到，SuperDrive系统已经具备一个老练司机的开车本能。例如，当遇到骑行人或行人主动避让、等待车辆先行时，它会果决判断、不犹豫地行驶过去，而不是僵硬地只满足行人先行的约束条件（为了安全）；直行遇到左转高频场景，在判定拥有路权的时候SuperDrive会选择径直过去，而不会像其他系统一样踌躇；及时检测到前方占道车辆然后减速绕行，整个绕行路径优雅从容，让驾驶者获得如同自己正常驾驶一样的体验，并且有效避免了当识别到前方占道车辆减速刹停时，无法主动绕行最终被迫接管的窘境。

SuperDrive想要做的，就是能够平顺地处理很多场景（优雅），不会仅为了安全而不去做一些人会做的博弈行为（不怂），并且能够感知到车的状态，像人一样在一个相对长的时间周期里通过思考明白要如何去行动，而不会很犹豫、纠结，出现方向盘无目的地乱摆导致车身不明所以地摇晃等（从容笃定），可谓谋定而后动。

其背后，有两大技术支撑。一个是让智驾系统“看”得更明白的“端到端感知架构”；另一个是让智驾系统“想”得清楚的“交互式博弈算法”。后者作为整个智驾系统的决策规划核心，最主要的是为高阶智驾提供了一种思维路径，而非一种设计定式。在实现端到端感知的基础上，SuperDrive系统还需要具备超强的博弈能力，才能针对复杂多元的城区场景以及中国式交通参与者，实现“优雅不怂，从容笃定”。

SuperDrive的整个规控系统的输入拥有Tensor级别的先验和实时结果，凭借着系统内的搜索模块，在大量数据和可能性中寻找最优解或相关信息，同时考虑时间和空间因素，根据输入数据和推理结果，生成物体或事件随着时间和空间变化的轨迹，然后做出预测或决策，制定运动规划，最终控制车子做出相应的驾驶行为。

地平线认为，上述所有的处理过程都会有一个交互式预测决策神经网络的Core，能够让系统真正的实现交互式博弈，整个推理过程最重要的是输出Plan/Prediction Pairs，包含自车和他车的，这样才能更准确的给出是抢还是让的决策，且这一过程并不是一次性的，而是所有可能性在每一个“Planning Cycle”里能够调用推演，这能使得系统能够真的像人一样在“反复博弈、寻求最优解”，而不是单向从A问题到B结论般的直白、僵硬。

但当输入的信息超越了过往的“经验”，系统则能够自行做出交互式思考和判断，从而生成合理的驾驶行为，整体的交互博弈，能够反复迭代、推演、强化，在不断的进化中，离“更拟人”无穷近。这相对于之前串行预测决策的规控有着很大的区别。

在目前的应用试验中，除了本节上述的场景外，地平线SuperDrive在面对施工区避让、城市环岛通行、路口交互-动态Driveline、效率变道、拥堵变道、拥堵汇流等城市典型场景时，均能够给用户带来优雅不怂的智能驾乘体验。典型动态现场案例如下：

背后思考：慢思考

相对于传统智驾领域的决策规划而言，交互博弈是更复杂的一种决策行为。地平线创始人兼CEO余凯博士介绍，高阶智驾系统不能仅仅只在简单的case里靠直觉去处理，在复杂的case里，也能够通过自己的自主思考、博弈去“举一反三”，也就是说自主思考的背后需要逻辑推演链条更长的反复思考，最终要求达到anytime、anywhere的反复博弈，这时的车子仿佛拥有了一颗“大脑”，能够全天候、全场景地仿真、想象、演绎甚至脑补。

由此可以引申出SuperDrive设计交互博弈背后的思维动因，地平线称之为“慢思考”。“慢思考”这个概念来自于美国心理学家丹尼尔·卡尼曼的著作《思考，快与慢》。丹尼尔·卡尼曼认为，人类大脑有快与慢两种做决定的方式。快思考依赖情感、记忆和经验迅速作出判断，它见闻广博，能够迅速对眼前的情况做出反应，但是这样的思考过程固守“眼见即为事实”的原则，很容易被蛊惑进而上当；而慢思考通过调动注意力来分析和解决问题，它拥有一个不断反刍的思维过程，比较慢，不容易出错，但有时也会偷懒，选择让“快思考”直接接管，用直觉来“走捷径”。地平线认为，智驾系统的交互博弈应当像人一样思考，更多的时候强调“快和慢”相结合，以便能够在动态和不可预测的环境中做出更加合理和有效的决策。

现如今，很多决策规划模块的开发过程中，随着应用场景无限趋于开集形态，依赖人类工程师不断手写的（if.else，搜索，优化）规则去对抗自动驾驶问题不仅在技术上陷入穷途末路，而且也没有无上限的资金用以支持类似的“黑洞投入”。智能驾驶目前遇到的最大瓶颈是“开集和非白名单”的问题，仅靠if.else很难精确地描述并处理不断变幻的驾驶场景，因此在智能驾驶系统中，人们逐渐采取神经网络替换掉手写规则，凭借数据驱动和大模型解决人工短板。

但是地平线想的更进一步，虽然基于鉴别式或者单模态生成式的机器学习技术能够通过数据的闭环，经由算力支持换来了效率，但是仍然无法解决“开集和白名单”的问题，越来越多的判定已经达成共识，机器学习技术需要具有Common sense（常识），即在没有特定任务的训练样本的情况下，让模型完成任务（Zero-shot）。这就涉及到上文所述的“开城”和“ODD无限延展”的问题，智能驾驶的未来就是要让整个决策规划无限适应和处理从来没有见过的case，而不是遇到问题就简单粗暴地“confused”，或者直接选择人为接管。

因此，基于“快、慢”思考的定义，地平线设计SuperDrive的时候也充分注意到了有些场景难以通过直接反馈的方式去处理，而是要像下棋一样经过步骤推演，最好能够举一反三（即泛化能力），而不是只有见到才能学到。针对一些全新的场景，地平线希望做到的是系统能够完全“从0到1”，这个“0”并非是数学意义上的“空集”，而是能够在原有的经验（这个经验有可能与当下场景相关、准相关甚至无关）之上，通过自行比对、自主思考、经验推理、不断模仿，生成更加理性的、符合现实需要的决策，而不是将一些行驶标准孤立、割裂地看待，导致出现“为了安全能走却不走”、“遇到突发状况毫无变通”的状况。地平线认为，让系统在交互中学会“博弈”，才能跨过智能驾驶迭代过程中的“叹息之墙”。

软硬协同：“1+1＞2”

从可用跃迁至好用，对于地平线而言，无论是端到端感知还是交互博弈，最终都需要通过高效的硬件架构去运行。换句话说，硬件实力决定了迭代底盘，与此同时软件和硬件彼此协同才能发挥出“1+1＞2”的效用。在交互博弈方面，由于跟以前的串行神经网络推理模式不一样，需要相对通用的计算单元和相对快速的专用计算单元来完成博弈，因此BPU架构也能更加快速高效地处理Close-Loop交互。

基于BPU Nash架构的征程6，相比上一代性能上有了大幅提升，其中包含强大的并行浮点计算能力，以及特别优化的超越函数，存储性能上也进行了大面积优化，能够用更加无感的方式、更快的速度实现各种推理过程。给新一代的计算架构起名为BPU Nash，是意在致敬伟大的数学家约翰·纳什以及他的著名理论——纳什博弈（纳什均衡）。所谓的纳什博弈，描述了在博弈过程中，无论对方的选择如何，当事人一方都会选择某个确定的策略，任何一方在此策略组合下单方面改变自己的策略（他方策略不变），都不会提高自身的收益。这个理论形象地勾勒了地平线在交互博弈算法构建过程中想要达到的最佳状态：如果这个系统能够达到纳什博弈的水平，那么完成对于“人类操作”的替代、实现自动驾驶就不再是空想。

“单点的算法突破或者算力性能突破，都不是高阶智驾达到好用的关键，充分发挥硬件和软件的协同效应，并以极致开放打造极致效率，才是抵达高阶智驾终局的最佳路径。”余凯表示。在地平线的逻辑里，软件与硬件结合的紧密程度，不仅关乎计算效率和能耗降低，也是确保系统和硬件的协同进步、提升整体系统性能效率的核心。

这同样也是一种全新的开集：实际驾驶环境需要系统进行彻底的交互博弈，用以完成“拟人化”的终极进化，而无论是端到端还是模块化发展路径，都需要硬件基础的算力支持，在不断的迭代过程中，软件层面需要为硬件配备找到效率的边际拐点，硬件需要根据场景、模型、数据的不断演进，在提供基础算力的同时完成自我革新。

因此，软硬协同的逻辑最终孕生的是一个更加广袤的产业生态，软硬结合的产业支柱是所有的参与者开放协作，由此才能在大模型框架、深度学习语料、算法升级和软硬结合等层面实现全业态式的互补。目前，地平线已经搭建了国内最为成熟、高效、开放的生态体系之一，并与全球超过30家车企达成了前装量产合作，合作的量产车型已经超过110款。

高阶智驾的未来，将是一个不断拟人、类人的过程。

从响应人，到服务人，再到解放人，智能驾驶在不断演进的过程中，完成的是人的高维延伸，用优雅不怂、从容笃定形容的高阶智驾系统，一定能够像“老司机”一样预测、推理、学习、决策。在这里，让我们放下路径之争的自我偏见，聚焦到智能驾驶让人类生活更安全、更美好的目标本质。当高阶智驾走向平权时代，选择一种“可达成”的路线，是地平线的现实选择，而当智驾产业迈向以用户、市场需求为导向的公众利他之时，多方博弈之下，一定会穷举出一个产业发展核心：那就是在产品量产、用户体验、公众利益互相交融的智驾市场，技术普惠最终会给体验普惠，让渡出一个“体验上更拟人、技术上更类人”的落地空间。