端侧人工智能爆发，Arm打造新一代计算平台

作者：陈炳欣 06-20 17:31

来源：爱集微 #Arm# #大模型# #计算子系统#

5744

从GPT-3.5到GPT-4.0，从多模态交互到插件支持，从闭源到开源，AI任务处理正加速从云侧向端侧迁移，生成式AI正逐步成为端侧设备上的人机交互界面。然而，随着人们加大力度在终端部署大模型，必将面临计算瓶颈、功耗及软件生态等多重挑战。5月底，Arm推出新一代面向智能手机、PC等终端的计算平台——Arm终端计算子系统（CSS），其中包含Arm当前最高性能的Cortex-X925 CPU、Immortalis-G925 GPU等，并为开发人员量身定制的Kleidi软件库，给终端AI的发展注入创新活力。在近日举办的Arm技术媒体日上，Arm就相关产品的技术细节、生态合作等进行了深入的分享。Arm 终端事业部智能手机市场高级总监 Steve Raphael表示，AI时代正加速发展，复杂性随之不断提高，计算需求呈指数级增长。IC设计工程师、OEM 厂商和软件开发者需要更好的灵活性和更多的选择，确保各类消费市场中的设备都能够经受考验。Arm 持续将产品及解决方案迭代更新，善用最新的工艺节点，并提供可为实现端侧AI奠定基础的平台。

终端CSS：全新优化AI体验

Arm此前已面向包括数据中心等在内的基础设施领域推出了Neoverse计算子系统(CSS)，并计划于2025年交付首款汽车应用的CSS，此次则又将其引入了终端领域当中。据悉，Arm终端CSS是迄今速度最快的Arm计算平台，囊括了最新的Armv9.2 Cortex CPU集群和Immortalis与Mali GPU、CoreLink 互联系统 IP，以及基于3nm工艺生产就绪的 CPU 和 GPU 物理实现。新的KleidiAI和KleidiCV库可为端侧人工智能和计算机视觉工作负载提供支持。Arm Performance Studio提供全方位工具环境，帮助开发者简化开发流程，发挥Arm终端CSS的潜力。可以说，Arm终端CSS为用户提供了生产芯片的最快途径。

2021年Arm首次推出全面计算解决方案（TCS）。TCS希望从系统化、协同化的视角打造SoC，包括开发用于总线互联、系统级缓存(SLC)和内存管理单元(MMU)的第三方系统IP，考虑到将所有组件集成至CPU和GPU集群等环节中可能遇到的问题，从而大幅降低芯片设计的复杂性。Arm 终端事业部产品管理总监 Steve Hopper介绍，终端CSS则在TCS的基础上更进一步，首次在终端领域以CPU和GPU优化的设计形式提供物理实现的解决方案。

目前，终端CSS已是Arm最快的安卓平台。在游戏的峰值图形性能方面，终端CSS与TCS23相比，为各种游戏内容平均实现了 30% 的性能提升，而2+4+2的CPU集群则将应用启动提速了大约33%。在大模型方面，终端 CSS 平台上，对于具有 3.8B 参数模型的 Phi-3，Token的首次响应时间，结果显著提升46%，同时可为用户提供更加出色的浏览体验，Speedometer测量得分大幅提高60%。

能效对于移动平台来说始终都是影响的关键因素之一。游戏更是长期运行移动终端中耗电量居于首位的用例之一。据测算，一小时的游戏就可能消耗总电池电量的 20% 以上。终端 CSS 采用了Immortalis-G925 GPU，测量到的游戏性能以及能效改进结果很可观，比TCS23平台有了显著提升。在五款热门手游中，功耗降低30%。

计算摄影和AI摄像头需要使用计算机视觉和ML技术，这些运算同样可以在CPU上运行，而不仅是在NPU上。与上一代产品相比，Arm在CPU上运行焦外成像工作负载算法的性能提高了24%。针对成像解决方案，Steve Raphael强调，目前合作伙伴的成像解决方案相当复杂，在CPU、GPU、NPU 上都有运行，也涌现出了很多的创新和新的技术。但CPU 所具备的优势在于它的灵活性，可以满足未来技术需求。因此，新的算法往往都先出现在 CPU 或 GPU 上，最后当硬件分离时才会迁移到NPU上。所以CPU 通常与NPU紧密协作，以实现前沿的技术。

Steve Hopper表示，目前Arm 终端 CSS 赋能的新一代旗舰高端移动设备正在向3纳米技术迈进。Arm 终端 CSS 引入了针对3纳米优化的生产就绪的CPU和GPU核心实现。这些实现在多家代工厂可用，可为合作伙伴提供更大的灵活性，缩短其在3纳米工艺上优化频率、功耗和面积的时间，当过渡到3纳米等新工艺节点时，还可确保芯片一次成功。

CPU：实现Arm最高性能提升

相较于以往“Cortex-X+个位数”的命名方式，Arm将最新发布的超大核命名为Cortex-X925。Arm的解释是为了凸显Cortex-X925在性能和能效上的提升。作为Cortex-X系列发布以来IPC同比增幅最高的核心，Cortex-X925的时钟频率达到3.8GHz，单线程性能提高36%，AI性能表现上提升46%，显著提高如大语言模型等终端设备生成式AI的响应能力。

Arm 终端事业部高级产品经理 Manish Pandey表示，自2020年推出Cortex-X系列以来，Arm就把提高单线程性能作为主要目标。经过过去四代产品的迭代，今年采取了更加大胆的方式，对Cortex-X CPU的设计进行了根本性的改变，Cortex-X925就是首个成果，成为Arm迄今为止速度最快、性能最强的CPU。Arm在构建Cortex-X时对一些用例进行了优化，包括应用和AI的响应速度、网页浏览、图像和视频，以及更出色的高帧率游戏体验。Cortex-X925在多种基准测试和用例中实现了显著的速度提升。例如，在 Geekbench 6、应用启动速度及 Speedometer 2 浏览器基准测试中，提升了约15%。在热门的大模型上，Token首次响应时间缩短了约40%，同时在热门的AI网络中，推理速度提升35%。

与此同时，Cortex-X在功耗的改进上也十分明显。最新的高效CPU——Arm Cortex-A725实现了性能与效率的平衡，与前一代相比，性能效率提升了35%。Arm还对Cortex-A520的3纳米工艺节点进行了进一步优化，与去年的Cortex-A520 相比可节省15%的能耗。

此外，Arm还对动态共享单元DSU-120进行了更新，引入了新的功耗模式，降低了典型工作负载的功耗，以应对新的高级用例。DSU的性能指标包括缓存大小、带宽、延迟、漏电和动态功耗。这些指标往往会与实际用例之间存在紧密的牵动。Arm将DSU-120的更新聚焦在PPA 和功耗方面的改善，推出中高切片断电模式 (Middle high slice power down)，还面向 RAM 新增了 Quick Nap (QNap) 模式。QNap 模式介于RAM 运作(Functional)模式和保留(Retention)模式之间，可以在不影响性能的前提下，有效降低漏电。

在介绍中，Manish Pandey还强调CPU 集群这一概念。在生成式AI的技术浪潮下，算力不足的问题非常突出，对微处理器架构进行优化，结合多个处理器核心的CPU集群，可有效提升AI推理性能。Manish Pandey表示：“无论是应用启动、网页浏览、游戏、AI 还是轻量级媒体处理，我们在各种用例中都实现了显著的性能提升。需要强调的是，现实环境中的用例相当复杂，涉及多个CPU的相互作用，而我们正致力于推动包括软件在内的全方位优化，以实现这些改进。从另一个角度来看，在现实环境的体验中，我们在大约40个指标上平均实现了30%的提升。”

GPU：赋能沉浸游戏体验与边缘智能

在GPU方面，Arm将最新一代产品的命名也直接从Immortalis-G720跃升到Immortalis-G925，成为Arm有史以来发布的最强GPU产品。作为Arm推出的第三代具备光追技术的GPU，在面对复杂物体时，Immortalis-G925实现了光追性能52%的提升。通过与Epic Games等游戏巨头的合作，使得大型桌面主机游戏能够在Arm GPU上高效运行。同时，Arm此次也同步推出了新的Mali-G725 GPU与Mali-G625 GPU，对应不同的处理器设计。

安谋科技 (Arm China) 市场总监王刚表示，Arm GPU 赋能了从沉浸式游戏体验，到边缘侧人工智能应用等的方方面面，已经成为大量移动终端用户日常生活中不可或缺的一部分。这些GPU广泛应用于智能手机、平板电脑、笔记本电脑、智能电视、机顶盒，以及智能手表、XR 设备、车机系统等在内的各类设备。目前，Arm合作伙伴的GPU出货量已超过100亿颗。

游戏和AI成为Arm GPU最广泛的应用。2023 年手游创收占应用商店总营收的 63%，预计 2024 年手游营收将超过 1110 亿美元。据 data.ai 预测，2024 年，移动应用商店中至少 10% 的应用将由 AI 以某种形式驱动。在游戏性能方面，与去年的解决方案相比，主流手游运行在采用Immortalis-G925的Arm终端CSS参考平台时，性能平均提升了46%。在AI/ML的图像处理（如分割或分类）方面，与去年的全面计算解决方案(TCS)相比，性能提升41%。在超级采样任务中，使用神经网络放大图像时，性能提升近30%；在自然语言处理和语音转文本方面，性能提升50%。某些ML计算如图像分割或物体检测等工作负载，很适合在GPU上运行。

Arm GPU性能的提升很大程度上得益于新技术的采用，比如在Immortalis-G925中，Arm引入了片段预处理 (Fragment Prepass)的新机制，使得应用无需进行任何对象或原语排序。片段预处理的理念在于，首先处理图块中的片段，确定其可见性。然后人们便能够基于这些信息只对可见的片段进行全片段着色。虽然这需要将片段处理的某些早期阶段运行两次，但减少的工作量却足以抵消花费的成本，因为早期阶段的能耗成本通常比完整片段着色要低得多。此外，片段预处理还可以更高效地减少过度绘制，进而提高性能和能效，同时减少应用的CPU负载。因为无需对象排序往往会导致渲染线程周期的缩短，甚至可高达43%。在引入片段预处理等新机制后，主流游戏中的性能得以提升。

另外，在Immortatis-G925中，Arm还改进了光线追踪技术。光线追踪技术越来越受欢迎，使用传统透明度处理技术进行渲染时，树叶和草地等复杂物体会给光线追踪带来挑战。光线无法透过此类物体，而继续寻找可穿过的透明对象，导致成本高昂，影响性能。Arm所做的改进为开发者提供了一系列性能和准确性选择，在保持视觉准确性的同时性能提高27%。

软件生态：充分释放Arm内核性能和效率

工具和软件库在优化人工智能和基于计算机的应用程序方面发挥着重要的作用，这些库为开发人员提供了量身定制的工具，可以最大限度地提高Arm最新内核的性能和效率。为充分利用Arm终端CSS的性能优势和潜力，Arm针对开发者推出了量身定制的工具和软件库，包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV等。

安谋科技 (Arm China) 开发者生态高级经理李陈鲁介绍指出，从概念上来说，Arm Kleidi是一个包含一系列针对 Arm CPU 高度优化的计算内核代码的软件库，可以被直接整合进各类库或者框架，从而让绝大多数开发者在Arm平台上轻松获得出色的性能表现。目前的版本由两个部分组成，分别是KleidiAI和KleidiCV。它们都是针对Arm CPU架构以及微架构优化的，可支持面向未来的SVE2和SME2指令集，也没有放弃传统的Neon，从而能够在非常广泛的设备上达成最佳性能。

KleidiAI是一套面向AI框架开发者的计算内核，能使开发者在多种设备上轻松获得Arm CPU的最佳性能。Arm对KleidiAI 的功能范围定义为只覆盖那些开发起来最为耗时的ML负载，然后根据这一原则以及目标设备的特性再去选择最合适的内核来处理相应的任务。使用 Llama.cpp测试获得的结果显示，采用KleidiAI之后，Token首次响应时间可以提升到之前的3倍。

KleidiCV面向计算机视觉应用。当前CPU的瓶颈正困扰大量计算机视觉应用，KleidiCV的引入可以带来巨大的性能提升。Arm将与OpenCV.ai合作，简化安卓开发者将OpenCV集成到项目的工作，并使他们能够从KleidiCV的性能改进中受益。

据李陈鲁介绍，今年Arm在性能分析工具领域也有一些新的变化。首先人们熟悉的Arm Mobile Studio正式更名为Arm Performance Studio，其针对移动平台的功能没有变化，但通过增加对Arm Linux的支持，可以让基础设施市场中的开发者使用Streamline CPU的分析能力。Arm Performance Studio 还添加了两个新的工具：一个是 RenderDoc for Arm GPUs，最新版本已经支持对光线追踪内容的录制与回放；另一个是Arm Frame Advisor，能够更好地向开发者提供关于渲染负载的信息，以及更有针对性地建议。

在大模型的加持下，移动终端设备市场正在酝酿一场新的变革，由此诞生了AI智能手机和 AI PC。应对这一挑战，Arm也在不断提出新的技术与产品。此次新推出的Arm 终端 CSS 所带来的 Armv9.2 能效优势，加之物理实现和持续的软件优化，将彻底革新开发者和消费者的体验。现在正在进入移动设备行业的又一个关键时刻。