科技界的开年王炸,英伟达最强显卡官宣已有几天。
这一炸,响彻声至今仍不绝于耳。
在发布会上,黄老板举起了自家显卡,复刻了“美国队长”的经典pose。
这一刻仿佛在问全世界:Who is the real caption America?
英伟达为何有如此“大帝之姿”?不仅是因为其能够精准捕捉到时代的一次次发展动向,更关键的是建立了CUDA生态护城河,可以说“英伟达因CUDA而得天下”,CUDA的诞生也让无数开发者可以轻松利用GPU进行高效的计算任务。
而真正让英伟达进阶成传奇的,是V100、A00、H100、H200等产品系列,它们将GPGPU的高密度并行计算功能指标不断大幅提升。GPGPU,也成为了一直以来国际公认的至强主流路线。
但科技是变化的,是向前的,时代的洪流会在特定的时间内催生出新的技术与趋势。
随着AI时代的不断演进,ASIC芯片(专用定制芯片)强势崛起。依靠ASIC,博通市值突破1万亿美元,Marvell市值首次突破1000亿美元。甚至有消息称,英伟达或已成立了ASIC部门,正在到处挖掘ASIC人才。
ASIC不仅在国外发展迅速,纵观国内,海思、寒武纪等企业也纷纷乘着ASIC快车,取得建树。目前占据国内较高市场份额的,就是某大厂的国产ASIC(NPU)芯片。且经过长时间的宣传,舆论内外似乎都认为只有其才具备与国外抗衡的实力。
国产ASIC 挑战GPGPU
短期来看,ASIC的异军突起,无疑给AI算力芯片版图带来了新的变局,ASIC芯片已经被视为目前挑战GPU的一股不可忽视的力量,但长期发展来看,GPGPU路线的领先地位还是不可动摇。其中拥有“AI、GPGPU、全精度能力、兼容CUDA、生态优势”等这些利器的GPGPU芯片巨头海光信息,无疑是在国内表现最为突出的一个,但业内对此了解度普遍不够。
为深度了解GPGPU路线与ASIC差异,业内人士将国内领先的某NPU(ASIC架构)与海光的DCU系列(GPGPU架构),在AI处理器领域最为重要的生态兼容及精度方面,进行了一番对比。
1、生态建设
海光DCU:海光DCU提供的自主开放完整软件栈“DTK”,能够全面兼容“类CUDA”生态,且与国内外主流大模型适配良好,依托DCU可以实现LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用,实现了“训推一体”的AI场景全覆盖。且海光DCU拥有各种异构库、第三方厂商等的支持,已经形成了非常完善的异构软件生态。
在基于GPGPU架构的海光DCU之上,各种主流算法与模型可以做到“直接跑”,能够进行低成本快速适配,避免了后续的BUG维护问题,从生态建设上来讲,海光DCU已经达到国内领先水平。
国产NPU:NPU硬件性能虽然强悍,但生态系统相对比较局限,开发者可选的工具与框架选择较少,且在实际应用中,许多AI应用并未针对NPU的架构进行优化,而是依赖于通用的软件库和工具,导致NPU的软件生态相对较弱,运行效率不高,兼容性较差。
2、行业通用性和适用性
海光DCU:不仅适用于AI领域,还可以用于其他计算密集型任务,如大规模数据集的科学和工程计算等,具有更广泛的应用前景和市场需求,目前海光DCU产品被广泛应用于大数据处理、人工智能、商业计算等应用场景。
国产NPU:主要专注于神经网络的加速,用于AI训练和推理计算,适用于视频、图像类的海量多媒体数据,不涉及高精度算力应用的领域,涉及领域比较单一。
3、精度计算
海光DCU:基于GPGPU架构,海光DCU具备全精度浮点数据和各种常见整型数据计算能力,拥有大规模并行计算的能力,能够执行更广泛的通用计算任务,快速开发高能效的应用程序,特别适合于处理AI计算中大量的矩阵运算任务。
国产NPU:国产NPU属于定制型芯片,专为深度学习和人工智能任务设计的专用处理器,适用范围有限,在神经网络推理阶段,通常使用低精度计算用来提升计算效率。
抹除信息差,对比出真知
综上所述,我们可以得知,海光DCU在生态上的优势较为突出,对“类CUDA”等主流生态的兼容能力更强,在与国际主流大模型训练方向展和适配能力上表现更佳,还满足了全场景多精度计算需求,凭借良好的适配性,大大降低了用户的迁移成本,在各大领域的下游市场中获得了极高的认可度,与百度、阿里等头部互联网厂商形成了多个标杆案例。
国产NPU方面,尽管其在多精度等通用计算能力无法完全覆盖,且目前的生态具有一定的局限性,但在一些特定领域的表现,如神经网络推理方面,依然值得肯定。
最后想说的是,海光DCU目前的发展方向,与我国“六代机”及高铁基本一致,走的是纯国产高端技术路线,但鲜有人知其好在何处,还有人拿着“F22”与其类比。我想,也是时候应该让大家知道,好东西的标准到底是什么,以及我们真的不缺这种好东西。