414.7亿原子模拟：世界纪录背后的“中国方案”如何打造？

作者：集小微 2小时前

来源：爱集微 #中科曙光# #龙讯旷腾# #超算互联网#

1627

在人工智能与科学发现深度融合的今天，算力已成为衡量一个国家科技实力的核心指标。长久以来，高端科学计算领域被视为西方科技巨头的“后花园”，高性能计算软件与硬件的生态壁垒高筑。

然而近日，产业界传来一条令人振奋的消息，龙讯旷腾MatPL机器学习软件（MatPL-2026.3版本）基于在国家超算互联网核心节点部署的中科曙光scaleX万卡超集群，成功使用NEP机器学习势函数完成414.7亿原子规模的液态水分子动力学模拟，所有原子间相互作用均达第一性原理级精度。这是继290亿原子模拟成果后，国产软硬件协同再次刷新世界纪录，标志着机器学习力场（MLFF）模拟的规模边界被大幅突破。

这不仅是一次算力的极限挑战，更是一场国产硬件和软件在“AI for Science”领域的“历史性握手”。印证了中国自主构建世界顶级科学计算生态的能力，为全球前沿科研的发展贡献了中国方案。

日前，中科曙光、龙讯旷腾、超算互联网平台三方相关负责人接受了集微网等媒体采访，围绕此次合作分享了背后的攻坚历程与创新思考。

硬核底座：万卡集群的算力“超级引擎”

在材料科学的世界里，尺度决定视野。传统的第一性原理计算虽然精度极高，但受限于算力，往往只能模拟数百或数千个原子的微观世界，难以触及真实材料中微米级的复杂结构。要突破这一瓶颈，唯有依靠算力的指数级跃升。

此次打破纪录的核心引擎，正是是中科曙光scaleX万卡超级群。该超集群能集成10240块AI加速卡部署，这并非简单的硬件堆砌，而是一套“存、算、网、管”全栈深度协同的紧耦合架构，单机柜算力密度较业界传统架构提升20倍。

“这套集群单柜功耗高达860千瓦，冷却、供电技术和硬件架构均达到2027年NVL576水平。”中科曙光解决方案与创新业务总经理张磊在介绍时难掩自豪。他指出，支撑起如此极致算力的，是曙光自研的浸没式相变液冷技术，将PUE（电源使用效率）降至小于等于1.04的行业领先水平，解决了高密度算力带来的散热难题。

但这只是底座。真正让这套“钢铁洪流”运转起来的，是其内部惊人的通信能力。张磊介绍，通过国产自研的高速互联芯片和400G国产原生RDMA高速网络scaleFabric，跨机IB卡间通信最高达392Gb/s。正是这种极低的通信延迟和极高的通信效率，使得系统能够高效调度4096张卡，去挑战400多亿原子的超大规模模拟。

如果说以前的模拟，就像是在显微镜下看一粒沙，现在则有了看整个沙漠的能力。这一硬件层面的突破，直接将材料模拟的尺度从“微观”推向了“介观”。这意味着，科研人员可以在保持第一性原理高精度的同时，去研究合金中的晶界、半导体器件中的缺陷、电池电极的界面等真实工业场景下的复杂问题，为新材料研发打开了全新的“上帝视角”。

软硬协同：释放极致计算效能

仅有强大的硬件，没有匹配的软件，超级算力只能沦为“昂贵的摆设”。在此次破纪录的背后，龙讯旷腾的MatPL机器学习软件扮演了至关重要的“翻译官”角色，它成功将复杂的物理模型转化为了硬件能够高效执行的计算指令，实现了国产软硬件的深度“共振”。

长期以来，科学计算软件高度依赖国外商业软件，且往往针对特定的国外硬件架构进行闭门优化，导致国产硬件即便性能达标，也面临“软件荒”的窘境。而龙讯旷腾与中科曙光的合作，走出了一条截然不同的路：从底层架构开始的联合优化。

北京龙讯旷腾科技有限公司高级研究员、机器学习研发总监索鹏飞博士介绍，MatPL-2026.3版本实现了五大创新，核心优势在于效率与规模。新版本通过梯度优化器、跨节点多卡并行训练等手段，训练效率比国际主流方案提高数倍到几十倍。

此外，使用机器学习势函数（ML-IAP）进行分子动力学模拟时通常需要百万步级别的迭代，对计算效率要求极高。据了解，双方合作中，通过对硬件特性做针对性优化，并充分利用Tensor Core优化核心矩阵运算，使得MatPL在单卡模拟效率上能媲美国际主流方案，而在大规模并行时，弱扩展效率在4000多卡规模下依然保持在88%以上。

这种软硬协同的化学反应，直接体现在了计算能力的跨越上。龙讯旷腾负责人指出，第一性原理计算不依赖经验参数，能精准预测材料性质，但计算量巨大。通过机器学习势函数，可以在成功保持第一性原理精度的前提下，将计算效率进一步扩展。

张磊也强调，这种合作模式打破了传统的“算力孤岛”。曙光不仅提供了硬件，其编译器团队与龙讯旷腾的算法团队进行了深度的“面对面”碰撞，将底层硬件特性通过编译器直接释放给上层应用，让科研人员无需关心底层硬件细节，即可调用极致算力。

生态普惠：让顶级算力触手可及

当前全球算力竞争日趋激烈，单纯堆砌硬件已非最优解。中国的探索在于将科学计算的精度与智能计算的效能深度融合。

国家超算互联网平台在这一合作中扮演了“黏合剂”的角色。超算互联网平台提供了稳定、弹性、大规模的异构算力资源池。目前平台注册用户已接近120万，近期更通过Tokens赠送活动，进一步降低了科研人员长期使用智能体实现科学创新的门槛。对于超算互联网来说，助力龙讯旷腾MatPL打破世界纪录并非终点，而是为了让人工智能和顶级算力真正服务于广大的科研工作者的前沿实践。

在采访中，三方代表不约而同地提到了两个关键词——生态和普惠。通过国家超算互联网平台，国产软硬件生态厂商可以实现联手，让每一个有想法的科研人员都能用得上前沿国产科研软件与异构算力资源。

过去，科研人员想要进行大规模模拟，往往需要组建昂贵的本地集群，面临高昂的购置成本、运维成本以及复杂的软硬件适配难题。而现在，依托国家超算互联网平台，这一切变成了“像用水电一样”的按需服务。

超算互联网平台龙讯旷腾项目负责人介绍，通过平台的“万卡邀测”计划，用户无需自建集群，即可弹性调用算力。更重要的是，平台提供了预安装、预优化的软件环境，配合7×24小时的技术支持，极大地降低了科学大模型研发门槛。此外，通过开源策略和低价的Token活动（如百万Token仅需0.1元），三方正合力构建一个开放、活跃的国产软件生态。

结语

从微观的原子模拟，到宏观的产业应用，这一合作的影响正在扩散。无论是7纳米芯片的器件优化、固态电池的界面设计，还是航空发动机的合金材料研发……414.7亿原子规模的模拟，不仅是一个数字，更是中国科技自立自强的一个缩影。从曙光scaleX万卡超级群的硬核支撑，到龙讯旷腾MatPL的算法突破，再到国家超算互联网平台的生态赋能，这场国产算力与软件和生态的“集体奔赴”，证明了中国完全有能力构建自主可控、世界领先的科学计算生态，也为国产超智融合算力之路增添了独特注脚。