当前数据中心对算力的需求正以惊人的速度增长,AMD透露,该公司正计划打造多达120万颗GPU的超级计算机集群。业界认为,此举是为与英伟达竞争。
AMD的这一表态来自于该公司执行副总裁兼数据中心解决方案事业部总经理Forrest Norrod,在被问及AMD是否已接到关于120万颗GPU集群的咨询时,Forrest表示,这一表述几乎是准确的。
业界表示,通常来说人工智能(AI)训练集群由几千个GPU构建,通过高速互联能力进行连接。相比之下,拥有120万个GPU的集群几乎是不可能的。延迟、功耗、不可避免的硬件故障,将是构建这一集群需考虑的因素。
AI工作负载对延迟极为敏感,在这种情况下,如果某些数据传输比其他数据传输耗时更长,会干扰正常工作。此外,目前的超级计算机每隔几小时就会发生一次硬件故障,当规模扩大至目前已知最大集群的30倍时,这些问题将变得更加突出。
目前已知运行速度最快的超级计算机之一Frontier,GPU数量“仅有”37888个。
关于数量多达百万颗GPU的构思,表明了2020年代AI竞赛的严肃性,AMD Forrest没有透露哪个组织正考虑构建如此规模的系统,但确实提到有“非常清醒的人”正考虑花费数百亿乃至千亿美元在AI训练集群上。
(校对/刘昕炜)