天数智芯落地成绩单 | 做好用GPU 赋能千行百业

来源:天数智芯 #天数智芯#
1537

1月26日,天数智能首次公布商业规模化落地成果。产品落地 20 多个行业,服务300+客户,部署1000+次,在互联网、AI大模型、科研、金融、医疗、教育、交通助力客户业务智能化发展。未来三年,天数智芯将推出多款产品,持续加大生态投入,以高性能、高性价比、易用性,赋能千行百业AI落地。

做好用GPU 赋能千行百业

(天数智芯副总裁 邹翾)

非常开心今天能和这么多新老朋友相聚。在座的很多伙伴,从 2018 年我们第一代产品还在设计阶段时就给了宝贵建议,2021 年第一代产品发布时也与我们站在一起。一路走来,正是大家的支持与信任,让天数能够不断前行。

过去七年,我们始终坚持以设计“好用、易用”的产品为核心。坚持从架构、核心IP到编译器、驱动全栈自研,补全了国内GPU设计的全栈能力。并与在座各位生态伙伴一起,从芯片到系统,从系统到应用实现,通过白盒联调扫清了一个又一个落地性能的盲区,率先摆脱低效算力的泥沼。将一款又一款更懂计算的GPU产品推向市场。伴随市场需求增长,我们完成了四代产品迭代,每代持续提升性能与效率、应用性价比相比前代至少提升一倍,并通过生态建设最大限度降低客户的开发与迁移成本。

截至 2025 年底,天数产品已在互联网、大模型、金融、医疗、教育、交通等超过 20 个行业落地应用。我们有幸与超过300家用户共同探索算法的持续演进,并通过软硬件协同优化,完成1000+次模型部署,让产品能力真正达到商用级别。

在这个过程中,我们看到市场正在从“关注纸面算力”转向“关注应用效果”,而应用落地,已经成为衡量算力是否真正有效、有价值的唯一标准。

AI已成互联应用网标配——Chatbot承接70%的售前咨询、文生图工具日活破百万、智能摘要插件覆盖千万级用户,但Token成本高的核心瓶颈让企业陷入两难:头部互联网公司的AI客服,GPU硬件成本高企,高峰时段还得限在线人数、减少对话轮次;成本不仅压着并发量,更限制了产品体验与业务规模化扩张的可能。

天数产品直指核心问题,基于自身芯片量化算力高、架构效率高的特点,以自研ix-Attention结构着重优化长序输入的处理能力。在Prefill及Decode计算范式分离后,聚焦长序列首字Prefill优化,将可支持客户提问的量提升2倍,反馈延迟降低50%。

具体来说,针对Prefill计算pipeline, 我们通过图优化,算子融合,将用户的模型中不同的计算小块组合为最适合天数芯片并行执行的数据布局,并通过多流并行将不同精度的计算、访存、通讯任务无延迟并行排布,借此充分发挥天数产品的算力及效率优势,单位算力下性能高于国际产品。将延迟降低了一半,吞吐提高了一倍,从硬件底层达成了算得快,算得省。

在应用开发层面我们的软件接口完全兼容用户的编程框架比如xllm,interLM,开放芯片底层编程模型方便用户自行调优,让用户使用过程中与国际产品无差别感。客户只需相对其他产品更少的精力就可以完成开发调优。同时,对于部分需要一站式交付的用户我们和系统伙伴把计算、互联、存储、机架部署全部打通,直接上线服务,以token计价的方式给客户一个完全屏蔽基础设施的方案。

经头部互联网公司规模化验证,效果显著:每Token处理成本降低一半,并发用户服务数提升,服务质量提高。实现了“高并发、优体验、控成本”的三重突破。

提到这些应用就一定要提大模型,国产大模型正以“季度级”速度爆发式迭代——DeepSeek、Qwen、Kimi不仅参数规模从7B、70B向300B,1TB快速演进,还持续新增多模态、长上下文、插件调用等功能,成为千行百业智能化转型的核心底座。

但大模型落地的痛点日益凸显:AI创业公司研发的金融大模型,每季度迭代2个版本,每次适配新硬件都需要10人团队耗时2周,修改千百行底层代码,适配成本高、周期长。传统企业引入开源大模型做内部知识库问答,尝试不同硬件常会遇到开发接口不兼容,原本计划1个月的落地周期延长至2~3个月,错过业务上线窗口期。更关键的是,不同模型的算子结构、并行策略差异巨大,企业往往需要为每种模型单独开发适配方案,既占用大量研发资源,又拖慢了业务创新速度,让“快速用上最新模型”成为奢望。

天数产品依托通用GPU丰富的指令集,以及过往7年在模型上积累的几千个基础算子库,为用户大模型开发及部署提供了国内最丰富的大模型乐高零件底座,使大多数模型发布即可跑通。调优仅需重建<2%的结构,新算子性能快速可调。具体的以DeepSeek V3到V3.2的升级为例,发布当天我们95%的算子已经支持,主要差别的Attion部分MLA到DSA的升级拆分后仅几个lib需要进行尺寸调优。

同时天数底层软件栈与vllm,SGlang等主流框架接口保持高度兼容,用户无需改变既有开发习惯。每次模型升级都能快速支持,性能调优也可复用开源社区的最新算法,或基于私有框架调用原有函数进行重组,真正实现“低学习成本”的持续迭代。

正是凭借这种低开发成本、高性能开箱即用的优势,才得以在国内各大模型发布当天即支持,并在这些模型开发及定制部署过程中被广泛使用。目前,在实际集群中已稳定运行超过 150 种模型及变种,以及近 100 种定制算子,成为用户快速开发、敏捷部署的国产首选算力。

随着AI for Science成为主流科研范式,国内科研团队正面临“算法创新压力与算力需求同步激增”的双重挑战:在海洋地质勘探领域,科研人员需要用AI拟合地震波数据,同时需通过传统有限元算法验证模拟精度,两种范式的算力需求差异巨大,现有硬件难以兼顾,数据收集及计算周期长达数月。

在基因测序领域,研究人员要处理数万份基因组数据,既要用AI模型快速识碱基对种类,又需通过多序列比对算法保证结果准确性,底层硬件适配耗时占项目总周期的近一半;而对于顶级院校,这些研究任务要并行进行,意味着硬件需要随时面对千差万别的算法需求,集群每时刻工作负载的剧烈变化,挑战系统的可靠性

面对这一挑战,天数产品凭借我们通用 GPU 架构与丰富的指令集支持,能够天然适配各类前沿算法。无论是伯努利方程、动量守恒方程,还是复杂的多物理场耦合算法,我们的天垓与智铠产品都能快速迭代,让研究人员可以将更多精力投入到算法创新本身,而无需在底层硬件适配中消耗大量时间。基于这一优势,我们与合作伙伴共同打造了一系列行业加速库支持RTM,PSTM,MVDR、GROMACS,实现了从算法原型到高性能部署的无缝衔接。

与此同时,天数集群在稳定性与可靠性方面也经历了验证。通过与合作伙伴联合打造的运维系统,集群能够支持上百种不同科研任务的并行调度与动态启停,在保证高利用率的同时,确保长时间、高负载下的稳定运行。截至目前,我们的千卡的集群已稳定运行超过1000天,充分证明了系统在大规模科研场景下的成熟度与可靠性。

依托强大的算法适配能力与稳定的集群运行能力,我们的天垓和智铠已在国内多数顶级高校与科研机构广泛部署,并持续与前沿科研团队共同迭代算法、优化架构,探索未来未知的世界。

以上分享的成果,只是天数产品截至2025年落地应用中的沧海一粟。在更广阔的千行百业里,我们的算力正持续创造真实价值:金融领域,行业研报生成效率直接提升70%,量化分析响应速度提速30%,为决策抢占毫秒级先机;医疗场景,病患结构化病例生成压缩至30秒/份,肠胃镜病灶精准定位能力提升30%,用技术为诊疗效率与精准度双重赋能;交通领域,地铁站智能分析场景从电梯、车门等核心节点,快速拓展至站厅、通道、换乘区的全域覆盖,筑牢出行安全防线。

自2021年至今,标注着“天数inside”的各类产品已从试验步入量产阶段,正以规模化的势能在国内率先深度赋能千行百业的智能化转型。

在推动转型落地的过程中,我们也在不断思考:什么是好的GPU?该以怎样的标准衡量? 客户在产品级决策中,最核心的诉求究竟是什么?

我们的洞察——应用落地是唯一真理。真正的价值,终究要回归到最终的应用的体验:包含产品采购时的高性能,性价比,更是在算法迸发的当下用户开发投入的人力效率,而这离不开在座所有伙伴共建的生态。

如果说芯片是应用落地的种子,系统生态决定了是否能长成参天大树。在这里,我想特别感谢过去 7 年里与天数并肩战斗的所有生态合作伙伴。正是因为大家在各自领域的深耕与专注,我们才得以共同构建起覆盖国内乃至国际的 AI 应用生态;也正是因为这种协同,千行百业才能够以更高性能、更低门槛、更自然的方式使用 AI。

在与用户的交流中,我经常会问:除了 GPU 芯片本身,你们在 AI infra 系统上还有哪些最核心的诉求?答案是用户希望在系统的每一个环节都拥有自主选择的权利。因为每一位伙伴都有自己的技术长板,都有在特定场景下的极致性能与独特优势。而这种选择权,也正是用户在战略上控制成本、提升效率的重要保障。

因此,我们愈发坚定一个信念:生态就是性能,生态就是开发成本的降低。生态的广度决定了应用的覆盖度,生态的深度决定了用户的使用体验。在此,我谨代表天数郑重表态:未来,我们将持续加大在生态共建上的资本与人力投入,从应用框架到模型库,从开发工具到行业解决方案,从软件栈到芯片优化,我们都将与伙伴们深度协同,共同打磨真正面向落地的 AI 系统。为用户持续创造三大核心价值:极致性能、最优性价比,以及真正的易用性。这是我们对生态的承诺,也是产品未来持续投入、持续进化的方向。

未来三年,天数将基于三代全新架构,持续推出新一代产品。在每一代产品中,我们都会聚焦提升芯片最核心的能力,不断突破每瓦性能与每平方毫米性能的极限,持续迭代核心计算单元,让应用性能能够随算力提升而有效增长。向用户提供每代每块钱token翻倍的能力。

同时,我们将继续与生态伙伴携手,充分结合供应链上下游的优势,以应用目标为导向,打通从芯片、封装、存储、互联到整机系统的全链路,在规模扩大的同时保持性能增强与可靠性提升。

在此基础上,天数将继续保持底层开放,让开发者能够更轻松地利用我们的新一代架构进行应用创新。

AI 驱动的新一轮算法与应用浪潮已经全面开启,我们每个人都身在其中,既是贡献者,也是受益者。

面向未来,天数将继续坚持高效率、可预期、可持续的架构理念,打造高性能、高性价比、更好用的产品,为千行百业提供稳定可靠的算力底座,共同推动 AI 走向规模化落地。

而我也有一个简单而坚定的愿望——希望在不久的将来,每一位开发者都能通过简单的编程方式、触手可及的算力,把自己的创意与才智转化为推动人类进步的力量。让算力真正普惠,让创新不再受限。谢谢大家。

责编: 爱集微
来源:天数智芯 #天数智芯#
THE END
关闭
加载

PDF 加载中...