深入解析Google「自己的芯片自己造」发展TPU十年之路

作者：爱集微 2024-08-08

来源：inside #谷歌# #Google#

2.2w

若把时光倒转一下，TPU 当年以AlphaGo 打败李世石九段的「秘密武器」，完成原本世人认为AI 在围棋永远不可能超越人类的创举一炮而红。

Google「自己的芯片自己造」，距离作出第一代人工智能专用芯片TPU 已经将近十年了！若把时光倒转一下，TPU 当年以AlphaGo 打败李世石九段的「秘密武器」，完成原本世人认为AI 在围棋永远不可能超越人类的创举，从此一炮而红，开启了科技业追逐人工智能圣杯的新浪潮。

TPU 是专为机器学习任务设计的应用专用集成电路电路（ASIC），正式的中文意义是张量处理器（Tensor Processing Unit），与通用型的CPU 和GPU 相比，TPU 在执行矩阵和矢量运算时效率更高。如果你把TPU 跟现在最夯的NPU 相比的话，硬要说NPU 的用途略广泛一些，而且NPU 使用的架构会将存储器和处理单元分开（TPU 则是将两者整合在一个芯片上）。

TPU 的故事可以追朔到2015 年、甚至更早。不少读者应该还记得，Google 最早的语音辨识功能早在2011 就发布了，随着Google Now、Google Assistant 用量变大，Google 开始使用深度神经网路开发语音识别等服务，也发现需要强大的数据处理能力。

Google 首席科学家Jeff Dean 是这么说的：「我们做了一些粗略的计算，如果每天有数亿人与Google 进行三分钟的对话需要多少运算能力。以今天的标准来看这似乎不算什么。但在当时，我们马上就意识到这很可怕！因为这会消耗Google 当时所有已部署的运算能力。我们需要将Google 数据中心的电脑数量翻倍，才能支援这些新功能。」

Google 随即研究了一下当时市面上的解决方案，但发现这些方案都无法满足基本的机器学习工作负载需求。因此决定自己来吧！想办法做出更具成本效益、节能的机器学习解决方案。

因此2015 年第一代TPU 芯片（TPU v1）在Google 内部上线了，并迅速在Google 各个部门得到广泛应用。据Google 机器学习硬体系统首席工程师Andy Swing 回忆，他们原本预计只需要制造不到1 万个TPU v1，但最终生产了超过10 万个，应用范围涵盖了广告、搜寻、语音、AlphaGo，甚至自动驾驶等多个领域。

据Google 副总裁兼工程院士Norm Jouppi 透露，TPU 的出现让足足让Google 省下了15 个数据中心。 TPU v1 的成功也让Google 意识到：机器学习芯片是有未来的！这也让Google 将TPU 视为关键产品之一，不断在TPU v1 基础上迭代升级，推出了性能更强、效率更高的TPU 芯片和系统。

例如，TPU v2 将单个芯片的设计理念扩展到了一个更大的超级计算系统，通过高频宽的客制化串联技术将256 个TPU 芯片连接在一起，构建了第一个TPU Pod。随后的TPU v3 加入了液体冷却技术，TPU v4 则引入了光学电路开关，进一步提升了性能和效率。