“冯诺依曼架构需要数据在CPU与存储器之间来回搬运,就好比如今的核酸检测,如果人数较多就出现排队的情况,效率较低。而存内计算就像人们在家用抗原检测,尽量减少人员外部流动,同时保证更高效率。”
ICCAD 2022期间,知存科技创始人兼CEO王绍迪在谈到存内计算芯片优势时如是说。
12月26日至27日,以“共创新发展,聚焦芯未来”为主题的中国集成电路设计业2022年会暨厦门集成电路产业创新发展高峰论坛(ICCAD 2022)在厦门国际会展中心举办。在27日举行的专题论坛上,知存科技创始人兼CEO王绍迪发表了以“WTM存内计算芯片及发展”为题的主题演讲。
王绍迪指出,存内计算概念实际在上世纪60年代就被很早的提出,但一直以来都没有真正技术落地,直到最近10年间,业界开始在这条技术路径上做更多的研究,原因正是摩尔定律的极限已经越来越近。
在如今最先进的5纳米和3纳米芯片制造工艺之间,SRAM存储器的密度并没有提升。王绍迪称,从7纳米到5纳米演进时,其SRAM存储器密度提升也非常有限,尚不足20%。这也意味着,与芯片制造工艺中摩尔定律逐渐失效相比,存储器的发展速度更慢,芯片的算力越来越大、核数越来越多,但实际每个核能够使用的存储器资源越来越少,因为存储器的密度、带宽和存储速度都远低于计算芯片的算力提升,这便是业内称之为“内存墙”的问题。
关于内存墙,王绍迪指出:“在如今AI计算时代下,随着数据量爆炸式增长,计算中数据的搬运量也越来越多,而芯片计算中有超过80%的时间和95%的能耗都被消耗在数据搬运过程中。因此,内存墙的问题在最近十年中越来越严重,业内开始重新寄希望于用存内计算去解决内存墙的问题。”
如何让数据本身带有计算能力、提高计算能效,这是知存科技一直以来致力方向。截至目前,全球大约有数十家公司在做存内计算相关的研发,但国内只有知存科技一家公司走到了如今的量产出货阶段。王绍迪表示,存内计算的切入点首先是存储器的物理特性特别适合人工智能一类的矩阵运算,,如果使用存算一体的技术原理,矩阵乘法效率将提高50-100倍。目前存内计算的应用场景主要是受功耗限制的小型穿戴设备、受散热限制的高清摄像头和受时延限制的VR/AR设备等一些同样有着高算力需求的领域。
知存科技的WTM2101芯片是国际首颗商用存内计算SoC芯片,拥有高算力存内计算核,相对于NPU、DSP和MCU计算平台,其AI算力提高了10-200倍。王绍迪介绍称,这款芯片是知存科技首次尝试在低功耗场景下量产的存内计算芯片,一般运行功耗在1毫安至5毫安之间。
王绍迪介绍称,目前WTM2101主要应用在可穿戴领域,例如手表、耳机等。此外,一些对讲、运动相关设备也会有部分应用。该芯片的优势主要是在低功耗模式下实现AI人声增强和深度学习降噪,同时和市场现有方案相比可以带来6倍以上的算力提升。在健康的监测上,该芯片加持下的设备更精准、功耗更低。另外,WTM2101应用于运动捕捉时,可以运行大型算法,同时将多种运动模式在一个简化模型中实现,将原先多个观测设备的程序简化到一个算法中,降低功耗和成本。
王绍迪预计,在未来的几年,知存科技平均每年都会对芯片进行5~10倍的算力提升,从明年开始,还会致力于将芯片的存储容量持续扩大到百兆级、GB级。随着存储器的容量增加,存内计算芯片的算力也将会实现线性维度的增加。
另外,知存科技也在针对存内计算开发专用的全套软件工具,未来会持续在工艺上推动芯片的进步,包括更多比特值和更高精度存储器的开发。预计2024年前会推出一个专用的存内计算存储器。
最后,王绍迪还提到,2.5D/3D封装技术非常适合用于存内计算芯片的集成,目前知存科技已经在成熟工艺上验证该技术的使用,明年预计将推出一款基于与先进工艺混合集成的存内计算产品。
(校对/萨米)