中国科学院处理器芯片全国重点实验室三篇论文获HPCA 2025接收

作者：集小微 2024-11-17

来源：处理器芯片全国重点实验室 #中国科学院# #计算技术# #处理器芯片# #中科院#

1.1w

近日，中国科学院计算技术研究所处理器芯片全国重点实验室（以下简称“实验室”）三篇论文《Hydra: Scale-out FHE Accelerator Architecture for Secure Deep Learning on FPGA》《NeuVSA: A Unified and Efficient Accelerator for Neural Vector Search》《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》被体系结构领域顶级会议HPCA 2025（The International Symposium on High-Performance Computer Architecture，CCF-A类）接收。

论文

《Hydra: Scale-out FHE Accelerator Architecture for Secure Deep Learning on FPGA》

第一作者为实验室集成电路课题组博士生杨英豪，指导教师为路航副研究员和李晓维研究员。Hydra是面向基于全同态加密的深度学习推理（包括CNN和LLM）硬件加速架构。现有的垂直扩展（Scale-up）全同态加速器通过堆叠大量的计算和存储资源实现较高的并行计算能力和吞吐性能。然而，随着深度学习模型规模的不断增大，这种设计模式必然会面临物理极限，难以无限制的增加硬件资源来应对急速膨胀的密态推理计算负载。本文提出的Hydra架构将视角从底层硬件计算单元的高并行和高吞吐转向密态深度学习推理中丰富的应用级并行性。通过高效的硬件架构、任务分解、资源分配策略以及卡间同步机制的设计与协同，实现了能够充分利用应用级并行性的可横向扩展（Scale-out）全同态加速器。该架构能够根据具体模型动态调整任务映射策略并最大化的掩盖计算节点间的通信开销以提高系统性能。在密态CNN和LLM推理评估中，Hydra的性能远超目前最先进的全同态加密FPGA加速器方案，并且在8卡下的性能超过大多数ASIC加速器方案。团队在2023年HPCA会议上就发表了全同态加密硬件加速架构的论文。在近几年的研究过程中，陆续开发了多款面向主流全同态加密算法的FPGA加速器原型和配套软件库——Poseidon，为全同态加密硬件加速的学术研究起到了推动作用。

图1 Hydra基于Scale-out设计思想的全同态加密硬件加速架构

论文

《NeuVSA: A Unified and Efficient Accelerator for Neural Vector Search》

第一作者为实验室集成电路课题组硕士生袁梓铭，指导教师为梁胜文副研究员、王颖研究员和李晓维研究员。NeuVSA是基于乘积量化算法的统一神经向量检索加速器设计。神经向量检索（Neural Vector Search，NVS）涉及向量生成阶段和向量检索阶段，前者利用神经网络将图片、文本等数据的语义映射到高维向量，后者利用高维向量完成数据检索。然而，向量生成阶段和检索阶段的计算模式截然不同，现有的神经网络加速器或向量检索加速器仅聚焦单一阶段，无法兼顾两者。简单地组合现有加速器，则存在并行度不足、数据访问冲突频繁等问题，难以达到最佳的召回率、延迟和吞吐量。本文提出的NeuVSA，采用算法和架构协同设计的理念，在算法层面提出基于可学习乘积量化统一NVS算法，不仅实现了计算模式上的统一，还能够提高检索效果；在架构层面定制专用加速器，通过挖掘算法中的并行性，结合结构化索引分配策略以及硬件感知调度策略等技术，降低数据访问冲突并提高吞吐量。相比于现有方法，NeuVSA在提升检索效果的同时，降低了检索延迟、能耗和芯片面积，能够适应大规模的神经向量检索场景的需求。

图2 NeuVSA加速器的架构

论文

《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》

共同第一作者为实验室智能计算机课题组博士生刘炼和赵世新，指导教师为王颖研究员。Hermes是一个面向大语言模型（LLM）本地部署的低成本近存扩展系统，有效地解决了LLM本地部署的痛点。随着LLM在各种任务中的卓越表现，如代码生成、机器翻译和聊天机器人等，其部署成本的高昂成为了普及的一大障碍。传统的LLM部署需要昂贵的服务器级GPU和大容量HBM存储，这限制了它们在更广泛场景中的应用。 Hermes系统通过巧妙地利用近数据处理单元（NDP）增强的DRAM DIMM，显著提高了消费级GPU的性能，使得在预算友好的硬件上部署LLM成为可能。与此同时，Hermes 系统有效的利用参数分布的冷热特性和近存计算的特点，突破了现有解决方案中主机和GPU内存之间带宽限制的性能瓶颈。这项研究不仅提出了一种新颖的异构计算策略，将LLM中的“热”神经元映射到计算效率高的GPU上，而将“冷”神经元卸载到存储容量大但计算能力有限的NDP-DIMMs上，还引入了一个轻量级预测器，以实时预测和调整神经元的分区，并通过基于窗口的在线调度机制保持多个NDP-DIMM模块之间的负载平衡。这样的设计充分利用了GPU的计算能力和NDP-DIMMs的存储能力。与现有的基于卸载的推理系统相比，Hermes在流行LLM上实现了平均75.24倍的速度提升，为LLM的部署和应用开辟了新的可能性。此外，Hermes 能够取得与具有昂贵的服务器级GPU和大容量HBM存储的LLM推理系统相近的LLM部署性能，而仅需要约5%的成本。随着Hermes系统的进一步发展和应用，我们有理由相信，它将为LLM技术的普及和应用带来革命性的变化，让更多的企业和研究团队能够负担得起并充分利用LLM的强大能力。

图3 Hermes System : 基于DIMM近存的低成本LLM推理系统扩展

HPCA主要收录计算机体系结构创新、高性能计算，处理器设计及其相关软硬件技术的前沿研究成果。自1995年创办以来，HPCA已经成为计算机体系结构领域的顶级会议，是全球计算机体系结构领域最为重要的学术会议之一，对于推动该领域的研究和发展起到了至关重要的作用。第31届HPCA会议将在美国拉斯维加斯举行，本届会议的学术论文录用率为21%（包括conditional accept）。

处理器芯片全国重点实验室依托中国科学院计算技术研究所，是中国科学院批准正式启动建设的首批重点实验室之一，并被科技部遴选为首批 20个标杆全国重点实验室，2022年5月开始建设。实验室学术委员会主任为孙凝晖院士，实验室主任为陈云霁研究员。实验室近年来获得了处理器芯片领域首个国家自然科学奖等6项国家级科技奖励；在处理器芯片领域国际顶级会议发表论文的数量长期列居中国第一；在国际上成功开创了深度学习处理器等热门研究方向；直接或间接孵化了总市值数千亿元的国产处理器产业头部企业。