• 行业咨询
  • 品牌营销
  • 集微资讯
  • 知识产权
  • 集微职场
  • 集微投融资
  • 集微企业库
搜索
爱集微APP下载

扫码下载APP

爱集微APP扫码下载
集微logo
资讯集微报告舆情JiweiGPT企业洞察
集微视频
登录登录
bg_img
search_logo
大家都在搜

摩尔线程 Round Attention:以轮次块稀疏性开辟多轮对话优化新范式

作者: 爱集微 03-05 11:24
相关舆情 AI解读 生成海报
来源:摩尔线程 #摩尔线程#
8313

【编者按】摩尔线程科研团队发布研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,该方法端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache 显存占用节省55%到82% 。

近年来,大型语言模型的进步推动了语言模型服务在日常问题解决任务中的广泛应用。然而,长时间的交互暴露出两大显著挑战:首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;其次,尽管键值( KV )缓存技术能缓解冗余计算,但其显著增加的 GPU 内存需求导致推理批处理规模受限及 GPU 利用率低下。摩尔线程提出 Round Attention 用于解决这些问题。

01 论文主要贡献

▼ 以轮次为分析单元研究 Attention 规律:Round Attention 专为多轮对话场景推理需求设计,以轮次为自然边界划分 KV 缓存,研究发现轮次粒度的 Attention 分布存在两个重要规律。

▼ 提出 Round Attention inference pipeline :基于发现的两个规律提出 Round Attention ,将稀疏性从 Token 级提升至块级,选取最相关的块参与 attention 计算,减少 attention 计算耗时,并将不相关的块 offload 到CPU内存节省显存占用。该 pipeline 在保持推理精度的情况下,减少了推理耗时,降低了显存占用。

02 核心创新:轮次块稀疏性的三大优势

▼ 自然边界的语义完整性

问题洞察:多轮对话中,用户意图常以轮次为单位呈现(如“推荐餐厅”→“询问人均消费”→“确认地址”)。

解决方案:Round Attention 将 KV 缓存按轮次(对)切分为独立块,每个块完整包含一轮对话的提问与回答,确保模型在计算注意力时能直接关联完整语义单元。

▼ 分水岭层的注意力稳定性

关键发现:通过分析 SharedGPT 数据集,发现主流开源模型(如 Qwen2.5B )在特定“分水岭层”后,各层对历史轮次的注意力分布高度相似,且同一轮内问题与答案的注意力模式一致。

技术价值:仅需在分水岭层一次性筛选 Top-K 相关轮次,即可覆盖后续所有层的计算需求,相比其他工作逐层动态路由,有效减少 Top-K 计算开销。

▼ 端到端的存储与传输优化

存储设计:将每轮 KV 缓存按分水岭层拆分为下层块( b_m )与上层块( u_m ),以轮次为单位整体存储于 CPU 内存,减少 GPU 内存占用。

传输效率:相比其他 kv cache offload 工作以 Token 级细粒度传输, Round Attention 以轮次为单位批量搬运 KV 缓存,单次 H2D 操作即可完成,降低 H2D 操作带来的延迟。

03 效果

端到端延迟低于现在主流的 Flash Attention 推理引擎, kv-cache 显存占用节省 55% 到 82% ,并且在主观评测和客观评测两个数据集上模型推理准确率基本未受影响。

04 未来展望:开源协作与技术融合

摩尔线程 Round Attention 期待与开源社区深度协同,继续探索稀疏注意力可能的优化工作,共同攻克 LLM 落地中的效率与成本难题。该论文已发布在 arXiv :

https://arxiv.org/pdf/2502.15294

责编: 爱集微
来源:摩尔线程 #摩尔线程#
分享至:
THE END
相关推荐
  • 摩尔线程MTT S4000训推一体计算卡通过中国信通院AI芯片和大模型适配验证

  • 摩尔线程GPU率先支持Qwen3全系列模型

  • 摩尔线程严正声明

  • 摩尔线程@2050大会:让年青人因科技和热爱而相聚

  • 摩尔线程“指令执行方法、装置、设备及存储介质”专利公布

  • 摩尔线程 “一种GPU芯片间的数据传输系统及方法、电子设备和存储介质”专利公布

评论

文明上网理性发言,请遵守新闻评论服务协议

登录参与评论

0/1000

提交内容
    没有更多评论
爱集微

微信:

邮箱:laoyaoba@gmail.com


10.9w文章总数
12012.5w总浏览量
最近发布
  • 互联AI的整体价值远超局部之和

    5小时前

  • 鸿翼芯HE9314荣获2025年度创新力汽车芯片大奖

    6小时前

  • 5G-A+智算+大模型护航!中兴通讯协同三大运营商让电竞激情零卡顿

    7小时前

  • 破局垄断——解码国产CPU内核的自主突围之路

    8小时前

  • 微容科技荣获“2024年中国产学研深度融合好案例” 打造研发创新沃土 推动产学研技术攻坚

    10小时前

最新资讯
  • 一周动态:上交所发布科创板成绩单,集成电路企业发展良好;哪吒断网、小米更名(4月29日-5月9日)

    2小时前

  • 半导体关税“重拳出击”:美国科技霸权又“作茧自缚”?

    2小时前

  • 正强股份:直接对美出口占比小,关税影响可控

    3小时前

  • 卓驭智驾方案已上车20余款量产车型,尚有30余款新品即将上市

    3小时前

  • 江淮汽车4月销售汽车3.08万辆,新能源汽车产销同比均下降超三成

    3小时前

  • 从“服务者”到“共建者”:爱德万测试30年与中国半导体的双向赋能

    14小时前

关闭
加载

PDF 加载中...

集微logo
网站首页 版权声明 集微招聘 联系我们 网站地图 关于我们 商务合作 rss订阅

联系电话:

0592-6892326

新闻投稿:

laoyaoba@gmail.com

商务合作:

chenhao@ijiwei.com

问题反馈:

1574400753 (QQ)

集微官方微信

官方微信

集微官方微博

官方微博

集微app

APP下载

Copyright 2007-2023©IJiWei.com™Inc.All rights reserved | 闽ICP备17032949号

闽公网安备 35020502000344号