2月24日至26日,第24届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies, FAST)在美国圣克拉拉举行。清华大学计算机系存储实验室研究论文“GPU检查点保存和恢复的快速和轻量级方案”(GPU Checkpoint/Restore Made Fast and Lightweight)获得杰出技术贡献奖。该论文第一作者为计算机系2021级博士生曾少勋,导师为计算机系副教授陆游游。

杰出技术贡献奖
该论文提出了一种快速且轻量级的GPU检查点保存和恢复方案GCR,通过分离数据路径与控制路径,提出GPU的增量式检查点技术,高效支撑了多种现代GPU负载的关键应用场景,包括弹性GPU任务快速扩展、GPU多任务切换、容错的GPU计算等,对于提升GPU集群整体利用率具有重要意义。GCR支持vLLM、DeepSpeed、Transformers等主流框架和多种型号的GPU,在几乎不影响应用正常执行(性能干扰低于1%)的前提下,该方案可将检查点保存延迟降低至原来的28%,恢复延迟降低至13%。该论文还实现了高质量开源,其在功能完备性、性能可复现性等方面均展现出了高水准。
FAST(File and Storage Technologies)是计算机存储领域的顶级学术会议,是中国计算机学会(CCF)推荐的A类会议。