喜报| 学院首次在计算机系统顶会SC获得最佳学生论文提名

发布者:胡舸发布时间:2025-12-23浏览次数:35


近日,全球高性能计算 (HPC)/系统领域顶会 SC25The International Conference for High Performance Computing, Networking, Storage and Analysis, 2025)在美国密苏里州圣路易斯 (St.Louis) 成功举行。浙江大学计算机科学与技术学院RC4ML实验室的论文 “Moment: Co-optimizing Physical Communication Topology and Data Placement for Multi-GPU Out-of-core GNN Training” 被会议录用。SC25共收到来自全球的 623 篇投稿,最终录用137 篇论文。该论文在众多优秀论文中脱颖而出,荣获大会最佳学生论文提名(Best Student Paper Nomination),全球仅有 6 篇论文获得此项殊荣。这也是浙江大学首次在计算机系统顶会获得学术荣誉。

会议介绍

 SCACM SIGHPC IEEE 计算机学会联合主办,是高性能计算、网络、存储与科学数据分析领域的重要国际学术会议,自 1988 年创办以来已连续举办三十余届,被普遍视为该领域最具代表性的年度会议之一, 也是中国计算机学会推荐的A类会议(CCF A。它长期代表着全球高性能计算、大规模存储及数据分析技术的最前沿方向,每年汇聚超过 10,000 来自学术界、国家实验室(如橡树岭、阿贡等)及工业界(如NVIDIAIntelAMD)的顶尖研究人员和工程专家,是全球超算技术发展的风向标。

论文介绍

在推荐系统、社交网络分析、金融风控等场景中,图神经网络(GNN)早已成为支撑业务的核心技术。然而,随着工业级图数据规模的爆发式增长——例如淘宝推荐系统中的用户物品图已经达到百亿级节点与边,存储需求高达数TB——传统 GNN 训练方案正陷入“两难困境”:

一方面,分布式多机集群虽然可以支撑超大规模数据,但需要持续投入昂贵的硬件成本,且 CPU 侧采样和跨机网络通信开销巨大,严重拖慢训练速度;另一方面,单机核外系统虽然成本更可控,却受制于单机 GPU 算力与 PCIe 带宽,难以真正释放现代 SSD 的并行性能。更关键的是,现有方案普遍忽视了一个核心问题:多 GPU 与多 SSD 的物理通信拓扑本身会引发链路竞争与负载失衡,单纯“堆硬件”反而有可能拉低整体吞吐。

针对这一痛点,Moment 提出在单机多 GPU 环境下,协同优化物理通信拓扑与数据布局,实现高吞吐、低成本的大规模 GNN 训练。

Moment核心工作流

Moment 的核心突破在于:

  • 将复杂的硬件连接关系形式化为容量受限的有向图,把通信调度问题转化为最大流求解,从系统层面精确规避 PCIe 链路、QPI 总线等关键路径上的竞争瓶颈;

最大流构建&求解

  • 设计数据分布感知的背包算法(DDAK),显式建模图数据访问的偏斜特性,在 HBM / CPU 内存 / SSD 之间进行分层布局优化,最大化数据局部性与链路利用效率。

实验结果表明,Moment 相比主流单机核外系统最高可实现 6.51

性能提升,相比分布式方案也能提速 3.02 倍,而硬件成本仅为后者约 50%,在不牺牲吞吐的前提下突破了单机训练的内存与性能天花板。

更重要的是,Moment 的发现与方法具有跨场景的普适价值:在众多数据密集型系统中,人们往往习惯通过“按需扩展硬件组件”来追求性能,却忽略了一个被长期低估的关键因素——物理通信拓扑对系统吞吐的决定性影响。尽管本研究以 GNN 训练为起点,这一现象同样广泛存在于近似最近邻搜索(ANNS)、大语言模型的键值缓存管理(LLM KV-Cache)、深度推荐模型(DLRM)等场景。未来,这套优化思路有望演化为面向大规模 AI 系统的通用“硬件数据协同设计”范式,为单机高性能计算不断拓展边界提供高效且经济的解决路径。

    论文原文:https://dl.acm.org/doi/pdf/10.1145/3712285.3759788

    代码链接:https://github.com/RC4ML/Moment



指导教师

    王则可博士,浙江大学百人计划研究员,隶属于浙江大学计算机学院智能所和人工智能协同创新中心。201912月开始在浙大入职,创建 RC4ML实验室,主要研究方向是使用异构硬件搭建低成本、高性能人工智能大模型系统,在智能计算系统领域发表论文36 篇,一作/通讯 20 CCF-A类论文,获得2022年度高等学校科学研究优秀成果奖(科学技术)科技进步一等奖、中国自动化协会科技进步一等奖、华为火花奖、20232025年度国际超算比赛IndySCC第一名。

实验室团队介绍

    RC4MLReconfigurable Computing for Machine Learning)实验室隶属于浙大计算机学院智能所和人工智能协同创新中心,深入研究主流异构设备如FPGAGPUP4 switchSSD与上层应用的高效协同设计。实验室紧密连接工业界,目前具体研究方向:1神经网络大模型训练系统:利用异构设备为人工智能模型训练定制分布式异构大模型训练系统。2图神经网络系统:利用异构设备优化分布式图神经网络性能。3智能网络应用: 利用异构设备优化分布式系统应用如分布式存储。4同态加密计算:利用异构设备优化同态加密计算。5. 生成式推荐大模型系统:基于算法系统协同设计,优化极低延时约束下推荐大模型推理性能以及优化超长序列情况下推荐大模型训练性能。目前实验室毕业学生在学术界、工业界广泛就职,比如去学术界任职浙江大学软件学院百人计划研究员,去工业界同学拿到阿里星、腾讯青云计划、字节筋斗云等顶级人才计划。



地址:浙江大学玉泉校区曹光彪大楼
电话:0571-87953025
传真:0571-87951250
学院微信
Copyright © 2025 浙江大学计算机学院 版权所有  新版网站试运行中,如您发现问题可反馈至hgzly@zju.edu.cn,谢谢您的关注!管理登录