中国科大突破图神经网络训练瓶颈,Capsule 系统性能提升 12 倍
据 IT之家报道,2 月 23 日,中国科大苏州高等研究院的医学影像智能与机器人研究中心的 DDL 实验室于 2 月 11 日宣布,其团队在大规模图神经网络(GNN)训练系统方面的研究成果被国际著名学术会议 ACM International Conference on Management of Data(SIGMOD)2025 接纳。
当前主流的图神经网络(GNN)训练框架,如 DGL 和 PyG,充分利用 GPU 的并行计算能力,能够从图数据中提取结构特征,并在推荐系统、自然语言处理、计算化学以及生物信息学等众多领域展现出优异性能。
尽管 GPU 在 GNN 训练中展现了强劲的计算能力,但它的显存限制使得处理庞大的图数据成为一大挑战,现有的 GNN 系统在大规模图数据应用上仍有扩展性不足的问题。
为此,DDL 实验室团队开发了一种创新的核外(Out-of-Core)GNN 训练框架——Capsule,旨在为大规模图神经网络训练提供有效的解决方案。
与现有的核外 GNN 框架相较,Capsule 通过图划分和图裁剪策略,确保训练子图及其特征能够完全存储在 GPU 显存中,从而消除了反向传播阶段 CPU 与 GPU 之间的不必要 I/O 开销,显著提高了系统性能。
此外,Capsule 还通过设计最短哈密顿回路的子图加载方法及流水线并行策略,进一步增强了性能表现。同时,Capsule 的即插即用特性,便于无缝集成到主流的开源 GNN 训练框架中。在大规模真实图数据集中,Capsule 相比现有顶尖系统能够在仅占用 22.24% 的内存的情况下,提供最高 12.02 倍的性能提升,并给出了训练得到的嵌入方差的理论上界。
这一成就标志着我国在图计算系统领域的显著进展,为社交网络分析、生物医学图谱构建等需处理超大规模图数据的场景提供了全新的解决方案。
可查看论文链接:
https://doi.org/10.1145/3709669
广告声明:文中提及的外部链接(包括不限于超链接、二维码、口令等形式)旨在提供更多信息以节约您的时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。