答辩公告
我的位置在: 首页 > 答辩公告 > 正文
唐大海博士生预答辩公告
浏览次数:日期:2024-07-01编辑:

学位论文简介

本论文围绕基于多GPUGNN训练系统加速展开研究工作,主要工作内容和创新点如下:

首先,提出了一种面向单机多GPU配置的基于采样的GNN训练系统:GNNLabGNNLab通过将GNN训练流程的不同阶段固定到不同的GPU上,让每个GPU专注于相同的计算模式,从而提高计算资源的利用率。同时让每个GPU仅存储和当前分配的阶段相关的内存数据,解决了每个GPU内存资源的竞争问题。最后GNNLab提出了预采样的缓存策略,提高了单位内存容量的存储效率。实验评估表明,GNNLab的性能比最先进的GNN系统DGLPyG分别高出2.49.1倍和10.274.3倍。基于预采样的缓存策略在所有实验中都达到了最佳缓存命中率的90%99%

然后,提出了一种充分利用系统内存(即GPU显存和CPU主机内存)以及多GPU高速互连网络的GNN训练系统:XGNNXGNN从存算分离的思路出发,针对目前GNN多卡训练系统中GPU间资源冗余高的问题和通信资源利用率低的问题,提出了全局内存池的概念。全局内存池将通过高速网络连接的GPU显存和CPU内存统一管理,统一为一个抽象的整体,并将图结构数据和特征数据存储在全局内存池中,通过GPU间的通信和GPU-CPU通信来共享数据。全局内存池极大地减少了GPU间的资源冗余,同时将多GPU间通讯资源充分利用起来,提高了内存资源和通信资源的利用率。XGNN针对不同的GPU硬件连接网络拓扑,提出了最优的分区放置策略用来减少通信开销。同时为了减少采样阶段对远程图分区的访问次数,XGNN提出了针对GPU硬件结构优化过后的采样算法。通过实验对比,XGNN相比比DGLQuiverDGL+C分别高出2.37.9倍、3.315.7倍和1.32.8倍。

最后,提出了一个基于NVMe固态硬盘的GNN混合存储系统GNNStore。其包含GPU显存、CPU主存和NVMe固态硬盘三层存储结构。GNNStore通过对图拓扑数据和特征数据的访问模型进行分析,将其放到适合其本身特性的存储设备上,在将存储成本降至最低的同时,用来解决数据如何存储的问题。GNNStore设计了一种小数据流水线传输的方式,通过一小块CPU主存做中转,将NVMe固态上面的数据传输到CPU主存,再传输到GPU显存,通过将传输数据切块并用流水线技术将两次传输路径进行重叠,从而提高数据传输的效率。GNNStore还通过将数据切分存储到多个NVMe固态硬盘上,提高了数据的并行传输能力。实验结果表明,GNNStore在降低存储成本的同时,相比于将数据全存在CPU主存上的方案,在整体训练时间上面基本没有负面影响。


主要学术成果

[1] Dahai Tang, Jiali Wang, Rong Chen, Lei Wang, Wenyuan Yu, Jingren Zhou, Kenli Li. XGNN: Boosting Multi-GPU GNN Training via Global GNN Memory Store[C]//The 50th International Conference on Very Large Databases. 2024, 17(5):1105-1118 (第一作者,CCF A类会议)

[2] Jianbang Yang, Dahai Tang, Xiaoniu Song, Lei Wang, Qian Yin, Rong Chen, Wenyuan Yu, Jingren Zhou. GNNLab: a factored system for sample-based GNN training over GPUs[C]//Proceedings of the Seventeenth European Conference on Computer Systems. 2022: 417-434. (共同一作,CCF A类会议)

[3] Nian Liu, Jinyu Gu, Dahai Tang, Kenli Li, Binyu Zang, Haibo Chen. Asymmetry-aware scalable locking[C]//Proceedings of the 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. 2022: 294-308.(第三作者,CCF A类会议)

[4] Yufeng Zhang, Wangdong Yang, Kenli Li, Dahai Tang, Keqin Li. Performance analysis and optimization for SpMV based on aligned storage formats on an ARM processor[J]. Journal of Parallel and Distributed Computing, 2021, 158: 126-137.(第四作者,CCF B类期刊)