唐大海博士生答辩公告-湖大信息科学与工程学院

我的位置在：首页 > 答辩公告 > 正文

唐大海博士生答辩公告

浏览次数:日期：2024-09-03编辑：

学位论文简介

本论文围绕基于多GPU的GNN训练系统加速展开研究工作，主要工作内容和创新点如下：

首先，提出了一种面向单机多GPU配置的基于采样的GNN训练系统：GNNLab。GNNLab通过将GNN训练流程的不同阶段固定到不同的GPU上，让每个GPU专注于相同的计算模式，从而提高计算资源的利用率。同时让每个GPU仅存储和当前分配的阶段相关的内存数据，解决了每个GPU内存资源的竞争问题。最后GNNLab提出了预采样的缓存策略，提高了单位内存容量的存储效率。实验评估表明，GNNLab的性能比最先进的GNN系统DGL和PyG分别高出2.4到9.1倍和10.2到74.3倍。基于预采样的缓存策略在所有实验中都达到了最佳缓存命中率的90%至99%。

然后，提出了一种充分利用系统内存（即GPU显存和CPU主机内存）以及多GPU高速互连网络的GNN训练系统：XGNN。XGNN从存算分离的思路出发，针对目前GNN多卡训练系统中GPU间资源冗余高的问题和通信资源利用率低的问题，提出了全局内存池的概念。全局内存池将通过高速网络连接的GPU显存和CPU内存统一管理，统一为一个抽象的整体，并将图结构数据和特征数据存储在全局内存池中，通过GPU间的通信和GPU-CPU通信来共享数据。全局内存池极大地减少了GPU间的资源冗余，同时将多GPU间通讯资源充分利用起来，提高了内存资源和通信资源的利用率。XGNN针对不同的GPU硬件连接网络拓扑，提出了最优的分区放置策略用来减少通信开销。同时为了减少采样阶段对远程图分区的访问次数，XGNN提出了针对GPU硬件结构优化过后的采样算法。通过实验对比，XGNN相比比DGL、Quiver和DGL+C分别高出2.3到7.9倍、3.3到15.7倍和1.3到2.8倍。

最后，提出了一个基于NVMe固态硬盘的GNN混合存储系统GNNStore。其包含GPU显存、CPU主存和NVMe固态硬盘三层存储结构。GNNStore通过对图拓扑数据和特征数据的访问模型进行分析，将其放到适合其本身特性的存储设备上，在将存储成本降至最低的同时，用来解决数据如何存储的问题。GNNStore设计了一种小数据流水线传输的方式，通过一小块CPU主存做中转，将NVMe固态上面的数据传输到CPU主存，再传输到GPU显存，通过将传输数据切块并用流水线技术将两次传输路径进行重叠，从而提高数据传输的效率。GNNStore还通过将数据切分存储到多个NVMe固态硬盘上，提高了数据的并行传输能力。实验结果表明，GNNStore在降低存储成本的同时，相比于将数据全存在CPU主存上的方案，在整体训练时间上面基本没有负面影响。

主要学术成果

[1] Dahai Tang, Jiali Wang, Rong Chen, Lei Wang, Wenyuan Yu, Jingren Zhou, Kenli Li. XGNN: Boosting Multi-GPU GNN Training via Global GNN Memory Store[C]//The 50th International Conference on Very Large Databases. 2024, 17(5):1105-1118 (第一作者，CCF A类会议)

[2] Jianbang Yang, Dahai Tang, Xiaoniu Song, Lei Wang, Qian Yin, Rong Chen, Wenyuan Yu, Jingren Zhou. GNNLab: a factored system for sample-based GNN training over GPUs[C]//Proceedings of the Seventeenth European Conference on Computer Systems. 2022: 417-434. (共同一作，CCF A类会议)

[3] Nian Liu, Jinyu Gu, Dahai Tang, Kenli Li, Binyu Zang, Haibo Chen. Asymmetry-aware scalable locking[C]//Proceedings of the 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. 2022: 294-308.（第三作者，CCF A类会议）

[4] Yufeng Zhang, Wangdong Yang, Kenli Li, Dahai Tang, Keqin Li. Performance analysis and optimization for SpMV based on aligned storage formats on an ARM processor[J]. Journal of Parallel and Distributed Computing, 2021, 158: 126-137.（第四作者，CCF B类期刊）

下一篇：: 邓泽坤博士生预答辩公告