答辩公告
我的位置在: 首页 > 答辩公告 > 正文
纵瑞星博士生预答辩公告
浏览次数:日期:2025-03-05编辑:


学位论文简介

随着深度学习近几年的飞速发展,越来越多的行业都开始使用深度学习的相关技术,比如自动驾驶、智能客服、图片生成等。深度学习现有的发展趋势就是模型参数越来越多、训练数据越来越大,这也就意味着必须相应的扩展训练设备,使用更加高效的分布式训练算法。目前大规模分布式训练中面临的最大的挑战之一就是如何合理的部署训练任务、如何选择合适的集合通信算法以减少通信开销。为了解决这些问题,本文提出了一种高效的任务部署算法和四种不同类型的集合通信算法。本文的主要创新点如下:

1)分布式训练任务部署算法。针对分布式训练任务中不同任务的并行训练方式导致的节点间通信效率问题,本文提出了一种分布式训练任务部署算法,基于节点之间的通信速度并采用一种基于注意力机制的深度学习模型,能够根据节点拓扑结构的布局、节点间的通信速度等计算任务部署策略,最大限度地减少通信延迟。

2)环形网络结构中的Ring all-reduce算法优化策略。针对Ring all-reduce算法在节点数较多时通信效率低的问题,本章提出了一种交错双向环状 all-reduce 方法。

3Dragonfly网络结构中的all-reduce算法优化策略。针对Dragonflyall-reduce算法带宽利用率不高的问题,本文提出了基于拓扑感知交错通信all-reduce算法。,该算法充分利用Dragonfly网络的结构特性,通过异步交错通信机制实现组内和组间的并行通信,显著提升了通信效率。

4)非全互联网络结构下all-reduce算法优化策略。针对主流all-reduce算法在非全互联网络结构中通信效率不稳定、通信开销较大的问题,本文提出了一种基于拓扑解耦的all-reduce算法。通过将复杂的拓扑结构分解为简单的子拓扑结构,最小化 all-reduce 通信所需的通信次数

5Spine-Leaf网络结构中的all-to-all算法优化策略。针对Spine-Leaf网络结构中all-to-all算法的带宽利用率不高,网络波动情况下通信开销变化过大的问题,本文提出了两种不同类型的all-to-all通信算法:基于数据切分和基于节点分组交错通信的all-to-all算法,分别适用于双层和三层Spine-Leaf网络结构。基于数据切分的算法先将数据切分为多份,通过在子进程中选择不同的交换机与网络线路进行并行通信,在网络通信线路冗余的情况下最大化带宽利用率,同时也减少了网络波动对性能的影响。基于节点分组交错通信的算法则针对异构Spine-Leaf网络结构,通过并行节点组内和组间通信提高了整体通信效率。最后,通过大量的实验验证了所提算法的性能,并通过对比其他all-to-all算法验证了所提算法的优越性。

 

 

主要学术成果

  1. Ruixing Zong, Qin Yunchuan, Wu Fam, Tang Zhuo, Li Kenli. Fedcs: Efficient communication scheduling in decentralized federated learning[J]. Information Fusion, 2024, 102: 102028.SCI 一区期刊,IF=14.8,第一作者)

  2. Ruixing Zong, Jiapeng Zhang,Zhuo Tang,Kenli Li. IBing: An Efficient Interleaved Bidirectional Ring All-Reduce Algorithm for Gradient Synchronization[J]. TACO 2024. 10.1145/3711818. (CCF A类期刊,第一作者)

  3. Ruixing Zong, Zhuo Tang,Kenli Li. B-Ring:An Efficient Interleaved Bidirectional Ring All-reduce Algorithm for Gradient Synchronization[C]. DAC 2024 poster. Accepted. (CCF A类会议,第一作者)

  4. Ruixing Zong, Zhuo Tang,Kenli Li. Topology Decoupled All-reduce Algorithm.ICASSP 2025. Accepted. (CCF B类会议,第一作者)

  5. Ke Zhang, Ruixing Zong, Yingjie Song, Yong Zhou. A Communication-Efficient Collaborative Task Offloading Method Based on Distributed Computing Cloud [C]. IEEE ISPA2024. Accepted.(CCF C类会议)

  6. Ke Zhang, Peng Zhenwen, Ruixing Zong. Communication Optimization in Blockchain Peer-to-Peer Networks[C].2024 27th International Conference on Computer Supported Cooperative Work in Design (CSCWD).DOI:10.1109/CSCWD61410.2024.10580841.(CCF C类会议)

  7. Ruixing Zong, Jiapeng Zhang, Zhuo Tang, Kenli Li. Topology-Aware Interleaved All-Reduce Communication for Dragonfly Network. Submitted to TON小修,CCF A类期刊

  8. Ruixing ZongZhuo TangKenli Li. Optimization of All-to-All communication algorithm in MoE training. Submitted to ICML 2025.审稿中