
学位论文简介
随着一体化算力服务体系的构建,跨域分布式机器学习应用越来越广泛,例如智慧医疗、智慧交通、农业智能化等。因此,本文探索跨域环境下网络异构、算力异构、数据异构的特点对机器学习训练效率和模型质量的影响。取得了以下主要创新性研究成果:
(1)针对网络异构导致的域间参数同步效率低问题,提出了一种结合域内序列化通信和域间自适应通信调度的优化策略。首先,设计了基于通信计算重叠的序列化调度算法,通过权衡通信时延与计算重叠程度,减少通信时延对参数聚合的影响。其次,针对低速域间网瓶颈,提出根据网络时延和传输速率动态调整参数传输的策略。
(2)针对算力异构导致的域间参数同步被慢节点阻塞及异步更新精度损失问题,提出了一种结合同步与异步优点的半异步训练策略。该策略通过聚合部分参与方的子模型和延迟补偿方法,使算力较低的参与方也能贡献至全局模型,减少步调差异带来的精度损失。
(3)针对数据异构和算力异构特点导致模型精度受损的问题,本文认为需要根据数据分布和算力的差异调整各参与方子模型的更新方向,以减小各子模型的差距。提出了一种全局数据归一化方法,通过采样和调整局部训练数据的数量,控制各参与方本地计算的时间以缓解跨域系统算力异构;通过将全局未采样数据注入各个参与方的本地数据以缓解数据异构。
主要学术成果
[1] Yingjie Song, Li Yang, Yaohua Wang, Xiong Xiao, Sheng You, Zhuo Tang, Parallel incremental association rule mining framework for public opinion analysis, Information Sciences 630 (2023) 523–545. (中科院SCI 一区,第一作者)
[2] Yingjie. Song, Yongbao Ai, Xiong Xiao, Zhizhong Liu, Zhuo Tang, Kenli Li, HCEC: An Efficient Geo-distributed Deep Learning Training Strategy based on wait-free back-propagation. Journal of Systems Architecture 148 (2024). https://doi.org/10.1016/j.sysarc.2024.103070. (中科院SCI 二区,第一作者)
[3] Yingjie Song, Zhuo Tang, Yaohua Wang, Xiong Xiao, Zhizhong Liu, Jing Xia, Kenli Li, OASR-WFBP: An Overlapping Aware Startup Sharing Gradient Merging Strategy for Efficient Communication in Distributed Deep Learning, Journal of Parallel and Distributed Computing. Volume 196, (2025), 104997. https://doi.org/10.1016/j.jpdc.2024.104997. (CCF B类期刊,第一作者).
[4] Yingjie Song, Li Yang, Wenming Luo, Xiong Xiao, Zhuo Tang, Boosting Multi-Document Summarization with Hierarchical Graph. Elsevier Neurocomputing, Volume 614, 2025, 128753. (第一作者,中科院SCI 2区).
[5] X. Xiao, Z. Tang, L. Yang, Y. Song, J. Tan, K. Li, FDSFL: Filtering Defense Strategies toward Targeted Poisoning Attacks in IIoT-Based Federated Learning Networking System.IEEE Network Magazine, vol. 37, no. 4, pp. 153-160. (通信作者,中科院SCI 1区)