学位论文简介
基础线性代数数学库是科学工程与人工智能领域最为基础的数学软件工具,几乎所有涉及到数值运算的问题都依赖于向量和矩阵的基本计算形式。论文主要针对基础线性代数库BLAS与LAPACK中的主要关键算子,针对不同的异构计算平台进行了性能优化工作。同时,论文分别为各个关键算子设计了智能调优组件,即结合人工智能领域的前沿研究成果,为传统HPC算子的移植与自适应调优进行了赋能与改进。总结来说,论文取得的创新性研究成果如下:
(1) 提出了一种面向异构系统基于OpenCL框架实现的GEMM优化算子。为国产GPU架构设计了双缓冲流水线与细粒度预取优化策略;此外,设计了一套基于贝叶斯优化的算子自适应调优器,使得该算子能够在各类型异构平台上实现高性能矩阵乘法计算。
(2) 提出了一种针对多核CPU的智能稀疏矩阵-向量乘法库SSpMV。该算子库在包含九类经典稀疏格式的优化实现外,还设计了多模态模型MM-Adapter来捕捉隐含的稀疏多模态结构,使得SSpMV实现了当前最先进的预测精度与CPU平台上最通用的高性能SpMV算子。
(3) 提出了一种层次并行优化的稀疏超节点Cholesky分解算法HPS-Cholesky。这一关键算子设计了细粒度松弛因子TRelax,同时利用图神经网络模型推理适配不同输入矩阵的最优并行计算粒度,使得HPS-Cholesky能够在在国产多核计算平台上具备更好的并行性能。
(4) 提出了一种流式任务映射优化的稀疏多波前QR分解算法STM-MQR。论文主要针对其符号分析过程,利用图神经网络模型自适应选择最优重排序算法。且针对多NUMA架构,设计了线程绑定策略与内存亲和策略,结合论文提出的流处理优化框架,能够在各类型多核CPU计算系统上显著提升稀疏多波前QR分解算法的计算效率。
主要学术成果
[1] Shengle Lin, Wangdong Yang, Haotian Wang, Qinyun Tsai, Kenli Li. STM-multifrontal QR: streaming task mapping multifrontal QR factorization empowered by GCN[C]//Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. 2021: 1-14. (SC '21)(第一作者,体系结构顶会,CCF A类会议)
[2] Shengle Lin, Wangdong Yang, Yikun Hu, Qinyun Cai, Minlu Dai, Haotian Wang, Kenli Li. HPS Cholesky: Hierarchical parallelized supernodal Cholesky with adaptive parameters[J]. ACM Transactions on Parallel Computing, 2024, 11(1): 1-22.(第一作者,ACM Trans源刊,IF:1.6)
[3] Qinyun Cai, Guoqing Xiao, Shengle Lin, Wangdong Yang, Keqin Li, Kenli Li. ABSS: An Adaptive Batch-Stream Scheduling Module for Dynamic Task Parallelism on Chiplet-based Multi-Chip Systems[J]. ACM Transactions on Parallel Computing, 2024, 11(1): 1-24.(第三作者,ACM Trans源刊,IF:1.6)
[4] 阳王东,王昊天,张宇峰,林圣乐,蔡沁耘. 异构混合并行计算综述[J]. 计算机科学, 2021, 48(12): 24-28.(第四作者,CSCD中文核心收录,CCF B类中文期刊)