答辩公告
我的位置在: 首页 > 答辩公告 > 正文
张显博士生预答辩公告
浏览次数:日期:2025-02-26编辑:

学位论文简介

随着信息时代的到来,现实生活中越来越多的应用场景使用图结构数据来表示和存储,如社交网络、交通网络、生物网络、电商网络、引文网络等。针对国家明确提出2030年“碳达峰”与2060年“碳中和”的目标,以及图计算需求日益复杂多样,因此在智能计算场景中提升智能图计算应用高能效、低时延的性能需求越来越迫切。本文聚焦子图匹配、卷积神经网络、图卷积神经网络、图注意力网络等图计算模型,从图数据分区与图计算模型内在特性的高效融合实现负载均衡、图计算模型的多数据流计算引擎和图计算模型在异构 FPGA 平台上的高效映射、图计算的频繁内存访问和带宽瓶颈优化、图计算模型的轻量化技术等研究图计算模型的异构加速,并基于FPGA平台验证加速器的有效性和高效性。取得主要研究成果如下

1)基于CPU-FPGA平台的分阶段混合的子图匹配并行加速:针对子图匹配的NP难问题和图数据爆炸式增长,以及基于CPUGPU平台的子图匹配存在能耗高、开销大等问题,提出基于CPU-FPGA异构平台来加速子图匹配。设计了一个分阶段混合的子图匹配算法,首先使用标签和度过滤器(LDF)以及邻居标签频率过滤器(NLF)来过滤映射顶点并构建过滤候选顶点集C(u),然后使用CFL方法来构建辅助数据结构集A;根据数据图(查询图)的稀疏性选用GQLRI方法生成查询顶点顺序§,并在枚举阶段根据数据图(查询图)是稠密图还是稀疏图自动选择查询匹配顺序§。此外设计一个候选顶点辅助数据结构集的分区划分方法,为有效实现主机端和FPGA端多计算单元的负载平衡。并在子图匹配的枚举阶段充分利用FPGA的流水线和数据流机制来实现子图匹配加速。在真实数据集和合成数据集进行了大量的实验验证了加速器的有效性和高性能。

2)基于FPGA的协同利用剪枝和量化的卷积神经网络并行加速:随着CNNs模型层数的增多,参数量和计算量越来越大,针对CNNs推理加速提出了一个基于FPGA的自适应CNNs推理加速器AFPQ-CNN,加速器使用基于L1-normAPoZ的混合剪枝算法进行过滤器剪枝,设计可配置的定点参数量化和多计算单元,设计级联式的CNNs内核架构,并利用FPGA的数据流、深度流水线、循环展开等优化机制进行卷积计算加速。进行了大量的性能实验验证了加速器的高性能和高可扩展性。

3)基于多数据流与HBM的图卷积神经网络异构并行加速:针对不同规模大小和稀疏度的图数据集,以及GCN计算的数据流模式对图结构的依赖性,提出基于多数据流和高带宽内存(HBM)的GCN推理加速器,加速器支持多数据流、聚合优先与组合优先顺序的计算引擎,并且提出了一种基于决策树的多数据流计算引擎的自适应选择器,以根据各种数据集的特性以及GCN模型的特点选择最佳的计算引擎;其次,设计了多通道HBMPCs的高效映射来实现提高带宽,有效缓解了内存延迟和带宽瓶颈;同时计了GCN模型的混合定点量化策略,在几乎没有精度损失的情况下减少GCN模型的计算量和参数量,使GCN加速器具有更高的灵活性和更低的功耗。并在多种数据集上进行了大量的性能评估实验验证了加速器的高性能和高灵活性。

4)基于TOP-K剪枝与量化的图注意力网络异构并行加速:针对GAT模型的高精度导致其计算复杂性随之增加,和智能计算应用中存在硬件资源受限的约束等问题,提出一种基于TOP-K剪枝和量化的轻量级的GAT加速器LW-GAT,加速器设计了基于邻域节点注意力分数的TOP-K节点剪枝,同时使用一种灵活的邻域节点注意力分数TOP-K桶排序选择方法,以实现节点的有效剪枝和负载平衡;其次,LW-GAT采用动静态相结合的模型参数定点量化方法,并对GAT模型部分激活函数进行了调整,以实现模型和参数的压缩。第三,LW-GAT的设计采用了级联式并行结构,支持阶段内、阶段间和层间多级流水线并行,从而充分利用FPGA的深度流水线实现加速。在多种数据集上进行了大量的性能评估实验验证了加速器的高性能。

主要学术成果

[1] Xian Zhang, Guoqing Xiao, Mingxing Duan, Yuedan Chen, Kenli Li. PH-CF: A Phased Hybrid Algorithm for Accelerating Subgraph Matching based on CPU-FPGA Heterogeneous Platform, IEEE Transactions on Industrial Informatics, 2023, 19(7): 8362-8373. (SCI, 第一作者)

[2] Xian Zhang, Guoqing Xiao, Mingxing Duan, Yuedan Chen, Kenli Li. APPQ-CNNAn Adaptive CNNs Inference Accelerator for Synergistically Exploiting Pruning and Quantization Based on FPGA, IEEE Transactions on Sustainable Computing, 2024, 9(6): 874-888. (SCI, 第一作者)

[3] Xian Zhang, Guoqing Xiao, Jiapeng Zhang, Mingxing Duan, Kenli Li. DAHBM-GCN: A Flexible Graph Convolution Network Accelerator with Multiple Dataflows and HBM, Submitted to IEEE Transactions on Parallel and Distributed Systems, 2024, 1-16. (SCI, 第一作者)

[4] Xian Zhang, Guoqing Xiao, Jiapeng Zhang, Mingxing Duan, Kenli Li. LW-GAT: A Lightweight FPGA-based GAT Acelerator with TOP-K Pruning and Quantization, Submitted to IEEE Transactions on Neural Networks and Learning Systems, 2025, 1-14. (SCI, 第一作者)

[5] 蔡宇辉, 张显, 李肯立, 杨圣洪, 周旭, 余思洋, 段明星, 吴帆, 秦云川. 基于堡垒机的运维处理方法、装置、计算机设备和介质. 202310553443.2 (中国发明专利,已公开指导老师第一作者

[6] 李肯立, 杨圣洪, 张显, 蔡宇辉, 杨志邦, 余思洋, 唐伟, 段明星, 吕婷. 一种用于堡垒机的数据库高危指令审核方法和系统. 202210811101.1 (中国发明专利,已授权指导老师第一、二作者