答辩公告
我的位置在: 首页 > 答辩公告 > 正文
叶文华博士生预答辩公告
浏览次数:日期:2025-09-09编辑:

学位论文简介

随着深度学习在自然语言和机器视觉的蓬勃发展,诞生了众多神经网络,由于其巨大的计算量和参数,对运行的硬件平台和系统提出了较高的挑战。本文主要研究基于FPGA异构计算的深度学习神经网络加速技术,分析梳理了关键挑战,在CPU+FPGA的异构硬件平台上,通过软硬件协同设计了可重构加速器架构、高效计算模块、多级交织缓存方法,取得了以下主要创新性成果:

1.由于CNN在具体应用中需要对网络结构、网络层数等进行定制,同时计算量随着网络的加深而激增,针对这些挑战,本文设计了一种灵活的网络可重构CNN加速架构,可动态配置CNN网络输入图像、卷积核、池化等尺寸和网络的结构层数,且能自由组合不同CNN网络结构和网络深度。

2.注意力机制密集的矩阵计算和复杂的数据流给加速器架构提出了巨大的挑战。本文提出了一种基于FPGA的多头注意力的硬件加速器,设计了可重新配置的体系结构、高效的数据感知脉动阵列和对硬件友好的基2归一化指数模块。

3. ViT作为目前热度最高的基于transformer的视觉模型,其巨大的计算量和参数,限制了对于实时性要求较高的应用场景。本文设计了一种基于多数据流FPGAViT加速器,通过多个数据流串联各个功能模块,以高带宽流水线方式切分数据,在高性能矩阵计算模块内进行并行计算,能适应多种不同大小的ViT模型。

本文提出的三种基于FPGA的加速器都在实验平台上进行了多项测试,包括加速器架构的适应性、加速能力和能耗表现等,实验结果表明,相较于传统CPUGPU平台,本文的CPU+FPGA的异构设计在加速比和能效比方面均展现出了一定的优势,具有较大的应用价值。

主要学术成果

  1. Wenhua Ye, Xu Zhou, Joey Zhou, Cen Chen, and Kenli Li. 2023. Accelerating Attention Mechanism on FPGAs based on Efficient Reconfigurable Systolic Array. ACM Trans. Embedd. Comput. Syst. 22, 6, Article 93(November 2023), 22 pages. (第一作者,CCF 推荐B类期刊)

  2. Wenhua Ye, Huan Li, Xu Zhou, Huilong Pi, and Kenli Li. 2025. A Design of Network Reconfigurable Universal CNN Accelerator Based on FPGA. ACM Trans. Embedd. Comput. Syst.(大修,第一作者,CCF 推荐B类期刊)

  3. Wenhua Ye, Huan Li, Xu Zhou, Dong Pan, and Kenli Li. 2025. MDS-ViT: A Multi-Data Stream FPGA-Based Vision Transformer Accelerator. Journal of Systems Architecture.(已投稿,第一作者,CCF 推荐B类期刊)

  4. 李肯立,叶文华,周旭,刘楚波,陈岑,肖国庆,阳王东。一种基于CNN和组合高阶谱图像的调制样式识别方法和系统。 国家发明专利。 (第二发明人,授权,专利号:202110782131.X)