王锋-湖南大学计算机学院

我的位置在：首页 > 学院概况 > 师资力量 > 王锋

教师介绍

无照片

特聘研究员，博士生导师，湖南大学编译技术研究中心主任。从事高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架的研究。正在招收硕士和博士研究生，欢迎有科研热情的同学联系我，科研经费和名额充足。与华为成立创新实验室，可推荐到华为实习。学生毕业大部分进入百度、华为、阿里等头部企业，就业前景良好。

中文名：	王锋	英文名：
学历：	博士	职称：	特聘研究员
联系电话：		电子邮件：	wangfeng AT hnu.edu.cn; wfdata AT 163.com
研究方向：	高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架
联系地址：	湖南省长沙市岳麓区湖南大学信息科学与工程学院（410082）
所属机构：	计算机科学系学院教师

工作经历

2021.05~至今湖南大学信息科学与工程学院特聘研究员

2002.12~2017.03 国防科学技术大学计算机学院研究实习员、助理研究员、副研究员

2010.08~2011.08 澳大利亚新南威尔士大学国家公派访问学者

长期从事高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架等方向研究，针对多种处理器体系结构研究高效的数据预取、Cache优化、自动向量化等技术，研究PGAS、OpenMP、OpenCL、CUDA、SYCL等并行编程模型，TVM、XLA等机器学习编译器框架，研发的软件涵盖程序优化、运行时库、性能分析、调测试等全套基础软件栈，支撑多款国产处理器的推广应用。研究二进制翻译技术，针对国产处理器提供软件生态解决方案。首次在千万亿次异构计算机系统上引入了MPI/OpenMP/Streaming混合编程模型，并扩展至全系统规模，提出了以结点为中心的任务映射、以CPU为中心的任务映射和以加速器为中心的任务映射，首次提出了基于有限状态自动机的嵌套双缓冲软件流水技术和基于性能模型的自适应负载均衡技术，其成果应用于天河系列国家超级计算机系统，为天河超算排名世界第一做出突出贡献。

深入研究可扩展高效能并行算法以及共性基础算法，支撑天河超算应用的优化和部署。重点针对稠密/稀疏矩阵求解器进行优化，研究极大规模的分子动力学、计算流体力学等算法的扩展性，研究BLAS、FFT等基础算法在超算体系架构上的优化。开发的并行编译器从OpenMP 2.0一直支持到4.5，并且还在进一步支持更多的特性。

长期从事并支持开源软件社区工作，从2003年开始为GCC编译器贡献代码，目前是GCC Maintainer（Fortran语言）。

获得发明专利授权10余项（含2项国防专利），发表论文50余篇，多篇论文获最佳论文奖。获省部级科技进步一等奖2项，二等奖2项，获国家“共创”开源软件铜奖。

研究方向

高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架。

学生招收与培养

在如下方向招收感兴趣的、有才华的本科生、硕士生和博士生（名额充足）：

1. 并行编译器优化：针对架构的OpenMP编译器优化；

2. 并行编程模型：针对CPU+GPU、CPU+AI加速器等异构架构，研究并行编程模型；

3. 编译器自动向量化技术：针对simd架构的自动向量化及指令调度；

4. AI编译器研究：针对AI框架研究AI算子的生成和调度；

5. AI4Science方向研究：利用AI技术加速传统HPC应用；

6. GPU编译器优化：基于Mesa研究GPU指令的调度和优化；

7. 程序分析方向：利用编译技术分析程序的可靠性、漏洞以及正确性；

8. 函数式语言编译器：Haskell编译器GHC在RISC-V、国产处理器上的支持；

9. CodeSize代码密度优化：嵌入式领域针对RISC-V/ARM平台的代码密度优化。

以上方向都有充足的课题经费支持，并且与产业界密切相关。已经与华为成立创新实验室，可推荐到华为实习。学生毕业大部分进入百度、华为、阿里等头部企业或进一步深造，成为栋梁之才。

The fruit that I have gained for ever

is that which thou hast accepted.

-- Tagore

论文代表作

Huadi Zheng, Cheng Li, Xin Zhou, Wei Wang, Yuanhang Yu, Feng Wang and Yan Ding: MirageNet: A Secure, Efficient, and Scalable DNN Protection for Edge-Computing Multimedia Retrieval. Proceedings of the 2026 International Conference on Multimedia Retrieval, ICMR'26, (2026).

Shihan Yuan, Zuoyan Zhang, Guanghui Song, Junhui Peng, Feng Wang, Zhuo Tang, Kenli Li, Jie Zhao: A Decoupled Analytical Model for Tile Size Selection in Affine Programs. ACM Transactions on Architecture and Code Optimization (CCF A), (2026).

Qi Du,Feng Wang, Chengkun Wu: Parallelization Strategies for DeepMD-kit UsingOpenMP: Enhancing Efficiency in MachineLearning-Based Molecular Simulations. IEEE Transactions on Computers.（CCF A）, 3534-3545.(2025)

Qi Du, Feng Wang, Chengkun Wu, Han Wang, Yongpeng Liu, Zhaoyin Zhou, Kenli Li: Scaling Deep Learning Molecular Dynamics to 500M Atoms on 4096-Node ARMv8 Clusters. 2025 The IEEE International Conference on Cluster Computing (Cluster), (2025). Best Paper Award.

Qi Du, Feng Wang, Hui Huang, Jinlin Chen: Improving LAMMPS performance for molecular dynamic simulation on large-scale HPC systems. The Computer Journal, 706–716. (2025)

Shaobai Yuan, Jihong He, Yihui Xie, Feng Wang, Jie Zhao: Post-Link Outlining for Code Size Reduction. CC 2025: 154-166 (2025)

Qingyu Gao, Liantao Song, Yan Lei, Feng Wang, Lei Wang, Shize Zong, Yan Ding. Enhancing Consistency in Container Migration via TEE: A Secure Architecture. 2024 IEEE 23rd International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom): 21-28 (2024)

Qi Du, Feng Wang, Hui Huang, Heng Wan, Xiaoyu Wu, Chengkun Wu: Exploring Natural Language Processing Model Acceleration in Molecular Dynamics Simulation Using High-Performance Computing and Machine Learning. BIBM 2024: 1479-1484 (2024)

Zhijie Yang, Lei Wang, Wei Shi, Yao Wang, Junbo Tie, Feng Wang, Xiang Yu, LingHui Peng, Chao Xiao, Xun Xiao, Yao Yao, Gan Zhou, Xuhu Yu, Rui Gong, Xia Zhao, Yuhua Tang, Weixia Xu: Back to Homogeneous Computing: A Tightly-Coupled Neuromorphic Processor With Neuromorphic ISA. IEEE Trans. Parallel Distributed Syst. 34(11): 2910-2927 (2023)

姜浩, 杜琦, 郭敏, 全哲, 左克, 王锋, 杨灿群. 面向ARMv8 64位多核处理器的QGEMM设计与实现[J]. 计算机学报,2017,40(9):2018-2029.

孙海燕, 陈跃跃, 王锋, 杨灿群, 阳柳, 王霁: TI DSP C语言编译器正确性测试. 计算机科学 42(Z6): 513-515 (2015)

Hao Jiang, Feng Wang, Kuan Li, Canqun Yang, Kejia Zhao, Chun Huang: Implementation of an Accurate and Efficient Compensated DGEMM for 64-bit ARMv8 Multi-Core Processors. ICPADS 2015: 491-498

Feng Wang, Hao Jiang, Ke Zuo, Xing Su, Jingling Xue, Canqun Yang: Design and Implementation of a Highly Efficient DGEMM for 64-Bit ARMv8 Multi-core Processors. ICPP 2015: 200-209

Hao Jiang, Feng Wang, Yunfei Du and Lin Peng: Fast Implementation of Quad-Precision GEMM on ARMv8 64-bit Multi-Core Processor. 16th GAMM-IMACS International Symposium on Scientific Computing, Computer Arithmetic and Validated Numerics (SCAN) (2014）

Xiangke Liao, Canqun Yang, Tao Tang, Huizhan Yi, Feng Wang, Qiang Wu, Jingling Xue: OpenMC: Towards Simplifying Programming for TianHe Supercomputers. J. Comput. Sci. Technol. 29(3): 532-546 (2014)

易会战,王锋,左克,等. 基于内存缓存的异步检查点容错技术[J]. 计算机研究与发展,2014,51(6):1229-1239.

王锋，杜云飞，陈娟. GPGPU性能模型研究[J]. 计算机工程与科学, 2013, 35(12): 1-7.

Canqun Yang, Qiang Wu, Tao Tang, Feng Wang, Jingling Xue. (2013). Programming for scientific computing on peta-scale heterogeneous parallel systems. Journal of Central South University, 20(2013), 1189–1203.

Peng Di, Hui Wu, Jingling Xue, Feng Wang, Canqun Yang: Parallelizing SOR for GPGPUs using alternate loop tiling. Parallel Comput. 38(6-7): 310-328 (2012)

刘勇鹏, 王锋, 卢凯,等.面向异构并行计算系统的流水线式压缩检查点[J].电子学报, 2012, 40(002):223-229.

Qiang Wu, Canqun Yang, Feng Wang, Jingling Xue: A Fast Parallel Implementation of Molecular Dynamics with the Morse Potential on a Heterogeneous Petascale Supercomputer. IPDPS Workshops 2012: 140-149

Feng Wang, Canqun Yang, Yunfei Du, Juan Chen, Huizhan Yi, Weixia Xu: Optimizing Linpack Benchmark on GPU-Accelerated Petascale Supercomputer. J. Comput. Sci. Technol. 26(5): 854-865 (2011)

杨灿群，王锋，杜云飞. Cell处理器上的软件Cache研究[J]. 计算机工程与科学, 2011, 33(2): 46-50.

Canqun Yang, Feng Wang, Yunfei Du, Juan Chen, Jie Liu, Huizhan Yi, Kai Lu: Adaptive Optimization for Petascale Heterogeneous CPU/GPU Computing. CLUSTER 2010: 19-28 (Best Paper Award)

Canqun Yang, Zhen Ge, Juan Chen, Feng Wang, Yunfei Du: Solving 2D Nonlinear Unsteady Convection-Diffusion Equations on Heterogenous Platforms with Multiple GPUs. ICPADS 2009: 961-966

杨灿群,王锋,彭林,杨学军.用表驱动算法在GCC中优化实现指数函数[J].计算机工程与科学,2007,29(5):77-80

王锋, 杨灿群. 编译器前端乘幂运算的实现与优化[J]. 计算机工程与应用, 2004, 40(36): 47-49.

主要项目

基于国产E级计算机的多功能药物设计与优化平台，2022年，纵向课题
嵌入式处理器软件工具链研究，2022年，纵向课题
编译器CodeSize优化技术合作项目，2022年，横向课题
Fortran语言多线程并行编程技术，2021年，横向课题
操作系统与工具链定制开发，2021年，横向课题
类脑芯片模拟器软件开发，2021年，横向课题
面向国产处理器的并行程序综合优化技术与系统，2012年至2015年，国家科技部高技术研究发展中心（863计划）
高效能计算应用支撑软件框架体系研制，2012年至2015年，国家科技部高技术研究发展中心（863计划）
“天河”新一代高性能计算机系统研制（“天河-2”），2012年至2015年，国家科技部高技术研究发展中心（863计划）
千万亿次高效能计算机系统研制（“天河-1”），2009年至2010年，国家科技部高技术研究发展中心（863计划）

主要授权专利

申请日期	公开（公告）号	专利名称
2024年11月	ZL2024 11584941.4	基于共模电压的逐次逼近ADC、芯片及模数转换方法
2016年11月	ZL201418005454.9	一种使用定点寄存器加速浮点矩阵乘的方法
2010年 03月	ZL200910044525.4	一种全覆盖的微处理器测试用例包自动生成方法
2015年08月	ZL201318005614.5	一种众核加速器优先的CPU和众核加速器间负载划分方法
2010年 05月	ZL200910227185.9	一种基于负载平衡的CPU和GPU两级动态任务划分方法
2017年10月	ZL201410774705.9	片上Cache网络中基于位置感知的数据预取方法
2014年05月	ZL201110382028.2	一种基于GPU的消除云方程并行求解过程中数据相关的方法