王锋
我的位置在: 首页 > 学院概况 > 师资力量 > 王锋
教师介绍

无照片

姓名:王锋
职称:特聘研究员
居住地:长沙
联系电话:13574850476

从事高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架的研究。
中文名: 王锋 英文名:
学历: 博士 职称: 特聘研究员
联系电话: 13574850476 电子邮件: wangfeng@hnu.edu.cn; wfdata@163.com
研究方向: 高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架。正在招收硕士和博士研究生,欢迎有科研热情的同学联系我。
联系地址: 湖南省长沙市岳麓区湖南大学信息科学与工程学院(410082)
所属机构:  专职科研岗  学院教师
基本资料

姓    名 王锋

职    称: 特聘研究员

地:长沙

联系电话:13574850476    

e-mail:wangfeng AT hnu.edu.cn; wfdata AT 163.com

教育背景

1996.09~2000.09  国防科技大学计算机学院计算机科学与技术本科

2000.09~2002.12  国防科技大学计算机学院计算机软件与理论硕士

2008.03~2013.12  国防科技大学计算机学院计算机软件与理论博士

工作经历

2021.05~至今  湖南大学信息科学与工程学院 特聘研究员

2002.12~2017.03  国防科学技术大学计算机学院  研究实习员、助理研究员、副研究员

2010.08~2011.08  澳大利亚新南威尔士大学  国家公派访问学者

 

长期从事高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架等方向研究,针对多种处理器体系结构研究高效的数据预取、Cache优化、自动向量化等技术,研究PGAS、OpenMP、OpenCL、CUDA、SYCL等并行编程模型,TVM、XLA等机器学习编译器框架,研发的软件涵盖程序优化、运行时库、性能分析、调测试等全套基础软件栈,支撑多款国产处理器的推广应用。研究二进制翻译技术,针对国产处理器提供软件生态解决方案。首次在千万亿次异构计算机系统上引入了MPI/OpenMP/Streaming混合编程模型,并扩展至全系统规模,提出了以结点为中心的任务映射、以CPU为中心的任务映射和以加速器为中心的任务映射,首次提出了基于有限状态自动机的嵌套双缓冲软件流水技术和基于性能模型的自适应负载均衡技术,其成果应用于天河系列国家超级计算机系统,为天河超算排名世界第一做出突出贡献。


深入研究可扩展高效能并行算法以及共性基础算法,支撑天河超算应用的优化和部署。重点针对稠密/稀疏矩阵求解器进行优化,研究极大规模的分子动力学、计算流体力学等算法的扩展性,研究BLAS、FFT等基础算法在超算体系架构上的优化。开发的并行编译器从OpenMP 2.0一直支持到4.5,并且还在进一步支持更多的特性。


长期从事并支持开源软件社区工作,从2003年开始为GCC编译器贡献代码,目前是GCC MaintainerFortran语言)。


获得发明专利授权10余项(含2项国防专利),发表论文30余篇。获省部级科技进步一等奖2项,二等奖2项,获国家“共创”开源软件铜奖


研究方向

高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架


具体在如下方向招收感兴趣的本科生、硕士生和博士生(名额充足):

1. 并行编译器优化:针对架构的OpenMP编译器优化;

2. 并行编程模型:针对CPU+GPU、CPU+AI加速器等异构架构,研究并行编程模型;

3. 编译器自动向量化技术:针对simd架构的自动向量化及指令调度;

4. AI编译器研究:针对AI框架研究AI算子的生成和调度;

5. AI4Science方向研究:利用AI技术加速传统HPC应用;

6. GPU编译器优化:基于Mesa研究GPU指令的调度和优化;

7. 程序分析方向:利用编译技术分析程序的可靠性、漏洞以及正确性;

8. 函数式语言编译器:Haskell编译器GHC在RISC-V、国产处理器上的支持;

9. CodeSize代码密度优化:嵌入式领域针对RISC-V/ARM平台的代码密度优化。

以上方向都有充足的课题经费支持,并且与产业界密切相关。



论文代表作

名称

杂志或会议

年份

Back to Homogeneous Computing: A Tightly-Coupled Neuromorphic Processor with Neuromorphic ISATransactions on Parallel and Distributed Systems2023

面向 ARMv8 64 位多核处理器的 QGEMM 设计与实现

计算机学报

2017

Design and implementation of a highly efficient DGEMM for 64-Bit ARMv8 multi-core processors

2015 44th International Conference on Parallel Processing (ICPP)

2015

Implementation of an accurate and efficient compensated dgemm for 64-bit armv8 multi-core processors

2015 IEEE 21st International Conference on Parallel and Distributed Systems (ICPADS)

2015

Fast Implementation of Quad-Precision GEMM on ARMv8 64-bit Multi-Core Processor

16th GAMM-IMACS International Symposium on Scientific Computing, Computer Arithmetic and Validated Numerics (SCAN 2014)

2014

基于内存缓存的异步检查点容错技术

计算机研究与发展

2014

Programming for scientific computing on peta-scale heterogeneous parallel systems

Journal of Central South University

2013

面向千万亿次 CPU-GPU 异构系统的编程模型与性能优化关键技术研究

国防科技大学计算机学院博士论文

2013

GPGPU性能模型研究

计算机工程与科学

2013

Constant memory optimizations in MD5 Crypt cracking algorithm on GPU-accelerated supercomputer using CUDA

2012 7th International Conference on Computer Science & Education (ICCSE)

2012

A fast parallel implementation of molecular dynamics with the morse potential on a heterogeneous petascale supercomputer

2012 IEEE 26th International Parallel and Distributed Processing Symposium Workshops & PhD Forum

2012

Gpu-centered parallel model on heterogeneous multi-gpu clusters

Proceedings of International Conference on Computer Science and Network Technology

2012

Parallel model research on the heterogeneous computer system

International Conference on Automatic Control and Artificial Intelligence

2012

Parallelizing SOR for GPGPUs using alternate loop tiling

Parallel Computing

2012

面向异构并行计算系统的流水线式压缩检查点

电子学报

2012

Optimizing linpack benchmark on gpu-accelerated petascale supercomputer

Journal of Computer Science and Technology (JCST)

2011

Cell处理器上的软件Cache研究

计算机工程与科学

2011

Adaptive optimization for petascale heterogeneous CPU/GPU computing

2010 IEEE International Conference on Cluster Computing

2010

Accelerating pqmrcgstab algorithm on gpu

Proceedings of the combined workshops on UnConventional high performance computing workshop plus memory access workshop

2009

Solving 2D Nonlinear Unsteady Convection-Diffusion Equations on Heterogenous Platforms with Multiple GPUs

2009 15th International Conference on Parallel and Distributed Systems

2009

用表驱动算法在 GCC 中优化实现指数函数

计算机工程与科学

2007

编译器前端乘幂运算的实现与优化

计算机工程与应用

2004

分布式实时系统请求接收单元优先级的研究

计算机工程与应用

2004

实时中间件的优先级映射

软件学报

2003

实时CORBA资源管理的研究与实现

国防科技大学计算机学院硕士论文

2002

 

主要授权专利

申请日期

公开(公告)号

专利名称

2016年11月

ZL201418005454.9

一种使用定点寄存器加速浮点矩阵乘的方法

2010年 03月

ZL200910044525.4

一种全覆盖的微处理器测试用例包自动生成方法

2015年08月

ZL201318005614.5

一种众核加速器优先的CPU和众核加速器间负载划分方法

2010年 05月

ZL200910227185.9

一种基于负载平衡的CPU和GPU两级动态任务划分方法

2017年10月

ZL201410774705.9

片上Cache网络中基于位置感知的数据预取方法

2014年05月

ZL201110382028.2

一种基于GPU的消除云方程并行求解过程中数据相关的方法

 

主要项目
  1. 基于国产E级计算机的多功能药物设计与优化平台,2022年,纵向课题

  2. 嵌入式处理器软件工具链研究,2022年,纵向课题

  3. 编译器CodeSize优化技术合作项目,2022年,横向课题

  4. Fortran语言多线程并行编程技术,2021年,横向课题

  5. 操作系统与工具链定制开发,2021年,横向课题

  6. 类脑芯片模拟器软件开发,2021年,横向课题

  7. 面向国产处理器的并行程序综合优化技术与系统,2012年至2015年,国家科技部高技术研究发展中心(863计划)

  8. 高效能计算应用支撑软件框架体系研制,2012年至2015年,国家科技部高技术研究发展中心(863计划)

  9. “天河”新一代高性能计算机系统研制(“天河-2”),2012年至2015年,国家科技部高技术研究发展中心(863计划)

  10. 千万亿次高效能计算机系统研制(“天河-1”),2009年至2010年,国家科技部高技术研究发展中心(863计划)