基本资料
姓 名: 王锋
职 称: 特聘研究员
居 住 地:长沙
联系电话:13574850476
e-mail:wangfeng AT hnu.edu.cn; wfdata AT 163.com
教育背景
1996.09~2000.09 国防科技大学计算机学院计算机科学与技术本科
2000.09~2002.12 国防科技大学计算机学院计算机软件与理论硕士
2008.03~2013.12 国防科技大学计算机学院计算机软件与理论博士
工作经历
2021.05~至今 湖南大学信息科学与工程学院 特聘研究员
2002.12~2017.03 国防科学技术大学计算机学院 研究实习员、助理研究员、副研究员
2010.08~2011.08 澳大利亚新南威尔士大学 国家公派访问学者
长期从事高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架等方向研究,针对多种处理器体系结构研究高效的数据预取、Cache优化、自动向量化等技术,研究PGAS、OpenMP、OpenCL、CUDA、SYCL等并行编程模型,TVM、XLA等机器学习编译器框架,研发的软件涵盖程序优化、运行时库、性能分析、调测试等全套基础软件栈,支撑多款国产处理器的推广应用。研究二进制翻译技术,针对国产处理器提供软件生态解决方案。首次在千万亿次异构计算机系统上引入了MPI/OpenMP/Streaming混合编程模型,并扩展至全系统规模,提出了以结点为中心的任务映射、以CPU为中心的任务映射和以加速器为中心的任务映射,首次提出了基于有限状态自动机的嵌套双缓冲软件流水技术和基于性能模型的自适应负载均衡技术,其成果应用于天河系列国家超级计算机系统,为天河超算排名世界第一做出突出贡献。
深入研究可扩展高效能并行算法以及共性基础算法,支撑天河超算应用的优化和部署。重点针对稠密/稀疏矩阵求解器进行优化,研究极大规模的分子动力学、计算流体力学等算法的扩展性,研究BLAS、FFT等基础算法在超算体系架构上的优化。开发的并行编译器从OpenMP 2.0一直支持到4.5,并且还在进一步支持更多的特性。
长期从事并支持开源软件社区工作,从2003年开始为GCC编译器贡献代码,目前是GCC Maintainer(Fortran语言)。
获得发明专利授权10余项(含2项国防专利),发表论文30余篇。获省部级科技进步一等奖2项,二等奖2项,获国家“共创”开源软件铜奖。
研究方向
高性能计算、程序语言与编译优化技术、编程模型、大规模数据处理、AI编程框架。
具体在如下方向招收感兴趣的本科生、硕士生和博士生(名额充足):
1. 并行编译器优化:针对架构的OpenMP编译器优化;
2. 并行编程模型:针对CPU+GPU、CPU+AI加速器等异构架构,研究并行编程模型;
3. 编译器自动向量化技术:针对simd架构的自动向量化及指令调度;
4. AI编译器研究:针对AI框架研究AI算子的生成和调度;
5. AI4Science方向研究:利用AI技术加速传统HPC应用;
6. GPU编译器优化:基于Mesa研究GPU指令的调度和优化;
7. 程序分析方向:利用编译技术分析程序的可靠性、漏洞以及正确性;
8. 函数式语言编译器:Haskell编译器GHC在RISC-V、国产处理器上的支持;
9. CodeSize代码密度优化:嵌入式领域针对RISC-V/ARM平台的代码密度优化。
以上方向都有充足的课题经费支持,并且与产业界密切相关。
论文代表作
名称 | 杂志或会议 | 年份 |
Back to Homogeneous Computing: A Tightly-Coupled Neuromorphic Processor with Neuromorphic ISA | Transactions on Parallel and Distributed Systems | 2023 |
面向 ARMv8 64 位多核处理器的 QGEMM 设计与实现 | 计算机学报 | 2017 |
Design and implementation of a highly efficient DGEMM for 64-Bit ARMv8 multi-core processors | 2015 44th International Conference on Parallel Processing (ICPP) | 2015 |
Implementation of an accurate and efficient compensated dgemm for 64-bit armv8 multi-core processors | 2015 IEEE 21st International Conference on Parallel and Distributed Systems (ICPADS) | 2015 |
Fast Implementation of Quad-Precision GEMM on ARMv8 64-bit Multi-Core Processor | 16th GAMM-IMACS International Symposium on Scientific Computing, Computer Arithmetic and Validated Numerics (SCAN 2014) | 2014 |
基于内存缓存的异步检查点容错技术 | 计算机研究与发展 | 2014 |
Programming for scientific computing on peta-scale heterogeneous parallel systems | Journal of Central South University | 2013 |
面向千万亿次 CPU-GPU 异构系统的编程模型与性能优化关键技术研究 | 国防科技大学计算机学院博士论文 | 2013 |
GPGPU性能模型研究 | 计算机工程与科学 | 2013 |
Constant memory optimizations in MD5 Crypt cracking algorithm on GPU-accelerated supercomputer using CUDA | 2012 7th International Conference on Computer Science & Education (ICCSE) | 2012 |
A fast parallel implementation of molecular dynamics with the morse potential on a heterogeneous petascale supercomputer | 2012 IEEE 26th International Parallel and Distributed Processing Symposium Workshops & PhD Forum | 2012 |
Gpu-centered parallel model on heterogeneous multi-gpu clusters | Proceedings of International Conference on Computer Science and Network Technology | 2012 |
Parallel model research on the heterogeneous computer system | International Conference on Automatic Control and Artificial Intelligence | 2012 |
Parallelizing SOR for GPGPUs using alternate loop tiling | Parallel Computing | 2012 |
面向异构并行计算系统的流水线式压缩检查点 | 电子学报 | 2012 |
Optimizing linpack benchmark on gpu-accelerated petascale supercomputer | Journal of Computer Science and Technology (JCST) | 2011 |
Cell处理器上的软件Cache研究 | 计算机工程与科学 | 2011 |
Adaptive optimization for petascale heterogeneous CPU/GPU computing | 2010 IEEE International Conference on Cluster Computing | 2010 |
Accelerating pqmrcgstab algorithm on gpu | Proceedings of the combined workshops on UnConventional high performance computing workshop plus memory access workshop | 2009 |
Solving 2D Nonlinear Unsteady Convection-Diffusion Equations on Heterogenous Platforms with Multiple GPUs | 2009 15th International Conference on Parallel and Distributed Systems | 2009 |
用表驱动算法在 GCC 中优化实现指数函数 | 计算机工程与科学 | 2007 |
编译器前端乘幂运算的实现与优化 | 计算机工程与应用 | 2004 |
分布式实时系统请求接收单元优先级的研究 | 计算机工程与应用 | 2004 |
实时中间件的优先级映射 | 软件学报 | 2003 |
实时CORBA资源管理的研究与实现 | 国防科技大学计算机学院硕士论文 | 2002 |
主要授权专利
申请日期 | 公开(公告)号 | 专利名称 |
2016年11月 | ZL201418005454.9 | 一种使用定点寄存器加速浮点矩阵乘的方法 |
2010年 03月 | ZL200910044525.4 | 一种全覆盖的微处理器测试用例包自动生成方法 |
2015年08月 | ZL201318005614.5 | 一种众核加速器优先的CPU和众核加速器间负载划分方法 |
2010年 05月 | ZL200910227185.9 | 一种基于负载平衡的CPU和GPU两级动态任务划分方法 |
2017年10月 | ZL201410774705.9 | 片上Cache网络中基于位置感知的数据预取方法 |
2014年05月 | ZL201110382028.2 | 一种基于GPU的消除云方程并行求解过程中数据相关的方法 |
主要项目
基于国产E级计算机的多功能药物设计与优化平台,2022年,纵向课题
嵌入式处理器软件工具链研究,2022年,纵向课题
编译器CodeSize优化技术合作项目,2022年,横向课题
Fortran语言多线程并行编程技术,2021年,横向课题
操作系统与工具链定制开发,2021年,横向课题
类脑芯片模拟器软件开发,2021年,横向课题
面向国产处理器的并行程序综合优化技术与系统,2012年至2015年,国家科技部高技术研究发展中心(863计划)
高效能计算应用支撑软件框架体系研制,2012年至2015年,国家科技部高技术研究发展中心(863计划)
“天河”新一代高性能计算机系统研制(“天河-2”),2012年至2015年,国家科技部高技术研究发展中心(863计划)
千万亿次高效能计算机系统研制(“天河-1”),2009年至2010年,国家科技部高技术研究发展中心(863计划)