答辩公告
我的位置在: 首页 > 答辩公告 > 正文
张凡博士生预答辩公告
浏览次数:日期:2025-04-16编辑:

学位论文简介

代码搜索是根据自然语言查询从代码库中查找相关代码片段,以提高开发效率。本文首先聚焦于训练数据丰富的主流编程语言,提升其搜索性能;然后扩展至训练数据稀缺的领域专用编程语言,探索提升搜索性能的策略;最后,研究基于检索增强技术的代码补全任务。主要创新成果如下:

1)为提升主流编程语言代码搜索性能,本文提出一种基于层次特征和数据重组的框架。该框架首先通过Transformer架构的代码预训练模型提取查询和代码的多层特征,获取全面的语义表示。随后,对训练数据进行重组,从而利用更多特征数据进行模型训练。

2)为提高领域编程语言少样本代码搜索性能,本文提出一种两阶段框架。第一阶段,通过定量分析识别主流编程语言数据集中与领域语言语义最相似的数据,并引入困难样本进行优化,训练出初始化良好的模型。第二阶段,采用神经架构搜索优化Adapter模块的插入位置和数量,进一步提升模型在少样本代码搜索任务的性能。

3为提升少样本代码搜索任务性能,本文从数据增强和课程学习角度出发。首先收集与领域编程语言一致的未标注代码,提供额外的语义信息。接着,使用遮挡策略识别关键语句进行数据增强。最后,采用课程学习策略,提升模型性能。

4)为提升基于检索增强技术的仓库级代码补全任务性能,本文提出一种加权搜索框架。本文提出的加权搜索策略考虑到,靠近光标的代码元素对后续代码有更大影响,因此为待补全代码中的每个元素分配不同权重,确保所搜索到的参考代码更有效。


主要学术成果

[1] Zhang F, Peng M, Shen Y, et al. Hierarchical features extraction and data reorganization for code search[J]. Journal of Systems and Software, 2024, 208: 111896. (CCF-B类推荐期刊,第一作者)

[2] Zhang F, Wu Q, Peng M, et al. Specialized model initialization and architecture optimization for few-shot code search[J]. Information and Software Technology, 2025, 177: 107571. (CCF-B类推荐期刊,第一作者)

[3] Zhang F, Peng M, Wu Q, et al. Key-based data augmentation with curriculum learning for few-shot code search[J]. Neural Computing and Applications, 2025, 37(3): 1475-1490. (CCF-C类推荐期刊,第一作者)