答辩公告
我的位置在: 首页 > 答辩公告 > 正文
肖淇博士生答辩公告
浏览次数:日期:2024-03-25编辑:

学位论文简介


近年来,云侧的文本智能分析研究取得了重大进展。而在资源有限的边缘计算场景中,能使用的文本智能分析算法仍非常有限。通过云边协同架构提高边缘计算场景下文本分析任务能力,对机器人、智慧工厂和智慧城市等应用场景下的人机交互能力具有重要的研究意义。

文本智能分析的关键在于提取目标文本语义与对比空间当中的信息进行匹配,在云边协同架构下面临两方面的主要挑战:一方面,云侧通过日益庞大的模型结构能够提高文本智能分析的准确率,但受到通信、调度等延迟影响,实时性难以保障;另一方面,边缘侧的输出常常对应有外部物理动作,模型的错误输出可能会导致巨大的安全风险。鉴于此,本文针对云边协同架构下的实际应用需求,研究与边缘测算力相匹配的文本处理模型,以及云边协同的高可信跨模态处理模型,并在云边协同的智能搜寻机器人系统中开展了应用验证。本文主要工作和创新点概括如下:

(1) 针对边缘设备低功耗模式下,计算资源和高质量的训练数据资源不足、传统模型语义提取不完备问题,提出一种轻量级且语义丰富的文本匹配模型TES-TK。首先将输入的句子对分别转化为两棵名为TES-Tree 的语法树结构,通过整合句子的句法信息、语义知识和主题分布,实现更全面的句子语义信息提取。随后,设计一个改进的树核模型,用于计算两棵TES-Tree之间的相似度,进而得到两个句子之间的相似度分值。在多个STS公共基准数据集上的实验表明,与其它经典模型相比,TES-TK模型在13个数据集上取得了最优的结果。特别是在边缘设备低功耗模式下,与最新的模型相比,TES-TK模型在匹配准确度上也取得了最优的结果。

(2) 针对边缘设备自然交互模式下,计算资源相对充足,大型预训练模型不适用、模型压缩技术有限制,简单网络结构模型匹配准确率不高的问题,提出一种适用于边缘设备的语义增强的文本匹配模型。在交互类模型的基础上,提出N-gram增强的ESIM模型,即EnESIM模型。为了提取文本间更丰富的语义信息,在EnESIM模型结构的输入处理层中添加了TextCNN层以进一步地提取句子单词间的短语信息。同时,为了取得更精准的相似度分值,优化组合排序层和输出层来获得精确的匹配分数值。在STS基准数据集上的实验表明,EnESIM模型的准确率优于其它的经典模型。同时,在与大规模预训练模型的对比实验中,EnESIM模型的参数规模远小于大型预训练模型,更适用于计算资源相对充足的边缘设备上。

(3) 针对常用的深度神经网络模型过度自信预测带来模型的可信度问题,提出一种云边协同架构下的高可信文本到图像的跨模态匹配模型,即FC-SDM模型。通过完整的CLIP模型来提取图像和文本特征,并使用屏蔽语言模型和多模态交互编码器来隐式地挖掘模态间细粒度关系并学习多模态间有差别的全局特征。在此基础上,设计一种融合可信度估计的相似度分布匹配方法,为用户提供可信度估计及结果预测。在多个基准数据集上的实验结果表明,与LBUL模型等当前最优秀的模型相比,FC-SDM模型至少提升了2.9 %的匹配性能,并为云边协同架构下的文本到图像匹配结果提供了高可信度估计,缓解了分类器过度自信预测带来的安全危机。

(4) 基于以上研究,在云边协同的智能搜寻机器人系统中验证了本文提出的文本匹配模型。该系统主要针对目标人物搜寻而设计,包括智能机器人边缘端,智能云端和远程操控端。系统在智能机器人端应用TES-TK模型实现了待机机器人指令问答系统,用于匹配用户发出的指令与指令集中的指令;应用EnESIM模型实现活跃状态机器人问答系统,用于匹配用户的提问与问答数据库中的问题。智能云端协同智能机器人边缘端,应用FC-SDM模型实现目标人物搜索系统,模型通过匹配目标人物特征描述文本与机器人上的摄像头获取的视频帧数据来锁定目标人物。

主要学术成果

[1] Qi Xiao, Yunchuan Qin, Kenli Li, Zhuo Tang, Fan Wu, Zhizhong Liu. An unsupervised semantic text similarity measurement model in resource-limited scenes. Information Science. 616: 444-460 (2022). (SCI 1区,第一作者)

[2] Qi Xiao, Yunchuan Qin, Cheng Xu, Kenli Li. Secure Key Establishment Mechanism for Smart Sensing System Based Robots Network. Sensors 20(7): 1970 (2020). (SCI 3区,第一作者)

[3] Zhuo Tang, Qi Xiao, Li Zhu, Kenli Li, Keqin Li. A semantic textual similarity measurement model based on the syntactic-semantic representation. Intelligent Data Analysis. 23(4): 933-950 (2019). SCI 4区,导师第一作者)

[4] Zemin Tang, Qi Xiao, Xu Zhou, Yangfan Li, Cen Chen, Kenli Li. Learning discriminative multi-relation representations for multimodal sentiment analysis. Information Science. 641: 119125 (2023). SCI 1区,通信作者)