学位论文简介
人脸识别作为一种非接触式的生物面部特征识别技术,是人工智能领域一项具有重要理论与工程价值的技术研究。经过近20年的研究与发展,该项技术已经取得了丰富的学术研究成果并在人们的日常生活得以实际应用。当下,诸如:考勤、门禁、安防等在受限场景下的人脸识别问题,人脸识别技术已经取得了可以代替人眼甚至超越人类的识别能力。但是,对于诸如:不同设备拍摄角度、不同光照下的拍摄、面部伪装或面部局部覆盖等一系列复杂与特殊的实际应用场景,人脸识别技术仍然面临着不小的挑战。这些都是本文研究中试图攻克的核心难点问题。针对以上挑战,本研究提出了一系列创新性的解决方案,旨在提升人脸识别模型的精度与性能。论文的贡献可以总结如下:
1.基于滤波算法和新的变分特征学习(VFL)损失函数的人脸识别:本贡献提出了一个名为Filter的新算法。在训练过程中,先从整张人脸学习到人脸表征,但是为了排除不必要特征的干扰,本贡献采用了滤波算法,该算法能够从人脸表征中筛选出最重要的特征,在滤波操作之后,人脸的特征向量减半,算法的计算量得到了明显的减少。同时,在训练过程中本贡献对VFL损失函数进行了改进。在VFL中,它使用两个具有相同输入和输出的全连接层来预测高斯分布的均值和标准差。因为两个全连接层的输入和输出是一样的,针对这个问题,本贡献仅采用网络中的第一个全连接层来预测高斯分布的均值和标准差。然后利用得到的均值和标准差来计算Kullback–Leibler (KL)散度损失。当人脸在图像上以任何角度呈现时,大多数的人脸检测技术在定位人脸时存在一些问题,比如定位得不够准确,甚至是无法定位。针对这些问题,本贡献采用了旋转技术,图像会从0°到360°逐级旋转,直到在图像中找到人脸,然后将该人脸作为新的人脸图像传递给模型。
2.基于双重变分特征学习(DVFL)损失函数的面部伪装/部分覆盖人脸识别:本贡献提出了基于双重变分特征学习(DVFL)损失函数的模型来识别上述复杂的人脸。所谓的DVFL损失函数是指2个不同的KL散度损失函数。使用网络中的两个全连接层来预测高斯分布的均值和标准差,然后利用预测得到的均值和标准差来计算第1个KL散度损失函数。第2个KL散度损失函数是Keras包中内置的KL损失函数。在训练过程中,将这两个损失函数进行合并,合并后的损失函数作为整个网络的损失。当面部被伪装或者人脸被部分遮盖时,人脸已经发生了较大的变换,如果使用整张人脸来提取特征,那么提取到的特征中会存在很多干扰因素,这样就会降低模型的识别精度。当人们试图使用化妆工具或者眼镜来伪装自己的眼睛时,单单只靠眼睛去识别人脸的身份也是不可靠的,所以人眼周围的区域也要被选择。针对以上2个问题,本贡献采用包含人眼及人眼周围区域的部分人脸来训练网络,该部分携带了关于身份的大量信息且不易被隐藏。如果被选择的部分人脸仍然存在一些较大的变化,针对这个问题,本贡献在网络中采用了L2归一化层,利用该层来减少这些变化给识别带来的影响。
3.基于双重变分特征学习(DVFL)损失函数的正常/面部伪装/部分覆盖人脸的性别识别:本贡献提出了基于双重变分特征学习(DVFL)损失函数的性别识别,旨在识别正常人脸性别的基础上,研究面部被伪装或部分被遮盖的人脸性别识别。与贡献2一样,代替使用整张人脸训练网络,本贡献采用包含人眼及人眼周围区域的部分人脸来训练网络,该部分携带了关于身份的大量信息且不易被隐藏。同样与贡献2一样,本贡献提出的DVFL损失函数也是指2个不同的KL散度损失函数。使用网络中的两个全连接层来预测高斯分布的均值和标准差,然后利用预测得到的均值和标准差来计算第1个KL散度损失函数。第2个KL散度损失函数是Keras包中内置的KL损失函数。将这两个损失函数进行合并,合并后的损失函数作为整个网络的损失。
4.基于变分特征学习(VFL)损失函数的种族识别:本贡献在种族识别这一领域对新的VFL损失函数进行了测试。在训练过程中,采用新VFL损失函数对模型进行训练,即仅采用网络中的第一个全连接层来预测高斯分布的均值和标准差。然后利用得到的均值和标准差来计算Kullback–Leibler (KL)散度损失。不同于贡献2和贡献3,本贡献将整张人脸输入到模型中来获取人脸的特征,然后利用整张人脸的特征对模型进行训练以及执行最后的种族分类。
主要学术成果
Mohammed Alghaili, Zhiyong Li, Hamdi Ahmed Rajeh Ali. FaceFilter: Face Identification with Deep Learning and Filter Algorithm. DOI: 10.1155/2020/7846264. (SCI, 导师第一作者)
Mohammed Alghaili, Zhiyong Li, Hamdi A. R. Ali. Deep Feature Learning for Gender Classification with Covered/Camouflaged Faces. DOI: 10.1049/iet-ipr.2020.0199. (SCI, 导师第一作者)
Hamdi Ahmed Rajeh Ali, Zhi-yong LI , Al-Ghaili Mohammed. The Impact of Word Segmentation on CCG-based Arabic-English SMT. DOI: 10.12783/dtcse/aita2017/16013. (EI indexed).
Mohammed Alshahrani, ZHU FUXI, [1] Mohammed Alghaili, ESHRAG REFAEE. BORSAH: An Arabic Financial Tweets Corpus. (Proceedings of the LREC 2018 Workshop “The First Financial Narrative Processing Workshop (FNP 2018)).
Ahmed Jawad A. AlBdairi, Zhu Xiao and Mohammed Alghaili. Identifying Ethnics of People through Face Recognition: A Deep CNN Approach. DOI: https://doi.org/10.1155/2020/6385281. (SCI)
Mohammed Alghaili, Zhiyong Li, Shaukat Hayat, Mohammed Alshahrani and Ahmed Jawad A. AlBdairi. Generating an Embedding Features using Deep Learning for Ethnics Identification. (Accepted by IAENG International Journal of Computer Science )