手机版
您的当前位置: 明翰范文网 > 范文大全 > 公文范文 > 基于EfficientFaceNets的大规模自然场景人脸识别

基于EfficientFaceNets的大规模自然场景人脸识别

来源:网友投稿 时间:2023-08-10 17:35:04 推荐访问: 场景 自然 自然与人作文(汇总6篇)

张凯兵,谢盼荣,陈小改,苏泽斌

(西安工程大学 电子信息学院,陕西 西安 710048)

人脸识别,通常也称人像识别或面部识别,是一种用于身份认证的计算机视觉技术,是继识别卡认证、密钥认证等传统身份识别和虹膜识别、声纹识别、指纹识别等生物信息识别后应用最为广泛的生物信息识别技术[1]。人脸识别在刑侦追逃、罪犯识别、电子政务、户籍管理、电子商务、电子货币、支付和考勤等方面均具有重要的应用前景。

在自然场景下,受光照、姿态、表情、遮挡、年龄变化等因素的影响,导致人脸识别面临巨大的挑战。在过去的几十年里,许多研究者使用统计机器学习技术解决人脸识别面临的诸多难题[2]。近年来,随着深度学习技术的快速发展,基于深度学习的人脸识别方法能有效克服传统人脸识别方法在自然场景下的局限性,取得令人瞩目的效果。其中,DeepFace[3]使用3D人脸正面化技术,实现了深度学习在人脸识别上的突破。随着DeepFace的出现,后续大多数基于深度学习的人脸识别方法普遍采用深度网络模型进行特征提取,然后组合一个分类器完成识别任务。为了提升识别性能,文献[4-5]分别提出了三元组损失、中心损失来提高人脸识别的准确率;文献[6]提出了带有乘法角度边缘的角度softmax(A-Softmax)损失减小类内差异和增大类间差异;文献[7-9]在A-Softmax的基础上提出了加性角度边缘损失,以提高特征的判别性;文献[10-11]考虑基于角边缘的方法只关注类内紧凑性而忽略了类间差异,提出了一个新的增加类间差异的损失,该损失同时关注类内紧凑性和类间分离性。除此之外,还有一些研究者专注于网络结构的研究[12]。文献[13]在ShiftNet-C网络的基础上提出了一个用于人脸识别的ShiftFaceNet;文献[14]通过分析MobileNet网络在人脸识别任务存在的不足,提出了一个轻量化的MobileFaceNet。尽管上述方法增强了人脸特征的表征能力,但它们仅从单个维度对深度网络模型进行改进,导致识别性能还不能达到令人满意的效果。

本文受视觉任务中图像分类方法的启示[15-16],以EfficientnetV2-S[17]网络结构为基础,从网络结构和损失函数2个角度考虑人脸识别任务,提出了一个新的人脸识别框架EfficientFaceNets。EfficientNetV2-S使用SE注意力机制[18]提取人脸关键区域。针对EfficientNetV2-S模型中使用的SE注意力机制忽略人脸识别的空间位置信息的问题,本文提出了一种新的三维注意力机制,分别对特征图的通道维度、宽维度和高维度进行一系列池化,在特征提取过程中嵌入人脸结构的空间位置信息,同时保留人脸识别所需的显著性信息,以有效提取具有判别性的深度特征表示人脸信息。除此之外,针对现有方法忽略了上下文信息对人脸识别任务的辅助作用,本文借助残差结构的思想,提出了一种上下文特征融合的特征融合方案,实现更细粒度人脸特征表示。最后,考虑到分类任务中广泛使用的交叉熵损失只关注类间分离性,而忽略了类内紧凑性的问题,本文提出了可信度增强损失优化同类样本的相似性,以提高相同类人脸特征表示的紧凑性。在相同的实验条件下,提出的EfficientFaceNets能获得比现有方法更好的识别性能。

本文提出的EifficentFaceNets的整体框架如图1所示,整个网络结构由8个模块组成,分别为S1~S8。

图1 EifficentFaceNets整体框架

图1中,S2~S4均由Fused-MBConv结构组成;S5~S7中的基本模块是Attention-MBConv。输入模型中的人脸图像依次经过图1所示的8个模块得到最终的输出,每个模块的具体参数如表1所示,其中空白单元格表示“不适用”。

表1 网络结构参数

从图1和表1可以看出,S1是一个包含卷积、批量归一化和Swish激活函数的普通卷积层,主要用于提取输入图像的浅层特征。S2、S3、S4均由Fused-MBConv结构堆叠而成,其中S2堆叠2次、S3堆叠4次、S4堆叠4次。每个Fused-MBConv结构内部存在1倍或4倍的通道扩充,如表1中的Fused-MBConv4表示输出特征图的通道数为输入特征图的4倍。Fused-MBConv的具体结构如图1中虚线框中所示。而S5、S6、S7由Attention-MBConv结构堆叠而成,其中S5堆叠6次、S6堆叠9次、S7堆叠15次。与Fused-MBConv结构类似,每个Attention-MBConv结构内部存在4倍或6倍的通道扩充,如表1中的Attention-MBConv6表示输出特征图的通道数为输入特征图的6倍。Attention-MBConv的具体结构如图1中对应的虚线框所示。S8由卷积层、池化层和全连接层组成,最终达到识别目的。

2.1 上下文特征融合模块设计

考虑到上下文信息对人脸识别任务的重要性,本文设计了一个新的上下文特征融合方式。具体如图1所示,上下文特征融合将包含浅层信息的Fused-MBConv模块的输出与包含深层信息的Attention-MBConv模块的输出进行通道级联操作。为了实现更细粒度人脸特征的表示,再将S1的输出与上述级联后的特征进行拼接。本文通过融合不同模块的特征,使最终的特征不仅包含浅层网络提取的人脸细节信息,而且包含深层网络提取的语义信息。上下文特征融合过程表示为

FF=Fcat(F(1)s,F(4)s,F(6)s)

(1)

式中:FF为上下文特征融合模块的输出;Fcat为通道维度的特征级联操作;F(i)s为第i个模块的输出特征。

2.2 三维注意力机制模块设计

大量研究表明,利用注意力机制可以显著增强深度网络输出特征的表征能力。普通的空间注意力通常使用全局池化对空间位置信息进行全局编码,它将全局空间信息压缩到一个维度中,难以保留图像中的结构位置信息,而人脸图像的结构位置信息是人脸识别任务中获取空间结构的关键。此外,传统的通道注意力通常使用平均池化操作,保留特征图的均值信息,此过程忽略了特征的显著性信息,而人脸识别是一个对显著性特征极为敏感的计算机视觉任务。

1) SE注意力机制。EfficientnetV2中使用的SE注意力机制通过在通道维度对特征图赋予不同的权重,从而得到更重要的权重信息。SE注意力机制的整体结构如图2所示。

图2 SE注意力结构

对于输入的特征图,首先沿着通道维度进行平均池化,然后依次经过2个全连接层,上述操作可表示为

FC=Fs(f(2)FC(FR(f(1)FC(FA_C(Fin)))))

(2)

式中:FC为通道维度的注意力映射图;Fs为Sigmoid激活函数;f(i)FC为第i个全连接层;FR为Relu激活函数;FA_C为通道维度的平均池化;Fin为输入特征图。最后将通道维度的注意力映射图与原始的输入特征图相乘,得到带有注意力映射图的特征图。公式如下:

FSE=FC*Fin

(3)

式中:FSE为SE注意力机制的输出特征图;*表示逐元素相乘。SE注意力仅关注特征图中通道维度的信息,而忽略了结构位置信息。

2) 三维注意力机制。为了使注意力能够获取到精确的人脸结构位置信息,同时保留人脸识别所需的显著性特征,本文提出一种新的三维注意力机制。本文提出的注意力分别对特征图的宽、高和通道3个维度进行池化操作,然后经过一系列的级联、拆分等步骤,得到带有结构信息的判别性特征图。三维注意力机制的整体结构如图3所示。

图3 三维注意力结构

对于宽维度和高维度,三维注意力首先对这2个维度的特征图进行最大池化和平均池化操作,再进行级联操作,上述2个操作分别表示为

(4)

式中:FW为级联之后宽维度的特征图;Fcat为通道维度的特征级联操作;FA_W为宽维度的平均池化操作;FM_W为宽维度的最大池化操作;FH为级联之后高维度的特征图;FA_H为高维度的平均池化操作;FM_H为高维度的最大池化操作;Fin为输入特征图。然后将宽维度得到的特征图与高维度得到的特征图级联后依次经过一个卷积、批量归一化和H-Swish激活函数,计算公式如下:

FWH=FH(FBN(Fc1(Fcat(FH,FW))))

(5)

式中:FWH为级联宽高维度之后的特征图;FH为H-Swish激活函数;FBN为批量归一化;Fc1为卷积核维度为(1,1)的卷积。之后,将上述得到的特征图分割为高维度的特征图和宽维度的特征图。对分割后高维度的特征图依次经过一个卷积核维度为(2,1)的卷积和Sigmoid激活函数,得到高维度的注意力映射图。类似地,对分割后宽维度的特征图依次经过一个卷积核维度为(1,2)的卷积和Sigmoid激活函数,得到宽维度的注意力映射图。对于通道维度的特征图,先进行池化操作,再经过一个卷积核维度为(1,1)的卷积和Sigmoid激活函数,最后得到通道维度的注意力映射图。将不同维度的注意力映射图与原始的输入特征分别进行乘法操作,从而得到带有特定维度注意力的特征图。上述操作的计算过程分别表示为

(6)

式中:fS_H为拆分后的高维度特征图;Fc2,1为卷积核维度为(2,1)的卷积;FA_H为高维度的注意力映射图;fS_W为拆分后的宽维度特征图;Fc1,2为卷积核维度为(1,2)的卷积;FA_W为宽维度的注意力映射图;FA_C为通道维度的平均池化操作;FM_C为通道维度的最大池化操作;FA_C′为通道维度的注意力映射图;*表示逐元素相乘;Fin表示输入的原始特征图。最后将得到的3个特征图逐元素相加得到最终输出,表示为

FAtt=FA_W+FA_H+FA_C′

(7)

式中:FAtt为最终得到的三维度注意力特征图。

2.3 损失函数设计

1) 交叉熵损失。交叉熵损失是分类任务中应用最广泛的损失函数[19],可表示为

(8)

式中:xi∈Rd,为第yi个类的第i个样本的深度特征;Wj∈Rd,为权重矩阵W∈Rd×n的第j列的权值向量;bj∈Rd,为偏置;N为一个批次的batch数;n为总类别数。传统的交叉熵损失被广泛用于深度人脸识别中,然而交叉熵损失并没有明确优化特征嵌入以增强同类样本间的相似性,导致在类内特征差异较大时,该损失不能达到期望的识别效果。

2) 可信度增强损失。可信度增强损失使用类队列存储被网络正确分类的特征。为确保类队列中的特征对网络具有有效的导向作用,本文使用3个不同的概率值0.7、0.8、0.9进行对比实验,结果显示0.9可达到最好的效果,而0.95、0.99等概率值的效果与0.9类似,故只需将分类正确且分类概率大于0.9的样本特征存储到类队列中。如果将分类错误的特征入队,它会使类队列失去标签特性,导致错误的训练导向。类队列的个数为类别数,限制每个类队列的大小不超过给定的阈值m,本文使用4个不同的类队列大小值50、100、150、200进行对比实验,结果显示150可以达到最好的识别效果,故在实验中将参数m的值设置为150。

为弥补交叉熵损失的不足,本文提出了一个基于余弦相似度的可信度增强损失进一步增强深度网络的特征学习能力,使得同类样本的深度嵌入特征之间的相似性尽可能高,从而提高人脸识别任务的准确性。本文基于分类可信度的样本队列优化策略构造可信度增强损失,构造过程如图4所示。

图4 基于分类可信度的样本队列优化

从图4可以看出,可信度增强损失的优化过程存在3种不同的情况,一种是被网络正确分类且分类概率大于0.9的样本特征,一种是被网络正确分类但分类概率小于0.9的样本特征,最后一种是被网络错误分类的样本特征。对于第1种情况,首先需要判断该特征对应的类队列是否为空。若类队列为空,直接将对应类的嵌入特征入队;若类队列不为空,先判断该嵌入特征入队之后,类队列的特征数是否大于给定的阈值m。如果大于给定的阈值,则先将队列中存在的队头特征出队,再将该嵌入特征与队列中的特征做可信度增强损失,最后将该嵌入特征入队;如果类队列中样本数小于给定的阈值,则不需要将队头特征出队。针对第2种情况,需要先判断该特征对应的类队列是否为空。若类队列为空,既不计算损失也不入队;若类队列不为空,只需将样本特征与对应的类队列进行损失的计算,不进行入队操作。对于没有被网络正确分类的样本特征,该算法既不进行损失的计算,也不进行入队操作。

相似度越高表明样本越相近,相似度越低表明样本差异越大。对于相同类相似度较高的训练样本,给予较小的惩罚值;相反地,对于相同类相似度较低的训练样本,给予较大的惩罚值。本文采用余弦相似度衡量不同样本的相似性,表示为

(9)

式中:Ni为第i类队列中的样本数;bi为本批次中第i个样本的特征向量;Fn为当前类队列中的第n个样本特征向量;Ri为第i个样本是否分类正确;m为一个批次的特征数量。本文联合交叉熵损失和可信度增强损失对网络模型参数进行优化,整个网络的损失函数表示为

L=L1+λL2

(10)

3.1 实现细节

本文使用MTCNN[20-21]人脸检测算法检测整个训练集和测试图像的人脸区域和标记点,将其裁剪到224×224的大小。然后将训练集中的RGB彩色图像进行归一化操作。在数据集CASIA-WebFace[22]上训练网络模型,该数据集是一个公用的人脸识别数据集,其中包含10 575个名人的490 000张人脸图像,部分名人的图片少于20张,部分名人的图片大于300张。对于每一张图像采用随机水平翻转方式进行数据增强。本文使用PyTorch深度学习框架实现人脸识别深度模型的搭建和训练,利用随机梯度下降法(stochastic gradient descent,SGD)算法训练提出的EfficientFaceNets模型。对于CASIA训练集,将初始学习率设为0.1,然后以0.1的速度使用余弦退火方式进行学习率调整,设置动量为0.9,权重衰减因子设置为10-4。

为了验证本文提出方法的有效性,分别在2个公共的人脸数据集LFW[23]和CFP-FP[24]上进行了验证实验。2个数据集中部分代表性样本如图5所示。

(a) LFW数据集的代表性样本

图5中,每一列代表同一个人的2张不同人脸图像。LFW数据集提供的人脸图片均来源于生活中的自然场景,受多姿态、光照、表情、年龄、遮挡等因素影响,导致同一身份的人脸图像在外观上存在较大的差异。LFW数据集包含5 749个人的13 233张人脸图像,该数据集提供了6 000个测试对用于验证人脸识别模型的性能。CFP-FP数据集难度比LFW更大,它由受试者的正脸图像和侧脸图像组成。CFP-FP数据集总共包含500个受试者的7 000张人脸图像,每个受试者含有10个正脸图像和4个侧脸图像。

3.2 对比结果与分析

首先,为了证明三维注意力机制对人脸结构位置信息的编码能力,图6展示了提出的三维注意力机制与SE注意力机制的特征值可视化的对比结果,图中颜色越亮表示网络对其关注度越高。

图6 不同注意力特征图可视化

图6中,第1行是原图,第2行是使用SE注意力机制可视化的特征图,最后一行是使用三维注意力机制可视化的特征图。从可视化结果来看,提出的三维注意力机制可以比SE注意力机制更准确的关注到人脸区域,有利于提取更具有判别性的人脸深度特征。其次,为了验证提出的可信度增强损失能够促进同类样本的紧凑性,本文选取10个类别的样本图像进行实验,不仅将使用交叉熵损失训练的模型提取到的特征可视化到二维空间中,而且将使用可信度增强损失训练的模型提取到的特征值可视化到二维空间中。可视化对比结果如图7所示。

(a) 交叉熵损失训练模型

从图7可以看出,使用可信度增强损失训练的模型得到的人脸特征在空间分布上更加紧凑,优于使用交叉熵损失训练的模型得到的特征分布,这表明可信度增强损失有利于生成更具有判别性的特征表示。

最后,将提出的EfficientFaceNets模型与MobileFacenet、MobilenetV3-large、Resnet50模型在LFW、CFP-FP数据集上的识别性能进行比较。提出的模型与对比模型均使用CASIA数据集进行训练,对比结果如表2所示。

表2 不同模型在LFW和CFP-FP数据集中的识别率

从表2可以看出,本文提出的EfficientFaceNets模型在LFW数据集和CFP-FP数据集上均达到了最好的识别性能。为了验证可信度增强损失的有效性,本文使用交叉熵损失和可信度增强损失2种训练策略来训练提出的模型和需要比较的模型。表2中的model+softmax表示使用交叉熵损失训练构建的模型,而model+classLoss表示使用可信度增强损失训练对应的模型。从表2中结果可以看出,使用可信度增强损失训练的模型在LFW数据集和CFP-FP数据集上均优于使用交叉熵损失训练的模型。对于MobileFacenet模型来说,使用可信度增强损失比使用交叉熵损失在LFW上的识别准确率高0.35%,在CFP-FP上的识别准确率高1.35%。由于MobilenetV3模型本身使用了注意力机制,将其替换为提出的三维注意力机制,再使用可信性增强损失进行训练,其在LFW和CFP-FP上的识别准确率比使用交叉熵损失得到的模型分别提升了2.27%和0.98%。对于Resnet50网络模型,使用可信度增强损失训练的人脸识别模型在LFW和CFP-FP数据集上均表现出优异的识别效果,识别率分别达到94.68%和88.48%。

为进一步评估不同网络模型的计算复杂度,对EfficientFaceNets与EfficientNetV2-S[17]、MobileFacenet[14]、MobilenetV3[25]和Resnet50[26]模型的参数量进行比较,EfficientFaceNets、EfficientNetV2-S、MobileFacenet、MobilenetV3和Resnet50[26]模型的参数量分别为2.356×107、2.018×107、2.370×106、2.990×106和2.352×107。

MobileFacenet和MobilenetV3_large网络模型是针对移动设备上运行的轻量化网络,需要的模型参数量都较少。而提出的EfficientFaceNets模型的参数量与Resnet50模型参数量相当,主要原因在于本文方法使用了上下文特征融合方式增加了浅层特征的通道数,从而增加了网络的参数量。但EfficientFaceNets模型在LFW数据集上的准确率比Resnet50高出0.55%。

3.3 消融实验

本节进行了一系列的消融实验验证提出不同模块的有效性。为了清楚地展示每个模块对人脸识别性能的贡献,以EfficientNetV2-S为基准模型,将其在LFW数据集上的取得的识别率与嵌入不同模块的网络模型获得的识别性能进行比较,对比结果如表3所示。

表3 消融实验

表3中,第1行表示EfficientNetV2-S在LFW数据集上的识别率;第2行表示在EfficientNetV2-S的基础上增加上下文特征融合模块。可以看出,上下文特征融合方案可以略微提升网络的整体识别性能;第3行表示在基准模型的基础上使用了三维注意力机制,从表中的结果可以看出,三维注意力机制对网络的识别性能有一定的作用,在基准模型基础上增加了1.4%;第4行表示在EfficientNetV2-S模型上使用了可信度增强损失,使用该损失时,在基准模型基础上识别率增加了2.04%;最后一行表示将上述提出的3个模块均用于基准模型中,取得的识别率最高,达到了94.77%,相比于基准模型增加了2.39%。上述实验结果验证了本文提出的3个模块提升识别性能均有贡献。

本文提出的EfficientFaceNets方法融合模型中的浅层细节信息和深层语义信息,可得到更细粒度的人脸特征表示,同时采用三维注意力机制,可以增强人脸图像中的空间位置信息。考虑到类间可分性对于分类任务的重要性,使用可信度增强损失提高同类样本的深度嵌入特征之间的相似度。实验结果表明,本文提出的EfficientFaceNets在人脸识别性能上优于其他几种对比主流方法。

尽管提出的方法在自然场景人脸识别任务上取得了较好的性能,但仍然存在计算复杂度较高的问题,不利于实时应用,如何研究计算复杂度低的轻量化人脸识别网络,是未来进一步需要研究的课题。

猜你喜欢队列人脸识别人脸人脸识别 等作文中学版(2022年1期)2022-04-14有特点的人脸少儿美术·书法版(2021年9期)2021-10-20队列里的小秘密小学生学习指导(低年级)(2020年4期)2020-06-02揭开人脸识别的神秘面纱学生天地(2020年31期)2020-06-01基于多队列切换的SDN拥塞控制*软件(2020年3期)2020-04-20在队列里军营文化天地(2018年2期)2018-12-15三国漫——人脸解锁动漫星空(2018年9期)2018-10-26丰田加速驶入自动驾驶队列产品可靠性报告(2017年7期)2017-09-05基于类独立核稀疏表示的鲁棒人脸识别计算机工程(2015年8期)2015-07-03马面部与人脸相似度惊人发明与创新(2015年33期)2015-02-27

明翰范文网 www.tealighting.com

Copyright © 2016-2024 . 明翰范文网 版权所有

Powered by 明翰范文网 © All Rights Reserved. 备案号:浙ICP备16031184号-2

Top