必威(betway·官方网站)西汉姆联-EURO CUP

人工智能技术随着深度学习的复兴得到了迅速的发展，人脸识别是真正落地实现的人工智能技术之一。近年来人脸识别逐渐走向市场化和商业化，在身份认证、视频监控、信息安全、人机互动等方面发挥重要的作用。然而，在诸如刑事侦查的罪犯追踪、解救/寻找被拐儿童等应用场景中，只能获得少量甚至一幅人脸图像，导致模型难以从单幅图像中学习到具有强判别性和鲁棒性的人脸图像特征。此外人脸图像在拍摄时易受光照、视角、遮挡、年龄、表情等因素的干扰，导致识别难度提升。由此可见，单样本人脸识别依然是一个具有挑战性的研究问题。

为了提高人脸图像特征的判别能力和鲁棒性，在过去二十年大量特征学习方法被提出，这些方法主要分为两大类：手工设计特征的方法和学习特征的方法。

手工设计特征的方法：谭晓阳等提出通过局部三值模式(local ternary pattern，LTP)提取图像的纹理信息[1]。ZHANG et al[2]基于梯度比像素更稳定提出经典的梯度脸方法。Gabor卷积后提取的局部量化模式(local quantized patterns，LQP)特征[3]能够显著提高识别率。ZHU et al[4]在拉普拉斯高斯滤波后的幅值和方向图像上提取对数梯度直方图特征(logarithm gradient histogram，LGH).上述手工特征在某些数据集和条件下能够取得良好的人脸识别结果，但是其鲁棒性和泛化性依然存在提升的空间。

学习特征的方法：受益于卷积神经网络(convolutional neural network，CNN)的分布式抽象特征学习能力，人脸识别技术取得了迅猛的发展和巨大的进步。牛津大学VGG团队提出著名的深度人脸识别方法VGGFace[5].DeepFace[6]是另一个经典的深度人脸特征学习方法，其在识别和验证任务上均取得了优秀的结果。刘凡等针对单样本人脸识别，结合圆环自编码网络(cycle-autoencoder)和块稀疏联合表示(block sparse joint representation)设计了CAE-BSJR方法[7]。然而，由于深度卷积网络的结构深、参数多，所以需要丰富的训练技巧与调参经验，对硬件及训练数据量的要求高，因此难以在移动设备及微型计算机上进行普及使用。

鉴于深度网络的上述缺点，轻量卷积网络在近几年得到了广泛关注和研究。受CNN和小波散射网络的启发，CHAN et al[8]提出了主成分分析网络(principle component analysis network，PCANet)，在人脸和纹理图像识别任务上取得了非常优秀的结果，该网络模拟CNN的核心模块(卷积、激励和池化)，即用预设PCA滤波器替代网络学习滤波器，用哈希二值化替代非线性激励函数，而且直方图统计本质是一阶无序求和池化。随后TEOH团队提出离散余弦变换网络(discrete cosine transform，DCTNet)模型[9]。为了扩大卷积滤波器的数量和多样性，以学习更丰富的判别特征，该团队以Gabor、PCA和独立成分分析(independent component analysis，ICA)等滤波器为基础，通过多折卷积融合运算策略(multi-fold filter convolution，MFFC)提高人脸图像特征的判别能力[10]。虽然上述轻量卷积网络学到的人脸特征具有良好的判别性，但是存在以下缺陷：1) 他们仅仅考虑特征图的一阶信息，没有考虑特征图的二阶信息；2) 预先学习的PCA和ICA滤波器依赖于训练数据；3) 没有提取特征的空间布局信息。

受上述模拟CNN结构而设计的轻量卷积网络的启发，同时为了克服上述三个缺点，本文提出一种新的联合Gabor滤波器和RBF核池化的轻量人脸特征学习网络，其网络结构如图1所示。

本文的主要贡献如下：

1) 提出一种轻量卷积网络以学习人脸图像特征，其中包含预设Gabor滤波器、利用双曲正切函数tanh进行特征激励以及基于空间金字塔策略的RBF核池化；

2) 传统一阶池化提取同一通道特征之间的关系，本文研究的二阶池化能够提取两两通道特征之间的关系。此外本文用RBF核函数学习特征之间的非线性二阶关系；

3) 所提方法在三个单样本人脸识别数据集和一个视频人脸验证数据集上取得了优良的识别率和鲁棒性，证明了本文方法的有效性和学习特征的强判别性。

1 本文方法

1.1 数据预处理

假设x∈Rh×w表示一幅人脸图像，稠密地提取大小为p×p的图像块，然后减去所有图像块的平均亮度且除以方差，即作对比度归一化，最后为了降低像素之间的相关性，进行ZCA(zero-phase component analysis)白化。

1.2 Gabor特征提取

研究[11-12]表明哺乳动物大脑视觉皮层中的简单细胞可以用Gabor滤波器模拟，Gabor滤波器的方向以及频率与视觉认知系统的感受野形状非常接近，因此通过Gabor滤波器进行图像分析的过程被公认为类似人类视觉系统中的感知。更为重要的是，无论是深度卷积网络的端到端方式学习滤波器，还是基于主成分分析、聚类等算法学习滤波器，这些策略均属于数据驱动式。然而Gabor滤波器可以直接生成，不依赖任何数据，而且包含多尺度多方向信息，因此更适用于构建轻量卷积网络。Gabor滤波器的公式如下：

式中：μ∈{0,1,…,U-1}和v∈{0,1,…,V-1}表示滤波器的方向和尺度，通常U和V的默认值是8和5.kμ,v=(kmax/fv)ei(πμ/U)，kmax表示最大频率，默认值为π/2；f是频域中滤波器之间的间距因子，默认值为

标准差σ的值越大Gabor滤波器的形状越大。z是复数空间的变量。图2展示了12个方向和5个尺度的Gabor滤波器，不同于常规的8个方向，本文研究提取不同方向数量的人脸图像特征信息。假设Gabor滤波器的尺寸为p×p.

为了使输入图像x和卷积后图像的大小一致，本文对x进行边缘扩充。随后将图像x与Gabor滤波器作如下卷积运算：

特征图F的维度是d×h×w，其中d=UV.高盛华等研究[13]指出在轻量网络中，双曲正切函数tanh比其他激励函数(sigmoid和ReLU)在人脸识别任务上表现更好。为了模拟CNN网络的激励层，本文采用tanh对特征图F作非线性激励运算，如图1所示。

1.3 空间金字塔与核池化

全局和局部信息对人脸识别均有重要的作用，空间金字塔是一种能够同时提取局部特征和全局特征的通用思想，因此本文采用多级的空间金字塔池化策略对特征图进行空间划分，如图1所示。假设进行[1,2,4]级的空间划分，则得到21=1+4+16个空间区域。最大的空间区域即为整个特征图。

传统一阶池化在同一维度(即通道)内进行平均/最大值池化，无法刻画两两维度之间的相关关系。为了学习不同维度之间的关系，协方差(Covariance)池化是一种常见的二阶池化方法。对特征图F∈Rd×h×w进行维度调整得到E∈Rd×n，其中n=hw，如图3所示。假设ai和aj表示E的第i行和第j行，二阶COV平均池化的计算公式如下：

由于向量ai乘aj转置是内积运算，所以本质上C是一种线性核函数。然而对于受到严重光照干扰或姿态变化大的人脸识别，人脸模式特征之间是高度非线性关系，因此仅仅考虑不同通道特征向量的线性相关性来区分人脸图像是不充分的。此外C=EET/(n-1)∈Rd×d，其秩满足rank(C)≤min(d,n-1)，当d>n时将导致奇异矩阵问题。基于此，为了刻画两两通道特征之间的非线性关系，本文采用径向基核函数RBF进行池化运算。二阶RBF平均池化的计算公式如下：

图3展示RBF平均池化过程。Micchelli定理[14]指出无论维度d和n的大小关系如何，均能够保证核池化矩阵B具有非奇异性，而且B善于捕捉特征之间的非线性关系。由于二阶池化矩阵的对称性，所以提取矩阵的上三角元素即可，即图中的黑色三角形。此外由于二阶池化使特征处于黎曼流形空间，所以本文采用logarithm函数将其投影回欧氏空间。在得到每个空间子区域的特征表示向量之后，串联所有空间子区域上的核池化特征即可得到图像x的最终人脸特征表示。

2 模型参数分析

2.1 RBF和COV的对比

为了验证非线性核函数RBF比线性核函数COV提取人脸图像特征的能力更强，本文在ExtendedYaleB的测试子集4和5上进行验证实验。滤波器尺寸变化范围是15到23，步长为2，实验结果如图4所示。可以看出RBF在两个测试子集上均能取得超过99%的识别率。随着滤波器尺寸的增大，COV识别率在逐渐上升，但在测试子集4上最高识别率约75%，在测试子集5上最高识别率约45%，远低于RBF的识别结果。由此可以看出，RBF比COV在特征提取能力方面具有更大的优势。在FERET等其他人脸识别数据集上同样可以观察到相似的对比结果。

2.2 不同β值对性能的影响

本小节在FERET数据集上研究RBF池化计算公式(4)中的参数β对识别性能的影响。设β的变化范围为0.2到3.4，步长为0.4，滤波器尺寸为17，识别结果如图5所示。可以看到4个测试集上的识别率随着β值的增大呈现逐步上升的趋势，当β值在2.6左右时，识别率均达到饱和稳定状态。继续增大β值，识别率反而出现下降现象，因此本文设置β的默认值为2.6.

2.3 滤波器尺寸对性能的影响

不同尺寸滤波器的感受野不同，提取特征的能力也不同。本小节在FERET的测试子集Dup1和Dup2上分析Gabor滤波器尺寸对识别率的影响。滤波器尺寸变化范围是13到23，步长为2，β值设置为2.6.识别率结果如图6所示，可以看出随着尺寸的增大，识别率先上升，然后下降，在尺寸为17时，Dup1和Dup2均达到最高识别率。

3 实验验证

3.1 度量指标

对于人脸识别，本文采用识别率作度量指标。对于人脸验证，本文首先计算每个阈值对应的真阳率以及假阳率，然后绘制接受者操作特征曲线，最后计算AUC(area under curve)值，同时计算真阳率与假阳率相等时的等错误率(equal error rate，EER).

3.2 FERET上单样本人脸识别结果

FERET是一个经典的人脸数据集[15]，共1 196个类。训练对比集Gallery包含1 196幅图像，表情测试集Fb包含1 195幅图像，光照测试集Fc包含194幅图像，年龄测试集Dup1和Dup2分别包含722和234幅图像，例子图像如图7所示。为了验证本文方法对年龄、轻度光照、表情的鲁棒性，所以在FERET上进行单样本人脸识别实验。

本文方法在FERET上的参数设置为σ=π，空间金字塔池化为[1,2,4,8]，12个方向5个尺度共60个Gabor滤波器，滤波器尺寸为17.为了降低特征的冗余信息，本文采用白化主成分分析WPCA将特征维度降至1 000.从表1的对比结果可以看出：

1) 在以Gabor为基础的方法中，相较Gabor-LQP[3]和2FFC[10]，本文方法Gabor-RBF的识别率更高，尤其在跨年龄的测试集Dup1和Dup2上，优势更明显。

2) 在轻量卷积网络中，PCANet、2FFC方法及DCTNet的性能均低于本文的Gabor-RBF，说明空间金字塔与核池化具有强大的提取特征能力。

3) 深度卷积网络VGGFace的性能不佳的原因是训练数据量不足且网络结构复杂导致的过拟合。

4) 在Fc测试集上100%的识别率表明Gabor-RBF对光照有较好的鲁棒性。

3.3 AR上单样本人脸识别结果

AR数据集[16]包含100个类，图像分为两个时期拍摄，每个时期对每个人各拍摄13幅图像，总共2 600幅图像。每个人在时期一的第1幅图像用作训练对比集，每个时期的第2-13幅图像被划分为四个测试集：光照(3幅)、表情(3幅)、遮挡(2幅)、遮挡光照(4幅)，如图8所示。为了验证本文方法对遮挡和年龄的鲁棒性，所以在AR数据集上进行单样本人脸识别实验。

本文方法在AR上的参数设置为σ=π、空间金字塔池化为[1,2,4,8,16]，共6个方向5个尺度30个滤波器，滤波器尺寸设置为17，利用WPCA算法将特征维度降低至100.对比方法有：PCANet、自编码网络CAE-BSJR、判别分析特征[17]和通用特征方法[18-19]。从表2和3可得到如下观察：1) 本文方法在4个测试集上取得了最高的识别率，在遮挡和遮挡光照测试集上的优势更明显；2) 所有方法在时期一的结果高于时期二，其原因是每个人的单幅训练图像来自时期一，拍摄时期不同导致人脸图像在像素空间上存在差异，因此所有方法在时期二的识别率下降；3) 本文方法在时期二的识别率相对其他方法的最大提升量是0.8%、7.73%、2.2%和4.5%，大于在时期一的提升量0%、0.16%、0.1%和1%，该现象显示本文方法对时间年龄具有更强的抗干扰能力。4) Gabor-RBF在两个时期的结果均超过PCANet，表明本文所提轻量卷积网络的人脸特征学习能力更强，这归因于多尺度多方向的Gabor特征学习以及核函数RBF学习两两通道特征的非线性关系。

3.4 ExtendedYaleB上单样本人脸识别结果

ExtendedYaleB数据集[20]包含38个类，每个类大约有64幅受到不同程度光照污染的人脸图像。根据光照角度的不同，整个数据集被划分成五个子集，如图9所示，子集1-5分别包含263、456、455、526和714幅图像。按照标准的测试方案，在子集1中选择38幅图像组成训练对比集，每个类选择一幅图像。光照是影响人脸识别结果的重要因素之一，为了验证本文方法的光照鲁棒性，本小节选择在ExtendedYaleB数据集上进行实验。

本文方法在ExtendedYaleB数据集上的参数设置为σ=π，空间金字塔池化为[1,2,4,8,16]，共6个方向5个尺度30个滤波器，滤波器尺寸为17.由于训练集仅有38幅图像，特征降低至38维将导致关键信息丢失，因此本文在该数据集上不采用WPCA做特征降维。从表4的结果可得到如下观察：1) 梯度脸和局部三值模式LTP在轻度光照情形下能够取得不错的识别率，但是在重度光照情形下，他们的识别率均出现明显的下降；2) 本文方法在前三个测试子集上均取得100%的识别率，表明所提方法具有良好的抗光照干扰能力；3) 在子集4上，轻量网络PCANet和Gabor-RBF取得了最高的识别率99.62%，证明了模拟CNN结构而设计的轻量网络具有良好的特征学习能力；4) 从图9可知子集5受到非常严重的光照污染，本文方法在单训练样本的情况下依然能够取得了97.06%的识别率，再次证明了本文方法Gabor-RBF的有效性和光照鲁棒性。

3.5 YTF上的视频人脸验证

前三个实验是在单样本人脸识别任务上测试所提方法的有效性。视频数据相对图像数据具有更大的挑战性和更多的变化因素，所以识别难度也更大。此外，人脸验证是测试人脸图像特征优劣性的重要任务之一，为了进一步测试所提方法的有效性，本小节选择在视频人脸数据集(you tube faces，YTF)上进行人脸验证实验。

视频人脸数据集YTF[21]包含来自1 595个人的3 425段视频，如图10所示，其中包括尺度、光照、姿态、运动、表情和模糊等变化因素。该数据集共有十个测试方案，每个测试方案包含250对匹配视频和250对非匹配视频，其中匹配指两段视频是否属于同一个人。

由于视频人脸与图像人脸的不同，本文方法在YTF数据集上的参数设置为σ=2π，空间金字塔池化为[1,2,4,8]，采用12个方向5个尺度共60个Gabor滤波器，滤波器尺寸为21.首先在每个视频中随机采样二十帧，然后对视频帧进行眼睛对齐与剪裁操作，得到125×125尺寸的人脸图像。对每帧图像进行水平翻转以削减姿态变化对验证精度的干扰。最后本文采用WPCA将特征维度降至3 000，采用线性判别分析学习更多的判别特征。该实验的对比方法包括深度脸方法DeepFace[6]、轻量卷积网络方法PCANet[8]、深度度量学习[22]及概率弹性模型[23]。由于原始PCANet方法没有在YTF数据集上测试，所以本文在YTF上复现该方法的人脸验证结果。

对比方法在十个测试方案上的平均实验结果如表5所示。本文方法取得略低于著名深度模型DeepFace的验证结果。从轻量卷积网络角度，本文提出的Gabor-RBF相对PCANet而言，在三个验证指标上的性能均有所提升。虽然深度度量学习方法[22]在损失函数层面设计了新的度量损失，但是依然采用常规的一阶池化方法。本文方法Gabor-RBF只有一个卷积-激励-池化模块，由于采用了RBF核池化提取图像局部和整体的二阶特征，所以依然能够取得更好的验证结果，证明了核池化的优越性。概率弹性模型[23]在三个验证指标上的结果均低于Gabor-RBF.综合而言本文方法在视频人脸验证任务中取得了非常具有竞争力的结果，证明了方法的有效性和特征的判别能力。

4 结束语

本文从提取判别人脸特征和设计轻量卷积网络角度出发，提出一种联合Gabor滤波器和RBF核池化的轻量卷积网络方法，该网络结构非常简单，只包含一个CNN模块：卷积-激励-池化。在卷积滤波器方面，直接预设多尺度多方向的Gabor滤波器。在池化方面，通过RBF核函数学习特征图的两两通道之间的非线性二阶信息，既保证了池化矩阵的非奇异性，又能提取更高阶的特征。在三个单样本人脸识别和一个人脸视频验证任务上的实验结果证明了所提方法的有效性、判别性以及对多种因素的鲁棒性。

值得指出的是，本文提出的轻量网络模型在大规模人脸数据集(如WebFace260M)上的性能仍然有待提高。在未来的研究中，将构建端到端学习范式的轻量Gabor网络，同时研究其对图像的旋转不变性、网络泛化性以及CNN滤波器与Gabor滤波器的有效融合方式。

[1] TAN X,TRIGGS B.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].IEEE Transactions on Image Processing,2010,19(6)：1635-1650.

[2] ZHANG T P,TANG Y,FANG B,et al.Face recognition under varying illumination using gradientfaces[J].IEEE Transactions on Image Processing,2009,18(11)：2599-2606.

[3] HUSSAIN S,NAPOLEON T,JURIE F.Face recognition using local quantized patterns[C]∥Proceedings of the British Machine Vision Conference.Surrey,UK,2012,1-11.

[4] ZHU J,ZHENG W S,LU F,et al.Illumination invariant single face image recognition under heterogeneous lighting condition[J].Pattern Recognition,2017,66：313-327.

[5] PARKHI O,VEDALDI A,ZISSERMAN A.Deep face recognition[C]∥Proceedings of the British Machine Vision Conference.Swansea,UK,2015：1-12.

[6] TAIGMAN Y,YANG M,RANZATO M,et al.DeepFace：closing the gap to human-level performance in face verification[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA,2014：1701-1708.

[7] LIU F,WANG F,WANG Y,et al.Cycle-autoencoder based block-sparse joint representation for single sample face recognition[J].Computers and Electrical Engineering,2022,101：108003.

[8] CHAN T,JIA K,GAO S,et al.PCANet：A simple deep learning baseline for image classification?[J].IEEE Transactions on Image Processing,2015,24(12)：5017-5032.

[9] NG C,TEOH A.DCTNet：A simple learning-free approach for face recognition[C]∥Proceedings of APSIPA Annual Summit and Conference.HongKong,China,2015：761-768.

[10] LOW C,TEOH A,NG C.Multi-fold gabor,PCA,and ICA filter convolution descriptor for face recognition[J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(1)：115-129.

[11] DAUGMAN J.Uncertainty relation for resolution in space,spatial frequency,and orientation optimized by two-dimensional visual cortical filters[J].Journal of the Optical Society of America A,1985,2(7)：1160-1169.

[12] MARCELJA S.Mathematical description of the responses of simple cortical cells[J].Journal of the Optical Society of America,1980,70(11)：1297-1300.

[13] GAO S,ZHANG Y,JIA K,et al.Single sample face recognition via learning deep supervised autoencoders[J].IEEE Transactions on Information Forensics and Security,2015,10(10)：2108-2118.

[14] HAYKIN S.Neural networks：a comprehensive foundation (3rd Edition)[M].USA：Prentice-Hall,2007.

[15] PHILLIPS P,MOON H,RIZVI S,et al.The FERET evaluation methodology for face-recognition algorithms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(10)：1090-1104.

[16] MARTINEZ A,BENAVENTE R.The AR face database[R].CVC Technical Report No.24,Purdue University,West Lafayette,Indiana,1998.

[17] PANG M,CHEUNG Y,WANG B,et al.Robust heterogeneous discriminative analysis for face recognition with single sample per person[J].Pattern Recognition,2019,89：91-107.

[18] PANG M,CHEUNG Y,WANG B,et al.Synergistic generic learning for face recognition from a contaminated single sample per person[J].IEEE Transactions on Information Forensics and Security,2020,15：195-209.

[19] PANG M,CHEUNG Y,SHI Q,et al.Iterative dynamic generic learning for face recognition from a contaminated single-sample per person[J].IEEE Transactions on Neural Networks and Learning Systems,2021,32(4)：1560-1574.

[20] GEORGHIADES A,BELHUMEUR P,KRIEGMAN D.From few to many：illumination cone models for face recognition under variable lighting and pose[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(6)：643-660.

[21] WOLF L,HASSNER T,MAOZ I.Face recognition in unconstrained videos with matched background similarity[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Colorado,USA,2011：529-534.

[22] HU J,LU J,TAN Y.Discriminative deep metric learning for face verification in the wild[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA,2014,1875-1882.

[23] LI H,HUA G,SHEN X,et al.Eigen-PEP for video face recognition[C]∥Proceedings of Asian Conference on Computer Vision.Singapore,2015：17-33.

联合Gabor滤波器和核池化特征学习的单样本人脸识别与验证