基于辅助任务和Transformer的人脸正面化网络

时间:2023-08-12 14:05:01 公文范文 来源:网友投稿

解奕鹏, 闫寒梅, 秦品乐, 曾建潮

(1.中北大学 大数据学院, 山西 太原 030051 2.山西警察学院 刑事科学技术系, 山西 太原 030401)

现有人脸识别算法的成果已经非常丰硕, 但绝大部分仅限于对接近正面的人脸图像的识别, 对大角度的人脸的识别效果较差[1]。人脸正面化方法旨在使用一张侧面人脸图像生成保留身份信息的正面人脸图像, 在不重新训练现有人脸识别模型的基础上, 提高人脸识别的精度。现有人脸正面化方法大致分为两类。第一类方法使用人脸的三维信息重建正面人脸, 例如: Zhou等提出的Rotate-and-Render方法[2]是一种用于非受控场景的无监督框架, 不需要成对的数据就可以进行网络训练; Shi等提出的H-CRC方法[3]将直方图统计度量与三维可变形模型相结合, 提高了人脸识别分类算法的稳定性。但是, 这类方法需要特殊的数据采集设备, 训练数据获取困难, 且最终生成效果严重依赖人脸关键点检测的准确性, 计算量较大。第二类方法直接使用二维的侧面人脸图像生成对应的正面图像, 例如: Huang等提出了TP-GAN[4], 该网络融合全局与局部两通道的特征生成正面人脸图像; Yin等[5]提出了DA-GAN, 仅在生成器的解码阶段引入了自注意力, 同时使用4个鉴别器, 分别关注生成图像的不同区域, 但该方法忽略了编码阶段的特征提取同样重要; Duan等[6]提出了TSGAN, 在一个框架中同时进行人脸去遮挡及人脸正面化工作, 并使用自注意力机制, 使网络关注感兴趣区域; Hu等[7]提出了CAPG-GAN, 使用了人脸关键点作为辅助信息, 并能通过该信息控制生成图像的姿态; Hao等[8]提出了DGPR网络, 该网络引入人像草图作为额外信息, 并验证了人像草图相比于人脸关键点包含更多的人脸信息, 但其两阶段式网络使整体引入了不必要的误差; 李红霞等[9]提出了Sym-GAN, 强调面部眼周区域对人脸相似度的影响, 并提出了眼周损失。

上述方法主要存在以下问题: 1)正面人脸生成侧面人脸, 训练阶段生成器通常不够稳定[1]; 2)注意力机制完全依赖于网络自主训练的结果, 存在许多不确定因素; 3)在某一数据集上训练得到的模型用在其他数据集上时性能会下降, 即过拟合问题[5,10]。因此, 本文使用多任务策略来辅助生成器, 稳定训练过程, 缓解过拟合问题; 同时, 将人脸关键点与注意力机制结合, 引入编码器中, 使网络准确地关注重点区域。本文具体工作如下: 1)提出一种具有辅助任务的生成对抗网络, 次任务为主任务的相似任务, 利用多任务学习的策略提高网络泛化性。2)提出一种基于Transformer的特征交互模块, 将编码器提取到的人像草图特征与正面人脸特征进行充分交互。其次, 将空间注意力与人脸关键点结合, 确保网络准确提取人脸关键特征。3)在多角度人脸监控数据集[11](Multi-Angle Surveillance Face Dataset, MASFD)与CAS-PEAL-R1数据集[12]上进行了充分的定性与定量实验, 验证本文方法的有效性。

1.1 生成对抗网络

生成对抗网络(Generative Adversarial Nets, GAN)最初由Goodfellow等[13]提出, GAN网络的训练是一个博弈的过程, 生成器试图学习真实数据的分布情况并伪造这类数据, 而鉴别器则鉴别输入数据是真实数据还是生成数据。两个网络相互博弈、进化, 直至鉴别器分辨不出真假。

生成对抗网络已经在计算机视觉领域得到广泛应用, 如图像去噪[14]、图像超分[15]、风格迁移[16]等方面。近年来, 许多方法[17-18]关注GAN网络的潜在空间编码, 以实现生成图像属性的实时编辑。还有一些方法在GAN的基础上引入其他领域的先验知识, 提高了生成效果, 如Wei等[19]提出的FFWM, 将光流场引入人脸正面化工作中, 辅助生成逼真的人脸图像, 其对抗损失表示为

Ladv=minGmaxD{EIgt[logD(Igt)]-

(1)

1.2 多任务学习

机器学习中, 通常可以通过训练某一特定模型来执行特定任务, 并能达到不错的性能。但是, 这种模型过于关注单个任务, 影响网络的泛化性能, 而多任务学习可以使模型获得更好的泛化能力[20]。

多任务学习是机器学习中的一种学习范式, 其目的是利用多个相关任务中包含的有用信息来帮助提高所有任务的泛化性能[20]。在深度学习中, 多任务学习通常包含硬参数共享和软参数共享两类。任务越多, 模型就必须找到更具有泛化性的表示来适应所有任务, 以降低过拟合的风险。如He等[21]提出的高度融合的两分支网络等。

1.3 视觉Transformer

Transformer首次被提出于自然语言处理领域, 并逐渐发展为自然语言处理任务最主要的深度学习模型。Dosovitskiy等[22]开创性地提VIT, 将Transformer应用于计算机视觉领域。Transformer可以处理输入序列的长依赖, 很好地建模图像中的全局关系。此后, 越来越多的研究将其强大的全局建模能力应用在计算机视觉领域。

目前, Transformer在计算机视觉领域中的应用形式有两种, 一种是纯Transformer结构[23], 另一种将Transformer和卷积神经网络(Convolutional Neural Networks, CNN)结合[24]。Transformer相比于传统的CNN, 具有优秀的全局特性, 能够增强模型的特征提取能力。Transformer内部的自注意操作可以实现不同数据特征的充分交互。但其也有缺点, 如: 计算时间复杂度较高, 训练速度较慢, 缺少归纳偏置, 局部信息获取能力弱等。

因此, 本文将传统的卷积神经网络作为特征提取的主体网络, 将Transformer作为信息交互的关键模块, 在发挥其优势的情况下避免其缺陷。

本文所提辅助任务网络AT-GAN的结构如图1 所示。其中, 主任务为人脸正面化本身, 次任务为利用侧面人像草图生成正面人像草图, 通过多任务的相关性提高网络泛化性及生成效果。

图1 AT-GAN网络结构图

2.1 多任务网络

现有的人脸正面化方法使用各种方式学习人脸侧面到正面的变换, 但直接变换往往难度较大。人像草图相比于原始图像, 不仅保留了鲜明的结构信息, 同时任务难度大大降低, 且人像草图的正面化任务是原始图像正面化任务的相关任务, 可以使用多任务的结构引导网络并提高网络泛化性。

本文网络的输入为2D的人脸图像, 且人脸关键点中包含该图像最重要的空间区域信息, 为了使编码器准确地关注图像关键区域, 并提取到鲁棒的高维特征, 本文将空间注意力[25]与人脸关键点进行了结合, 如图1 所示。

首先, 利用编码器对人像草图与输入图像进行特征提取。前一层的特征在通道维度进行平均池化与最大池化, 分别得到H×W×1的特征图, 与人脸关键点进行拼接后进行卷积、激活等操作得到注意力权重图, 再与原图进行点乘得到最终的特征图。

其次, 将原始图像的特征提取结果与人像草图的特征提取结果一起输入到特征交互模块, 通过视觉Transformer强大的全局建模能力使两特征充分交互。

最后, 通过具有4层反卷积的解码器恢复正面人脸, 再将人像草图的特征直接输入到解码器, 用于恢复对应的正面人像草图, 从而引导主任务的执行。

2.2 特征交互模块

特征交互模块用于将两路特征进行融合, 其具体结构如图2 所示。

图2 特征交互模块

(2)

式中:dk表示k的向量维度。经过该交叉注意力的融合, 可以很好地将人像草图特征补充到真实图像特征中, 达到辅助引导训练的作用。最后, 将特征通过原始MHSA的一层Transformer, 进一步对特征进行全局建模。

2.3 鉴别器

本文采用带有残差结构的卷积块作为鉴别器的主体框架[26], 其网络结构如图1 所示。其中, Conv(3,1,1)表示卷积核为3、步长为1、填充为1的卷积, Conv(1,1,0)、Conv(4,2,1)同理; InstanceNorm表示实例归一化; AvgPool(2,2)表示核为2、步长为2的平均池化。输入图像经过4次下采样后使用光谱归一化使鉴别器满足Lipschitz约束, 用于稳定GAN网络的训练, 以防止模式坍塌。鉴别器最终输出一张8×8的概率图, 概率图的每个区域对应原输入图像的不同块, 这样的设计有助于模型关注图像细节。

2.4 损失函数

为了使损失函数更好地关注人脸区域, 使用3DDFA检测出人脸后扣除背景区域[19], 总的损失函数表示为

L=λadvLadv+λl1Ll1+λprecLprec+

λsymLsym,

(3)

式中:Ladv表示对抗损失;Ll1表示绝对误差损失;Lprec表示感知损失;Lsym表示对称损失;λ表示对应的损失权重。

对抗损失[5]使生成器生成与真实样本分布接近的假样本; 其损失函数表示为

Ladv=minGmaxDV(D,G)=

Ex~pdata(x)[logD(x)]+

Ez~pz(z)[log(1-D(G(z)))],

(4)

式中:E表示期望;x~pdata(x)表示x来自真实数据的分布;z~pz(z)表示z为随机噪声。

绝对误差损失[9]保证生成图像与真实图像内容的一致性, 公式为

(5)

式中:W,H,C分别表示特征宽度、高度、通道数;G(z)表示生成器伪造的数据;Igt表示真实标签。

感知损失[19]确保生成具有真实感的照片, 其公式为

(6)

式中:Φi(·)表示VGG[27]网络的第i层。

对称损失[9]用于保证人脸的左右部分大致对称这一先验知识, 计算公式为

(7)

3.1 实验数据及环境

本文使用本实验室自主采集的数据集MASFD及公开数据集CAS-PEAL-R1进行实验。MASFD数据集使用海康威视DS2CD3T56(D)WD 6mm高清摄像头拍摄, 包含4 253人, 每人23个角度, 共97 819幅图像(4 253×23=97 819)。CAS-PEAL-R1由中科院于2003年拍摄, 共包含30 900幅人脸图像, 本文仅使用该数据集内存在姿态变化的图像进行实验, 共包含21 840幅人脸图像。

本文在MASFD数据集中随机选择900人做测试集, 其余3 353人做训练集。同时, 在CAS-PEAL-R1数据集内随机选取830人做训练集, 其余210人做测试集。

实验使用英伟达DGX Station服务器作为硬件环境, 该服务器共有4块Tesla V100高性能显卡, 显存共计128 G, 内存大小256 G, 操作系统为Ubuntu20.04。学习率取0.000 2, 前150轮学习率固定, 再衰减到0。

MASFD数据集图像大小为1920×1 080, CAS-PEAL-R1图像大小为360×480。首先使用3DDFA在整幅图像中检测出人脸区域与人脸关键点, 再用仿射变换对图像进行旋转和缩放, 使人脸五官坐标以表1 为标准, 最后将图像裁剪到128×128大小。

表1 人脸五官基准坐标

3.2 定性对比

将Sym-GAN、DA-GAN、DGPR方法与本文方法进行对比, 其定性结果如图3 所示。其中, 第一列为网络输入, 展示了8种不同姿态的输入图像, 第二列为对应的基准图, 其余列为各对比方法的生成结果。

图3 定性对比试验结果

由图3 可知, 由于DA-GAN仅在解码部分使用两个自注意力进行全局建模, 忽略了编码时的特征提取也一样重要, 因此, 生成的人脸轮廓多发生形变; DGPR使用两阶段方式生成人脸, 这给网络引入了不必要的误差, 因此, 生成的人脸存在较多伪影; Sym-GAN仅使用CNN进行人脸生成, 其生成的人脸图像较为模糊, 严重缺乏真实感, 且会导致没有带眼镜的输入图像反而生成了眼镜, 如第四行输入图像; 本文方法同时关注了编码时的特征提取及解码时的全局建模, 因此, 生成图像更为清晰, 且人脸结构、头发等细节与真实正脸较相近, 总体上优于其他方法。

本文方法在MASFD及CAS-PEAL-R1数据集上的正面化结果如图4 和图5 所示, 其中奇数行为网络输入, 偶数行为模型输出。

图4 本文方法在MASFD数据集上各角度的实验结果

最后, 使用各方法在CAS-PEAL-R1数据集上进行训练, 在MASFD数据集上进行测试, 其结果如图6 所示。

图6 各方法在CAS-PEAL-R1数据集上训练在MASFD数据集上测试的结果

由图6 可知, DGPR与Sym-GAN在第1张测试图像上产生了扭曲及伪影, DA-GAN在第4张测试图像中的人脸轮廓发生了扭曲, 而本文方法的人脸轮廓结构与正面图像相似, 没有产生较大的结构变形, 且伪影较少, 一定程度上说明本文方法可以缓解模型的过拟合问题。

3.3 定量对比

Rank-1表示搜索结果中最靠前的一张图像为正确结果的概率。本文使用Rank-1评价指标在MASFD与CAS-PEAL-R1数据集上对AT-GAN及上述方法进行定量实验, 结果如表2 和表3 所示。

表2 本文及其他方法在MASFD数据集上的Rank-1识别率

表3 本文及其他方法在CAS-PEAL-R1数据集上的Rank-1识别率

由表2 和表3 可知, 本文方法在MASFD及CAS-PEAL-R1数据集上的Rank-1识别率整体高于其他方法, 尤其是在较大角度下, 本文方法依旧有较好的识别率, 说明本文方法能够在保留身份信息的同时生成正面图像, 优于其他方法。

图7 给出了各对比方法在MASFD及CAS-PEAL-R1测试集内的峰值信噪比(Peak Signal to Noise Ratio, PSNR)、结构相似性(Structural Similarity, SSIM)指标的平均值, 以及训练一轮所花费的时间及一次前向传播所花费时间。

(a)不同方法在MASFD与CAS-PEAL-R1数据集上的PSNR指标

由图7(a)和图7(b)可知, Sym-GAN的SSIM与PSNR指标在CAS-PEAL-R1与MASFD数据集内均较低, DA-GAN与DGPR方法次之, 本文方法最优; 由图7(c)和图7(d)可知, DA-GAN训练及前向推理花费时间最长, 主要是DA-GAN内部的两个自注意模块导致的, 而本文方法将Transformer与CNN结合, Transformer只用作信息交互, 花费时间次之, Sym-GAN与DGPR只使用了CNN, 两者花费时间较少, 而DGPR的两阶段网络导致其时间成本高于Sym-GAN。

3.4 消融试验

实验设置一: 为验证多任务学习是否有效, 模型过拟合问题是否得到缓解, 针对是否保留多任务学习以及训练集和测试集是否相同的情况进行了实验, 实验结果如表4 所示。由表4 可知, 保留多任务学习时, 模型的平均Rank-1指标下降幅度比移除多任务学习时减少了4.04%, 进一步说明多任务学习可以使模型的过拟合问题得到缓解。

表4 本文方法在多任务学习、训练集和测试集组合不同时的Rank-1识别率

实验设置二: 为验证特征交互模块的有效性, 进行了去掉该部分的实验(AT-GAN/FFM), 实验结果如表5所示。由表5 可知, 添加特征交互模块有助于最终效果的提高。

表5 各消融实验在CAS-PEAL-R1和MASFD数据集内的平均Rank-1指标

实验设置三: 为验证带注意力模块的下采样是否有效, 进行了去掉该注意力部分的实验(AT-GAN/SAM), 实验结果如表5 所示。由表5 可知, 添加带注意力的下采样有助于网络准确提取输入图像的关键特征, 从而提高特征提取的鲁棒性。

本文提出了一种基于多任务学习的生成对抗网络。首先, 以人像草图的正面化工作为相关任务, 利用多任务学习的相关性及Transformer强大的信息交互能力来提高原始任务的生成效果, 并最终验证了模型泛化性能的提升; 其次, 将空间注意力与人脸关键点进行结合, 帮助模型准确地关注关键区域, 引导原始任务的训练。本文方法还存在以下局限性: 1)本文网络的训练需要成对的图像数据, 这类数据的采集非常耗时、费力; 2)本文方法在非受限数据上的效果还有待提高。以上两点限制了本文方法的广泛应用, 未来的研究主要是更合理地运用无监督框架, 同时使用受限、非受限数据集, 以解决实际生活中因面部姿态不一致导致的各类问题。

猜你喜欢多任务草图集上Cookie-Cutter集上的Gibbs测度数学年刊A辑(中文版)(2020年2期)2020-07-25链完备偏序集上广义向量均衡问题解映射的保序性数学物理学报(2019年6期)2020-01-13基于中心化自动加权多任务学习的早期轻度认知障碍诊断中国生物医学工程学报(2019年6期)2019-07-16复扇形指标集上的分布混沌数学物理学报(2017年5期)2017-11-23画好草图,寻找球心福建中学数学(2016年4期)2016-10-19基于判别性局部联合稀疏模型的多任务跟踪自动化学报(2016年3期)2016-08-23草图中学生理科应试(2016年2期)2016-05-30基于多任务异步处理的电力系统序网络拓扑分析电测与仪表(2016年5期)2016-04-22一波三折小学生导刊(中年级)(2014年3期)2014-05-09基于Inventor概念草图仿真在机械原理中的应用应用技术学报(2014年1期)2014-02-28

推荐访问:的人 辅助 网络