摘要
人脸三维重建是一个非常困难的计算机视觉基础问题。当前系统通常假设多个面部图像(有时来自相同主题)的可用性作为输入,并且必须解决许多方法学挑战,例如建立较大面部动作,表情和非均匀照明的密集对应。通常,这些方法需要复杂且低效的途径来进行模型构建和拟合。
在该工作中,我们建议使用卷积神经网络来解决现有问题,卷积神经网络模型可以使用二维图像和三维面部模型或扫描件组成的数据集进行训练。本文使用的CNN模型仅用于单个二维面部图像,不需要精准对齐,也不需要在图像间建立密集的对应关系,适用于任意面部姿态和表情,并且可以绕过三维形变模型的构造(训练期间)和拟合(测试期间)以重建三维面部几何体(包括面部不可见部分)。我们通过简单的CNN架构实现这一点,该架构执行从单个二维图像直接回归三维面部几何体的体积表示。尤其是对于大面部姿态和表情的情况,我们还展示了如何将面部标记定位的相关任务与本文所提出的框架结合以提高重建质量。
上图分别为本文所提出的VRN、VRN-Guided、VRN-Multitask三种架构图示。VRN算法接受RGB图像作为输入,并直接回归三维体,完全绕过三维形变模型拟合,每个矩形是256个特征组成的残差模块。VRN-Guided算法首先检测三维标记的二维投影,并将它们与原始图像堆叠在一起,该堆栈被送入重建网络后的到结果。VRN-Multitask架构使三维面部体素和一组稀疏面部标记回归得到最终的效果。
上图分别为在ALFW2000-3D数据集(左)和BU-4DFE数据集(右)上的表现,可以看出,本文提出的三种模型架构具有较高的重建准确率,其中VRN-Guided表现最好,以下是VRN-Guided方法处理AFLW2000-3D数据集的效果展示。