专利 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210586444.2 (22)申请日 2022.05.27 (71)申请人大连理工大学地址 116024 辽宁省大连市甘井子区凌工路2号 (72)发明人吴铭侃　王波　王菲　 (74)专利代理机构大连智高专利事务所(特殊普通合伙) 2123 5 专利代理师马庆朝 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/34(2022.01) G06V 10/44(2022.01) G06V 10/56(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法 (57)摘要一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，属于深度伪造检测技术领域，其包括如下步骤： S1、从空间域提取能够表示原始图像整体模式的图像色彩特征； S2、提取两种不同的频域特征，一是浅层低频特征，直接从原始的输入图像提取浅层低频特征，使用浅层低频特征将原始rgb图像扩展到频域；另一是深度频域特征，提取输入图像的残差图，使用卷积提取器提取高频特征。 S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合，使得不同分支的特征在分类阶段得到充分表达。本发明在众多数据集上做了大量的实验，实验结果证明了我们方法的有效性和鲁棒性。权利要求书2页说明书5页附图2页 CN 114898438 A 2022.08.12 CN 114898438 A 1.一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，其特征在于，包括一个空间域特征提取模块和两个频域特征提取模块，并使用自适应的跨域融合模块将各个模块的特征进行融合；其包括如下步骤： S1、从空间域提取能够表示原始图像整体模式的图像色彩特征； S2、提取两种不同的频域特征，一是浅层低频特征，直接从原始的输入图像提取浅层低频特征，使用所述浅层低频特征将原始rgb图像扩展到频域；另一是深度频域特征，提取输入图像的残差图，使用卷积提取器提取高频特征，图像的残差变换图表示原始图像中人脸的融合边缘信息，而减少图像平滑部分色彩差异的影响。 S3、使用由门控卷积组成的自适应特征融合模块将浅层低频特征和深度频域特征融合，使得不同分支的特征在分类阶段得到充分表达。 2.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，其特征在于，所述的步骤S1具体如下：在特征提取阶段被分成了两个分支，浅层复合特征提取分支和深层频域特征提取分支，模型使用ResNet网络作为基础骨干网；首先使用卷积神经网络提取图像的色彩域特征，选择多贝西小波变换作为滤波方式，多贝西小波变换使用短时窗口来分析长信号，通过寻找一个紧密支撑的正交集以达到缩放的目的来适应图像的局部和平滑变化；多贝西小波变换由一个整数L和一系列的小波滤波系数{ai,i＝0,1,2,...,L ‑1}界定，并且有以下两个关系式规定：其中ρ(x)是幅值函数， ψ(x)是小波变换的母函数， L就是多贝西小波变换的阶数， x是时域的步长，如式所示，在小波变换中有L个正交条件，得到小波系数al，具有正交性的频域展开式A(w)可以表示为：其中C为常数项，并且可以得到四阶系数h(l)如下：在将多贝西小波特征和色彩特征融合后，输入卷积神经网络得到复合特征图，复合阶段使用简单的维度拼接。 3.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，其特征在于，将残差图作为基本输入，通过滤波器得到残差图，使用深度频域特征提取方法来获取深度频域信息；权　利　要　求　书 1/2 页 2 CN 114898438 A 2从原始图像上提取得到的是结合了色彩的频域特征能够反应面部细节，而从残差图提取得到的深层频域特征反应的是人脸图像的边缘信息；首先提取反应混合边界信息的残差图，并将残差图从原始的狭窄通道信息映射到高维空间上，使用神经网络来提取深层频域特征；下式表示了噪声残差：其中， Xij表示的是当前计算的像素点的像素值， Nij表示邻域像素，是定义在Nij上的cXij的预测值； c为残差阶，是一个变量，根据滤波器类型而改变，选择的三个滤波器分别为：局部线性预测器， 3*3平移不变线性像素预测器，以及核为5*5的基于Nelder ‑Nead算法的滤波器。 4.根据权利要求1所述的基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法，其特征在于，浅层低频特征和深度频域特征这两部分特征图具有相同的输出维度，假设维度都是C*H*W，使用门控卷积来保证融合模块的自适应特性，在门控卷积中，采用可学习的动态特征选择机制，并将其逐个通道每一层的所有位置，视觉伪影总是固定在固定的一些邻接像素点上，无论是在空间上还是频域上都是邻接的，使用门控卷积来捕获和定位这些关键像素点，此外使用上述提到的两张特征图来定位人脸中最具有判别性的区域，首先将C个输入通道映射到2C维度的特征隐空间中，然后使用其中的一半作为门控来约束特征点的权重大小，另一半作为特征，分别使用sigmoid和relu作为激活函数来约束他们的结果；最后，执行点对点的矩阵乘法，实现公式如下：其中outputy,x表示门控卷积的输出， sigmoid表达式为： Relu表达式为： ReLu(x)＝max(0,x),C表示映射维度， W表示模型参数；融合层自适应特征提取模块拥有两个分支的输入Fmixture表示复合特征的提取模块的输出， Fresidual表示残差特征提取模块的输出，分别来自于前面的复合特征提取和残差特征提取模块。权　利　要　求　书 2/2 页 3 CN 114898438 A 3

专利 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法

专利一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法