专利 基于渐进式融合的多视图跨模态匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210365186.5 (22)申请日 2022.04.08 (71)申请人中国石油大学（华东）地址 266580 山东省青岛市黄岛区长江西路66号 (72)发明人吴春雷　吴杰　王雷全　张立强　路静　 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (54)发明名称基于渐进式融合的多视图跨模态匹配方法 (57)摘要本发明公开了基于渐进式融合的多视图跨模态匹配方法。该任务被广泛应用于视觉与语言的交互。以往的方法大多从单一视角出发，探索图像与文本之间的跨模态关系。然而，图像 ‑文本对之间只有单一的跨模态特征，很难发现丰富的信息。本发明提出了一种基于渐进式融合的多视图方法来集成多视图模态间表示。与单视图方法相比，多视图策略提供了更多的互补和全局语义线索。特别地，构建了多视图跨模态表示网络，生成多个跨模态表示，提供了不同的视图来发现潜在的图像 ‑文本关系。此外，采用渐进式融合模块，逐步融合多模态特征，充分利用了不同视角之间的内在互补性。在Flickr30K和MSCOCO上的大量实验验证了我们方法的优越性。权利要求书2页说明书5页附图5页 CN 114863231 A 2022.08.05 CN 114863231 A 1.基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述方法包括以下步骤： S1.构建多视图跨模态表示生成模块，从不同的视图来挖掘潜在的模态间关系特征，通过考虑图像文本对间的多视图的信息交互，推理潜在的跨模态语义对齐。 S2.构建渐进式融合模块，以渐进的方式聚合多视图表示，可以有效地捕获不同视角下的内在关联和丰富的互补信息。 S3.结合S1中的模块和S2中的模块构建基于渐进式融合的多视图跨模态匹配方法的整体架构。 S4.基于渐进式融合的多视图跨模态匹配方法的训练。 2.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述 S1的具体过程为：首先，给定图像的区域特征为V∈Rd×m，文本的单词特征为E∈Rd×n。联合模态亲和矩阵可以定义为: f(V,E)＝VTWE (1) 其中W为投影矩阵。为了避免较高的计算成本和过度拟合的风险。矩阵W可以分解X和Y 两个低秩矩阵,联合模态亲和矩阵可以重新改写为: 其中k是分解矩阵X＝{x1,...,xk}， X∈Rd×k和Y＝{y1,...,yk}， Y∈Rd×k的维数，表示两个向量的元素乘法， 1∈Rk是一个全1的向量。为了得到多个视图的联合模态矩阵，引入了一个池化矩阵Pg，利用下式可以得到多视图特征： 3.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述 S2的具体过程为：虽然多种跨模态表示可以编码丰富的线索，但它们可能包含冗余或无意义的信息。如果将所有的模态间特征简单地用池化或连接进行聚合，可能会导致图像 ‑文本匹配的混乱。因此，本发明设计了一种具有渐进式融合策略的额外组件，通过渐进地融合前几步的多个跨模态表示，自适应地融合信息，抑制无用信息。并且，我们自适应学习基于向量的相似度，而不是用基于标量的余弦相似度来描述这些对齐。具体来说，我们首先将hi和hi+1映射到公共空间，然后进行如下的融合操作： Ri＝hiwi+tanh(hi+1)wi+1 (5) 其中Ri∈Rk,i∈[1,g]是融合后的结果， wi和wi+1是可训练的权重。然后，通过采用具有 sigmoid函数的MLP层生成与融合特征相对应的遗忘门Gf，该遗忘门能够控制遗忘信息的数量，如下式所示： Gf＝σ(Riwf+bf) (6) 这里， σ 为sigmoid函数， wf和bf都是MLP层的参数。最后，采用Gf更新原始hi和hi+1的输出，从而获得更新后的联合表示mi: mi＝σ(Ri)⊙tanh(hi)+Gf⊙hi+1+hi (7)权　利　要　求　书 1/2 页 2 CN 114863231 A 2其中⊙为阿达玛乘积， σ 为sigmoi d函数并且mi是整个渐进融合模块在第i步的输出。然后在下一步i+1中，提取前一步的联合表示mi与当前的特征表示hi+2融合，生成更新后的联合表示mi+1。最后，对最后一个输出M进行求和，得到相似度S，如下所示： S＝Sumpo oling(M,k) (8) 其中，函数SumPooling(M,k)表示在M上移动一个大小为k的一维窗口，其中每个窗口内的值相加取和对应于我们的输出。因此，利用多视图的模态间关系特征，充分挖掘不同视觉与文本对间的互补性，推理图像与句子之间的相关性，可以提升跨媒体匹配的性能。 4.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述 S3的具体过程为：所述的基于渐进式融合的多视图跨模态匹配方法包含一个多视图跨模态表示生成模块、一个渐进式融合模块和一个基于渐进式融合的多视图跨模态匹配网络。 5.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法，其特征在于，所述 S4的具体过程为：基于渐进式融合的多视图跨模态匹配方法的训练方法如下：在我们的训练实现中，所有的实验都是在1个Nvidia Tesla P100 GPU上使用PyTorch 进行优化的。对于每一幅图像，采用基于ResNet ‑101的Faster ‑RCNN模型提取置信度排名前 36位的区域特征，得到每个区域1024维的特征。对于每个文本，采用12层、 12个头、 768个隐藏单元的预训练BERT，得到768维的原始单词嵌入。此外，使用Adam优化器在MSCOCO数据集上训练20个轮回和在Flickr30k数据集上训练30个轮回。学习速度最初设定为5e ‑9，在两个数据集上分别每10或6个轮回下降10倍。边缘参数α 设置为0.2，最小批量尺寸为64，梯度裁剪阈值为2.0。权　利　要　求　书 2/2 页 3 CN 114863231 A 3

专利 基于渐进式融合的多视图跨模态匹配方法

专利基于渐进式融合的多视图跨模态匹配方法