(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210365186.5
(22)申请日 2022.04.08
(71)申请人 中国石油大 学 (华东)
地址 266580 山东省青岛市黄岛区长江西
路66号
(72)发明人 吴春雷 吴杰 王雷全 张立强
路静
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/04(2006.01)
(54)发明名称
基于渐进式融合的多视图跨模态匹配方法
(57)摘要
本发明公开了基于渐进式融合的多视图跨
模态匹配方法。 该任务被广泛应用于视觉与语言
的交互。 以往的方法大多从单一视角出发, 探索
图像与文本之间的跨模态关系。 然而, 图像 ‑文本
对之间只有单一的跨模态特征, 很难发现丰富的
信息。 本发 明提出了一种基于渐进式融合的多视
图方法来集成多视图模态间表 示。 与单视图方法
相比, 多视图策略提供了更多的互补和全局语义
线索。 特别地, 构建了多视图跨模态表示网络, 生
成多个跨模态表示, 提供了不同的视图来发现潜
在的图像 ‑文本关系。 此外, 采用渐进式融合模
块, 逐步融合多模态特征, 充分利用了不同视角
之间的内在互补性。 在Flickr30K和MSCOCO上的
大量实验 验证了我们方法的优 越性。
权利要求书2页 说明书5页 附图5页
CN 114863231 A
2022.08.05
CN 114863231 A
1.基于渐进式 融合的多视图跨模态匹配方法, 其特 征在于, 所述方法包括以下步骤:
S1.构建多视图跨模态表示生成模块, 从不同的视图来挖掘潜在的模态间关系特征, 通
过考虑图像文本对间的多视图的信息交 互, 推理潜在的跨模态语义对齐。
S2.构建渐进式融合模块, 以渐进的方式聚合多视图表示, 可以有效地捕获不同视角下
的内在关联和丰富的互补信息 。
S3.结合S1中的模块和S2中的模块构建基于渐进式融合的多视图跨模态匹配方法的整
体架构。
S4.基于渐进式 融合的多视图跨模态匹配方法的训练。
2.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法, 其特征在于, 所述
S1的具体过程 为:
首先, 给定图像的区域特征为V∈Rd×m, 文本的单词特征为E∈Rd×n。 联合模态亲和矩阵可
以定义为:
f(V,E)=VTWE (1)
其中W为投影矩阵。 为了避免较高的计算成本和过度拟合的风险。 矩阵W可以分解X和Y
两个低秩矩阵,联合模态亲和矩阵可以重新改写为:
其中k是分解矩阵X={x1,...,xk}, X∈Rd×k和Y={y1,...,yk}, Y∈Rd×k的维数,
表示两
个向量的元 素乘法, 1∈Rk是一个全1的向量。
为了得到多个视图的联合模态矩阵, 引入了一个池化矩阵Pg, 利用下式可以得到多视图
特征:
3.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法, 其特征在于, 所述
S2的具体过程 为:
虽然多种跨模态表示可以编码丰富的线索, 但它们可能包含冗余或无意义的信息。 如
果将所有的模态间特征简单地用池化或连接进行聚合, 可能会导致图像 ‑文本匹配的混乱。
因此, 本发明设计了一种 具有渐进式融合策略的额外组件, 通过渐进地融合前几步的多个
跨模态表示, 自适应地融合信息, 抑制无用信息。 并且, 我们自适应学习基于向量的相似度,
而不是用基于标量的余弦相似度来描述 这些对齐。
具体来说, 我们首 先将hi和hi+1映射到公共空间, 然后进行如下的融合操作:
Ri=hiwi+tanh(hi+1)wi+1 (5)
其中Ri∈Rk,i∈[1,g]是融合后的结果, wi和wi+1是可训练的权重。 然后, 通过采用具有
sigmoid函数的MLP层 生成与融合特征相对应的遗忘门Gf, 该遗忘门能够控制遗忘信息的数
量, 如下式所示:
Gf=σ(Riwf+bf) (6)
这里, σ 为sigmoid函数, wf和bf都是MLP层的参数。 最后, 采用Gf更新原始hi和hi+1的输出,
从而获得 更新后的联合表示mi:
mi=σ(Ri)⊙tanh(hi)+Gf⊙hi+1+hi (7)权 利 要 求 书 1/2 页
2
CN 114863231 A
2其中⊙为阿达玛乘积, σ 为sigmoi d函数并且mi是整个渐进 融合模块在第i步的输出。 然
后在下一步i+1中, 提取前一步的联合表示mi与当前的特征表示hi+2融合, 生成更新后的联
合表示mi+1。 最后, 对最后一个输出M进行求和, 得到相似度S, 如下 所示:
S=Sumpo oling(M,k) (8)
其中, 函数SumPooling(M,k)表示在M上移动一个大小为k的一维窗口, 其中每个窗口内
的值相加取和对应于我们的输出。
因此, 利用多视图的模态间关系特征, 充分挖掘不同视觉与文本对间的互补性, 推理图
像与句子之间的相关性, 可以提升跨 媒体匹配的性能。
4.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法, 其特征在于, 所述
S3的具体过程 为:
所述的基于渐进式融合的多视图跨模态匹配方法包含一个多视图跨模态表示生成模
块、 一个渐进式融合模块和一个 基于渐进式 融合的多视图跨模态匹配网络 。
5.根据权利要求1所述的基于渐进式融合的多视图跨模态匹配方法, 其特征在于, 所述
S4的具体过程 为:
基于渐进式 融合的多视图跨模态匹配方法的训练方法如下:
在我们的训练实现中, 所有的实验都是在1个Nvidia Tesla P100 GPU上使用PyTorch
进行优化的。 对于每一幅图像, 采用基于ResNet ‑101的Faster ‑RCNN模型提取置信度排名前
36位的区域特征, 得到每个 区域1024维的特征。 对于每个文本, 采用12层、 12个头、 768个隐
藏单元的预训练BERT, 得到768维的原始单词嵌入。 此外, 使用Adam优化器在MSCOCO数据集
上训练20个轮回和在Flickr30k数据集上训练30个轮回。 学习速度最初设定为5e ‑9, 在两个
数据集上分别每10或6个轮回下降10倍。 边缘参数α 设置为0.2, 最小批量尺寸为64, 梯度裁
剪阈值为2.0。权 利 要 求 书 2/2 页
3
CN 114863231 A
3
专利 基于渐进式融合的多视图跨模态匹配方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:38:03上传分享