(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210065519.2
(22)申请日 2022.01.20
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 郭军军 霍茜曈 余正涛 高盛祥
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于图文多模态门控增强的文本平行句对
抽取方法
(57)摘要
本发明涉及基于图文多模态门控增强的文
本平行句对抽取方法, 属于自然语 言处理技术领
域。 本发明包括: 首先从预构建好的图像数据库
中基于词级或实体粒度对齐抽取源语言和目标
语言的相关的图像模态信息; 然后基于图文多模
态门控的方式分别实现源语言和目标语言图文
信息的融合, 获得图像增强后的文本语义表征;
最后将双语表征信息进行融合实现平行句对抽
取。 所提方法在英语 ‑越南语、 英语 ‑德语双语平
行句对抽取任务上进行了实验, 证明了融合图像
信息对文本平行句对抽取的有效性。
权利要求书2页 说明书7页 附图1页
CN 115017884 A
2022.09.06
CN 115017884 A
1.基于图文多模态门控增强的文本平行句对抽取方法, 其特征在于: 所述方法的具体
步骤如下:
Step1、 建立多语言图像检索标签库, 将不同语种文本进行分词后进行检索语义相关图
像, 得到图像编号;
Step2、 使用文本预训练模型得到不同语种文本的文字表征, 然后使用ResNet50提取
Step1中得到的语义相关图像表征, 接着用多模态门控将对应的文本和图像进 行融合, 得到
两种语言的多模态 表征;
Step3、 将Step2得到的不同语种多模态表征进行拼接, 然后将拼接后的表征送入前馈
神经网络层并且经过sigmoid函数进行映射, 从而将平行句 对抽取任务转化为分类任务后
得到平行句对预测结果。
2.根据权利要求1所述的基于图文多模态门控增强的文本平行句对抽取方法, 其特征
在于: 所述Step1的具体步骤如下:
Step1.1、 使用已有图像数据集的文字描述标注句子中的名词和动词作为该图像匹配
关键词, 建立标签检索库
表示一对训练语料句对, 其中i代表第i个平行句对, α, β,
分别代表不同语种, 定义V={{I0,I1,I2...Ij},j=0,1,2...N}代表图像数据集, 其中每张
图像Ij都有对应的不同语种图像描述句对
遍历数据集V, 对每张图像不同语种图像
描述句对使用词性标注POS工具提取名词和动词作为该图像的标签, 记作
其中
n表示该图像标签 个数, 对应的
Step1.2、 进行语义相关图像检索: 假设输入某一语种句子
使用分词工具将该句子
进行分词, 得到
其中m为句子中词的个数, 遍历图像数据集, 可得, 第j个
图像对应α语言标签为
其中
将
和
进行最大公共子集算法LCS
计算, 得到最大子集元素个数s, 则对应的图像Ij作为检索得到的
语义相关图像, 记作
利用相同的方式得到β 语言句子
语义相关图像
3.根据权利要求1所述的基于图文多模态门控增强的文本平行句对抽取方法, 其特征
在于: 所述Step2的具体步骤如下:
Step2.1、 用预训练模型提取文本表征: 根据公式(1)(2)得到
其中, 对于α 语言,
为预训练提取文本表征中代表句子级语义特征的[CLS]向量, 最终
用该向量表示第i句对α 语言句子的表征,记作
相应的对于β 语言,
为预训练提取文本表征中代表句子级语义特征的[CLS]向量,最
终用该向量表示第i句对β 语言句子的表征, 记作
最终得到文字表征
表
示一对训练语料句对, 其中i代表第i个平行句对,
分别代表不同语种句子; z为句子
的特征个数;权 利 要 求 书 1/2 页
2
CN 115017884 A
2Step2.2、 使用ResNet50提取语义相关图像表征, 其中对应第i句对α语言的图像
可
得图像表征
对应第i句对β 语言的图像
可得到图像表征
由此得到文字表征
和图像表征
Step2.3、 将Step2.2得到的文本表征
和图像表征
根据公式(5)进行计
算, 得到门控参数λα, 公式(5)假设当前语种为α, 相对应的对于语言β, 公式(6)能得到门控
参数 λβ, 其中, W为线性层参数;
接着, 根据公式(7)、 (8)将公式(5)、 (6)得到的参数和对应图像表征
点乘, 得到
图文门控去噪后的图像表征
最后, 将得到的图像表征
与文字表征
融合, 得到两种语言的多模态表
征, 采用加性融合策略, 融合过程如下式(9)、 (10);
4.根据权利要求3所述的基于图文多模态门控增强的文本平行句对抽取方法, 其特征
在于: 所述Step3的具体步骤如下:
Step3.1、 将Step2得到多模态表征向量
给出公式(11)拼接 向量, 得到 向量Ui,
接着给出公式(12)进行线性变化得到特征向量, 最后给出公式(13)将特征输入Sigmoid函
数得到最终分数进行损失计算;
A=ReLU(WUi+b) (12)
p(y=1|A)=Sigmo id(A+b) (13)。权 利 要 求 书 2/2 页
3
CN 115017884 A
3
专利 基于图文多模态门控增强的文本平行句对抽取方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:49上传分享