安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210060418.6 (22)申请日 2022.01.19 (71)申请人 西北大学 地址 710069 陕西省西安市太白北路2 29号 (72)发明人 郭军 解煜晨 肖云 任鹏真 任哲 王淑文 董智强 许鹏飞 陈晓江 房鼎益 (74)专利代理 机构 西安恒泰知识产权代理事务 所 61216 专利代理师 李郑建 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于先验知识图的图像文本匹配模型的构 建方法 (57)摘要 本发明涉及基于先验知识图的图像文本匹 配模型的构建方法, 构建的模型包括先验知 识图 模块、 图像文本匹配模块和整合模块; 先验知识 图模块和图像文本匹配模块分别与整合模块相 连接。 采用构建外部先验知识图来指导图像文本 匹配, 极大增强模型对真实场景的理解能力, 利 用图卷积来构建先验知 识图之间的关系, 取代使 用交叉注意力机制成对的计算所有图像区域和 文本片段之间的局部注意力关系, 减少了计算量 和参数量, 提高了模型的训练速度和推理速度; 使用自注意力机制tran sformer来聚合图像区域 间的注意力关系; 使用预训练模型BERT 提取文本 特征向量, 再利用注意力机制来聚合文本向量中 词与词之间的注意力关系; 有效提高了图像文本 匹配的准确率。 权利要求书2页 说明书7页 附图3页 CN 114547235 A 2022.05.27 CN 114547235 A 1.一种基于先验知识图的图像文本匹配模型的构建方法, 其特征在于, 所构建的基于 先验知识图的图像文本匹配模型包括先验知识图模块、 图像文本匹配模块和整合模块; 其 中, 先验知识图模块和图像文本匹配模块分别与整合模块相连接, 具体的构建步骤如下: 步骤1, 先验知识图模块的构建: 利用统计学方法从文本语料库中提取有意义的单词, 利用glove技术对提取的单词进 行词嵌入操作, 将单词表示为词特征向量, 称其为先验知识; 根据单词在语料库中共同出现 的统计学概 率, 构建先验知识关系图; 利用图卷积来学习先验知识之间的相互依赖关系; 步骤2, 图像文本匹配模块的构建: 给定图像数据和文本数据后, 利用预训练的Faster ‑RCNN模型获取图像特征向量, 利用 预训练的BERT模型获取文本特征向量; 利用自注意力机制对图像特征向量进 行模态内上下 文信息聚合, 得到第一层图像特征; 利用自注意力机制对文本特征向量进行模态内上下文 信息聚合, 得到第一层文本特 征; 步骤3, 整合模块的构建: 利用图卷积所学习到的先验知识来指导第 一层图像特征和第 一层文本特征, 输出经过 先验知识图指导的第二层图像特 征和第二层文本特 征; 将第二层图像特征和第一层图像特征进行加权组合, 得到整合模块的第三层图像特 征; 将第二层文本特征和第一层文本特征进行加权组合, 得到整合模块的第三层文本特 征; 步骤4, 利用第一层图像文本特 征和第三层图像文本特 征构建损失函数; 步骤5, 训练和 测试获得基于先验知识图的图像文本匹配模型。 2.如权利要求1所述的构建方法, 其特征在于, 步骤1中, 所述先验知识图模块的构建还 包括: 所述从文本语料库中提取单词包括: 从文本语料库中删除稀有单词, 选取名词、 动词、 形容词三种词性的单词; 并根据语料库里单词的统计频率, 选取的名词、 动词、 形容词比例 严格限制为7: 2: 1, 利用glove技术对选取的单词进行词嵌入操作, 将单词表示为词特征向 量, 称其为先验知识。 所述构建先验知识关系图包括: 以条件概 率矩阵的形式建模关系图, 具体公式为: 式中, Wi表示单词i在语料库中出现的次数, Wij表示单词i和单词j在语料库中共同出现 在一个文本里的次数, 则Pij表示单词i和单词j共同出现的概 率; 所述图卷积包括: 将glove技术得到的词特征向量作 为节点, 将构建的先验知识关系图 作为相关矩阵, 输入到图卷积网络中进行训练, 最终得到先验知识图的特 征向量。 3.如权利要求1所述的构建方法, 其特征在于, 步骤2中, 所述图像文本匹配模块的构建 还包括: 所述图像数据和文本数据特征提取包括: 使用Faster ‑RCNN预训练模型提取每张输入 图像的36个显著区域, 通过全连接层将每个显著区域表征为图像特征向量; 使用BERT预训 练模型提取每条文本的特征向量, BERT输出的文本特征向量聚合了分词特征、 语义特征和权 利 要 求 书 1/2 页 2 CN 114547235 A 2位置特征; 所述自注意力机制包括: 利用transformer模型 聚合图像区域间的注意力关系, 具体的 图像区域级特征向量经过三个不同的全连接层得到transformer的三个输入Q、 K、 V, 经过 transformer聚合后最终得到第一层图像特征; 文本自注 意力机制的实施方式为: 利用三种 不同尺寸的一维卷积网络来探索句子的上下文信息, 可以捕获到句子中不同长度短语的信 息, 最终得到第一层的文本特 征。 4.如权利要求1所述的构建方法, 其特征在于, 步骤4中, 所述的利用第 一层图像文本特 征和第三层图像文本特 征构建损失函数的实现方法为: 使用三元组损失函数, 该三元组损失函数基本公式为: 其中, α是预定义的边缘参数, S是图像文本对的相似性函数, S(Ω, T)表示正向匹配的 图像文本对相似性分数, 和 分别表示从图像到文本和从文本到图像反向 匹配的相似性分数; 在实验中, 使用小批量反向匹配对, 三元组损 失函数被应用 在第一层图像文本特征对 和第三层图像文本特 征对; 在语义概念的重要性分数上加以相对熵, 用于进一步加强图像文本相似性度量, 最终 损失函数公式为: 其中λ1, λ2, λ3是平衡不同损失的权 重参数。权 利 要 求 书 2/2 页 3 CN 114547235 A 3
专利 基于先验知识图的图像文本匹配模型的构建方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:51
上传分享
举报
下载
原文档
(887.5 KB)
分享
友情链接
数据安全解决方案.pdf
GB-T 26358-2022 旅游度假区等级划分.pdf
ISO 17115 2020 Health informatics — Representation of categorial structures of terminology.pdf
GB-T 20486-2017 江河流域面雨量等级.pdf
GB-T 13234-2018 用能单位节能量计算方法.pdf
DB-T 39-2010 地震台网设计技术要求 重力观测网.pdf
tc260 大数据安全标准化白皮书 2018版.pdf
GB-T 34411-2017 基本医疗保险待遇稽核业务规范.pdf
DB31-T 1242-2020 数据中心节能设计规范 上海市.pdf
SY-T 7657.1-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第1部分:总则.pdf
ISO IEC 27001-2022.pdf
GB/T 19237-2021 汽车用压缩天然气加气机.pdf
GB-T 7044-2022 色素炭黑.pdf
GB-Z 42285-2022 道路车辆 电子电气系统ASIL等级确定方法指南.pdf
T-CSAE 284.1—2022 自动驾驶乘用车 线控底盘性能要求及试验方法 第1部分:驱动系统.pdf
GB-T 29314-2023 电动机系统节能改造规范.pdf
信通院 数据中心智能化运维发展研究报告 2023年.pdf
JY-T 0584-2020 扫描电子显微镜分析方法通则.pdf
GB-T 36250-2018 基于模型的航空装备研制 企业数字化能力等级评价.pdf
GB-T 1499.3-2022 钢筋混凝土用钢 第3部分:钢筋焊接网.pdf
交流群
-->
1
/
13
评价文档
赞助2元 点击下载(887.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。