安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210416064.4 (22)申请日 2022.04.20 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 章良杰 岳洪达 许海洋 冯博豪 (74)专利代理 机构 北京钲霖知识产权代理有限 公司 11722 专利代理师 李英艳 杨继成 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/44(2022.01) G06K 9/62(2022.01) G06V 30/18(2022.01) (54)发明名称 多模态特征的融合方法、 装置、 设备、 介质和 产品 (57)摘要 本公开提供了一种多模态特征的融合方法、 装置、 设备、 介质和产品, 涉及人工智能技术领 域, 尤其涉及自然语言处理、 光学字符识别等技 术领域, 可应用于智慧金融等场景。 具体实现方 案为: 获取包括有文本的图像; 对图像进行特征 识别, 得到文本的文本特征 以及位置特征; 将图 像按照预设规则划分为多个区域, 并提取多个区 域中至少一个区域的图像特征; 对文本特征进行 编码, 得到文本向量; 以及, 对至少一个区域的 图 像特征进行编码, 得到至少一个区域的图像向 量; 以及, 对位置特征进行编码, 得到位置向量; 将文本向量、 至少一个区域的图像向量和位置向 量进行融合, 得到融合后的目标向量。 本公开能 够提高多 模态特征的融合 程度。 权利要求书3页 说明书12页 附图8页 CN 114821255 A 2022.07.29 CN 114821255 A 1.一种多模态特 征的融合方法, 包括: 获取包括有 文本的图像; 对所述图像进行 特征识别, 得到所述文本的文本特 征以及位置特 征; 将所述图像按照预设规则划分为多个区域, 并提取所述多个区域中至少一个区域的图 像特征; 对所述文本特征进行编码, 得到文本向量; 以及, 对所述至少一个区域的图像特征进行 编码, 得到所述至少一个区域的图像向量; 以及, 对所述 位置特征进行编码, 得到位置向量; 将所述文本向量、 所述至少一个区域的图像向量和所述位置向量进行融合, 得到融合 后的目标向量。 2.根据权利要求1所述的方法, 其中, 所述对所述文本特征进行编码, 得到文本向量, 包 括: 对文本进行分词, 并将分词结果进行序列化, 得到多个序列; 根据多个序列中各序列间的相对位置信息, 确定各序列的一维位置编码; 基于表征所述序列语义信息的词嵌入, 所述序列的一维位置编码, 以及区别于其他序 列的段嵌入, 确定所述序列的序列向量; 基于所述文本中的各序列对应的序列向量, 生成文本向量。 3.根据权利要求1所述的方法, 其中, 所述对所述至少一个区域的图像特征进行编码, 得到至少一个区域的图像向量, 包括: 对所述至少一个区域的图像特征进行池化处理, 得到所述至少一个区域的初始图像向 量; 对所述至少一个区域的初始图像向量分别进行线性变换; 根据至少一个区域的位置关系, 确定所述至少一个区域对应初始图像向量的一维位置 编码; 基于至少一个区域线性变换后的初始图像向量、 一维位置编码和区别 于其他初始图像 向量的段嵌入, 确定 至少一个区域的图像向量。 4.根据权利要求1所述的方法, 其中, 所述位置特征为二维位置特征, 所述位置向量为 二维位置向量; 所述对所述 位置特征进行编码, 得到位置向量, 包括: 对所述二维位置特征表征的文本框的第 一坐标和第 二坐标, 以及所述文本框的高度和 所述文本框的宽度进 行编码, 所述第一坐标和所述第二坐标分别为所述文本框对角线位置 处的坐标; 将编码后所述第 一坐标中的x坐标和所述第二坐标中的x坐标, 与编码后所述文本框的 宽度进行拼接, 得到x轴方向的位置向量; 将编码后所述第 一坐标中的y坐标和所述第二坐标中的y坐标, 与编码后所述文本框的 高度进行拼接, 得到y轴方向的位置向量; 将所述x轴方向的位置向量和所述y轴方向的位置向量, 作为所述文本框的二维位置向 量。 5.根据权利要求1 ‑4中任意一项所述的方法, 其中, 所述将所述文本向量、 所述至少一 个区域的图像向量和所述 位置向量进行融合, 得到融合后的目标向量, 包括:权 利 要 求 书 1/3 页 2 CN 114821255 A 2将所述文本向量和所述至少一个区域的图像向量进行拼接; 在拼接后的向量上叠加所述 位置向量, 得到 输入向量; 将所述输入向量输入Ber t模型进行融合, 得到融合后的目标向量。 6.根据权利要求5所述的方法, 其中, 所述Ber t模型中包括多个编码器; 所述将所述输入向量输入Ber t模型进行融合, 得到融合后的目标向量, 包括: 将所述输入向量输入第一个编码器; 在所述第一个编码器中基于所述输入向量中各文本向量以及图像向量之间的相似度, 确定相似度注意力分数; 基于所述相似度注意力分数, 和所述各文本向量对应的位置向量以及所述图像向量对 应的位置向量, 确定空间注意力分数; 基于所述空间注意力分数, 得到所述第一个编码器的输出; 将所述第一个编码器的输出作为第二个编码器的输入, 直到通过所有编码器后, 得到 融合后的目标向量。 7.根据权利要求1 ‑6中任意一项所述的方法, 还 包括: 在所述目标向量中提取实体及实体关系。 8.一种多模态特 征的融合装置, 包括: 获取单元, 用于获取包括有 文本的图像; 识别单元, 用于对所述图像进行 特征识别, 得到所述文本的文本特 征以及位置特 征; 划分并提取单元, 用于将所述图像按照预设规则划分为多个区域, 并提取所述多个区 域中至少一个区域的图像特 征; 确定向量单元, 用于对所述文本特征进行编码, 得到文本向量; 以及, 对所述至少一个 区域的图像特征进 行编码, 得到所述至少一个区域的图像向量; 以及, 对所述位置特征进 行 编码, 得到位置向量; 融合单元, 用于将所述文本向量、 所述至少一个区域的图像向量和所述位置向量进行 融合, 得到融合后的目标向量。 9.根据权利要求8所述的装置, 其中, 所述确定向量单 元用于: 对文本进行分词, 并将分词结果进行序列化, 得到多个序列; 根据多个序列中各序列间的相对位置信息, 确定各序列的一维位置编码; 基于表征所述序列语义信息的词嵌入, 所述序列的一维位置编码, 以及区别于其他序 列的段嵌入, 确定所述序列的序列向量; 基于所述文本中的各序列对应的序列向量, 生成文本向量。 10.根据权利要求8所述的装置, 其中, 所述确定向量单 元还用于: 对所述至少一个区域的图像特征进行池化处理, 得到所述至少一个区域的初始图像向 量; 对所述至少一个区域的初始图像向量分别进行线性变换; 根据至少一个区域的位置关系, 确定所述至少一个区域对应初始图像向量的一维位置 编码; 基于至少一个区域线性变换后的初始图像向量、 一维位置编码和区别 于其他初始图像 向量的段嵌入, 确定 至少一个区域的图像向量。权 利 要 求 书 2/3 页 3 CN 114821255 A 3
专利 多模态特征的融合方法、装置、设备、介质和产品
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:06:48
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
DB13-T 2802-2018 水利工程铸铁闸门技术规范 河北省.pdf
GB-T 5975-2006 钢丝绳用压板.pdf
GB-T 32151.12-2018 温室气体排放核算与报告要求 第12部分 纺织服装企业.pdf
GB-T 18771.3-2015 烟草术语 第3部分:烟用材料.pdf
GB-T 18348-2022 商品条码 条码符号印制质量的检验.pdf
GB-T 35280-2017 信息安全技术 信息技术产品安全检测机构条件和行为准则.pdf
GB-T 20933-2021 热轧钢板桩.pdf
GB-T 31989-2015 高压电力用户用电安全.pdf
DB35-T 88-2022 伐区调查设计技术规程 福建省.pdf
GB-T 35273-2019 信息安全技术 个人信息安全规范.pdf
GB-T 36572-2018电力监控系统网络安全防护导则.pdf
GB-T 33102-2016 纯甲烷和高纯甲烷.pdf
T-CEC 619—2022 输电线路导线压接X射线数字成像无损检测作业导则.pdf
GB-T 13606-2007 土工试验仪器 岩土工程仪器 振弦式传感器通用技术条件.pdf
T-CEC 611—2022 变电站设备声成像测试技术导则.pdf
GB/T 29245-2012 信息安全技术 政府部门信息安全管理基本要求.pdf
GM-T 0066-2019 商用密码产品生产和保障能力建设实施指南.pdf
GB-T 27648-2011 重要湿地监测指标体系.pdf
奇安信 2018勒索病毒白皮书政企篇.pdf
GB-T 42606-2023 固定式压力容器修理导则.pdf
1
/
24
评价文档
赞助2元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。