安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210476076.6 (22)申请日 2022.04.29 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 单斌 尹维冲 孙宇 (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 16/908(2019.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06F 40/30(2020.01) (54)发明名称 多模态表 示模型的训练方法、 跨模态检索方 法及装置 (57)摘要 本公开提供了一种多模态表示模型的训练 方法、 跨模态检索方法及装置, 涉及人工智 能技 术领域, 尤其涉及深度学习、 智能搜索技术领域。 实现方案为: 获取样本元组, 样本元组包括第一 数据模态的第一样本、 第二样 本和第二数据模态 的第三样 本第四样本; 将四个样 本分别输入相应 的表示模块, 得到第一表示、 第二表示、 第三表示 和第四表示; 基于第一表示和第二表示, 确定第 一单模态损失; 基于第三表示和第四表示, 确定 第二单模态损失; 基于第一目标表 示和第二目标 表示, 确定第一跨模态损失和第二跨模态损失; 基于第一单模态损失、 第二单模态损失、 第一跨 模态损失和第二跨模态损失, 确定多模态表示模 型的整体损失; 基于整体损失, 调整多模态表示 模型的参数。 权利要求书5页 说明书16页 附图7页 CN 114840734 A 2022.08.02 CN 114840734 A 1.一种多模态表示模型的训练方法, 其中, 所述多模态表示模型包括对应于第一数据 模态的第一表示模块和对应于第二数据模态的第二表示模块, 所述方法包括: 获取样本元组, 所述样本元组包括所述第一数据模态的第一样本和第二样本, 以及所 述第二数据模态的第三样本和第四样本, 其中, 所述样本元组所包括的各个样本的语义相 匹配; 将所述第一样本和所述第 二样本分别输入所述第 一表示模块, 以得到所述第 一样本的 第一表示和所述第二样本的第二表示; 将所述第三样本和所述第四样本分别输入所述第 二表示模块, 以得到所述第 三样本的 第三表示和所述第四样本的第四表示; 基于所述第一表示和所述第二表示, 确定所述第一数据模态的第一单模态损失; 基于所述第三表示和所述第四表示, 确定所述第二数据模态的第二单模态损失; 基于第一目标表示和第 二目标表示, 确定由所述第 一数据模态到所述第 二数据模态的 第一跨模态损失和由所述第二数据模态到所述第一数据模态的第二跨模态损失, 其中, 所 述第一目标表示为所述第一表示和所述第二表示中的任一者, 所述第二目标表示为所述第 三表示和所述第四表示中的任一 者; 基于所述第一单模态损 失、 所述第二单模态损 失、 所述第一跨模态损 失和所述第二跨 模态损失, 确定所述多模态 表示模型的整体损失; 以及 基于所述整体损失, 调整所述多模态 表示模型的参数。 2.根据权利要求1所述的方法, 还 包括: 获取原始数据对, 所述原始数据对包括所述第 一数据模态的第 一原始数据和所述第 二 数据模态的第二原 始数据, 所述第一原 始数据和所述第二原 始数据的语义相匹配; 基于所述第一原 始数据, 生成所述第一样本和所述第二样本; 以及 基于所述第二原 始数据, 生成所述第三样本和所述第四样本 。 3.根据权利要求2所述的方法, 其中, 基于所述第一原始数据, 生成所述第一样本和所 述第二样本包括: 对所述第一原 始数据进行第一数据增强处 理, 以生成所述第一样本; 以及 对所述第 一原始数据进行第 二数据增强处理, 以生成所述第 二样本, 其中, 所述第一样 本与所述第二样本不同。 4.根据权利要求2所述的方法, 其中, 所述第 一样本和所述第 二样本与 所述第一原始数 据相同, 所述第一表示模块被配置为添加随机噪声, 以使所述第一表示与所述第二表示不 同。 5.根据权利要求4所述的方法, 其中, 所述第一数据模态为文本模态, 所述第一表示模 块为包括dropout处 理层的文本编码器, 所述dropout处 理层的丢弃概 率小于预设阈值。 6.根据权利要求1 ‑5中任一项所述的方法, 其中, 基于所述第一表示和所述第二表示, 确定所述第一数据模态的第一单模态损失包括: 基于所述第 一表示与 所述第二表示的第 一相似度, 以及所述第 一表示与其他样本元组 的第二表示的第二相似度, 确定所述第一单模态损失, 其中, 所述第一单模态损失与所述第 一相似度负相关并且与所述第二相似度正相关。 7.根据权利要求1 ‑6中任一项所述的方法, 其中, 基于第一目标表示和第二目标表示,权 利 要 求 书 1/5 页 2 CN 114840734 A 2确定由所述第一数据模态到所述第二数据模态的第一 跨模态损失包括: 基于所述第 一目标表示和所述第 二目标表示的第 三相似度, 以及所述第 一目标表示与 其他样本元组的第二目标表示的第四相似度, 确定所述第一跨模态损失, 其中, 所述第一跨 模态损失与所述第三相似度负相关并且与所述第四相似度正相关。 8.根据权利要求1 ‑7中任一项所述的方法, 其中, 基于第一目标表示和第二目标表示, 确定由所述第二数据模态到所述第一数据模态的第二 跨模态损失包括: 基于所述第 一目标表示和所述第 二目标表示的第 三相似度, 以及所述第 二目标表示与 其他样本元组的第一目标表示的第五相似度, 确定所述第二跨模态损失, 其中, 所述第二跨 模态损失与所述第三相似度负相关并且与所述第五相似度正相关。 9.根据权利要求1 ‑8中任一项所述的方法, 其中, 所述整体损失为所述第一单模态损 失、 所述第二单模态损失、 所述第一 跨模态损失和所述第二 跨模态损失的加权和。 10.根据权利要求1 ‑9中任一项所述的方法, 还 包括: 基于预设应用场景 下的匹配数据对, 对所述多模态 表示模型进行微调。 11.根据权利要求10所述的方法, 其中, 所述匹配数据对包括目标数据模态的第 一数据 和第二数据, 所述第一数据和所述第二数据的语义相匹配, 并且其中, 基于预设应用场景下 的匹配数据对, 对所述多模态 表示模型进行微调包括: 基于所述匹配数据对, 对所述目标 数据模态对应的表示模块进行微调。 12.根据权利要求10所述的方法, 其中, 所述匹配数据对包括第 一数据模态的第 一数据 和第二数据模态的第二数据, 所述第一数据和所述第二数据的语义相匹配, 并且其中, 基于 预设应用场景 下的匹配数据对, 对所述多模态 表示模型进行微调包括: 基于所述第一数据, 生成所述第一数据模态的第一数据样本和第二数据样本; 基于所述第二数据, 生成所述第二数据模态的第三数据样本和第四数据样本; 基于所述第一数据样本、 所述第二数据样本、 所述第三数据样本、 所述第 四数据样本, 构造数据样本元组; 以及 基于所述数据样本元组, 对所述多模态 表示模型进行微调。 13.根据权利要求1 ‑12中任一项所述的方法, 其中, 所述第 一数据模态和所述第 二数据 模态为以下任意两者: 文本模态、 图像模态、 视频模态、 音频模态。 14.一种跨模态检索方法, 包括: 获取第一数据模态的检索对象; 将所述检索对象输入多模态 表示模型, 以得到所述检索对象对应的第一表示; 获取第二数据模态 的多个候选对象各自的第二表示, 其中, 所述第二表示是通过将相 应的候选对象输入所述多模态 表示模型而得到的; 以及 基于所述第 一表示与每个第 二表示的相似度, 从所述多个候选对象中确定与 所述检索 对象相匹配的目标对象, 其中, 所述多模态 表示模型 是根据权利要求1 ‑13中任一项所述的方法训练得到的。 15.一种多模态表示模型的训练装置, 其中, 所述多模态表示模型包括对应于第一数据 模态的第一表示单 元和对应于第二数据模态的第二表示单 元, 所述装置包括: 第一获取单元, 被配置为获取样本元组, 所述样本元组包括所述第一数据模态的第一 样本和第二样本, 以及所述第二数据模态的第三样本和 第四样本, 其中, 所述样本元组所包权 利 要 求 书 2/5 页 3 CN 114840734 A 3
专利 多模态表示模型的训练方法、跨模态检索方法及装置
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:06
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-T 43004-2023 发制品 柔顺性试验方法.pdf
民航 CTSO-C145e 使用星基增强系统 SBAS 增强全球定位系统的机载导航传感器.pdf
GB-T 42509-2023 质量管理 顾客体验管理指南.pdf
SAE_1999-01-1061_Hyundai_Modeling of Proportional Control Solenoid Valve for Automatic Transmission Using System Identification Theory.pdf
WS 539-2017 远程医疗信息基本数据集.pdf
DB52-T 1636.6-2021 机关事务云 第6部分:公共机构节能管理数据 贵州省.pdf
绿盟 安全隔离与信息交换系统 SIES 产品白皮书.pdf
GB-T 22264.7-2022 安装式数字显示电测量仪表 第7部分:多功能仪表的特殊要求.pdf
GB-T 41817-2022 信息安全技术 个人信息安全工程指南.pdf
GB-T 42381.140-2023 数据质量 第140部分:主数据:特征数据交换:完整性.pdf
SL-T 423-2021 河道采砂规划编制与实施监督管理技术规范.pdf
《零售企业数据安全合规指南》2.10.pdf
GB-T 20985.2-2020 信息技术 安全技术 信息安全事件管理 第2部分:事件响应规划和准备指南.pdf
GB-T 35753-2017 空调器室外机安装用支架.pdf
GB-T 37138-2018 电力信息系统安全等级保护实施指南.pdf
GB-T 14206-2015 玻璃纤维增强聚酯连续板.pdf
GB-T 39399-2020 北斗卫星导航系统测量型接收机通用规范.pdf
GM-T 0113-2021 在线快捷身份鉴别协议.pdf
GB-T 40665.3-2021 中医四诊操作规范 第3部分:问诊.pdf
T-ZKJXX 00003—2021 基于三维空间信息技术的工程数字化交付技术规范.pdf
1
/
3
29
评价文档
赞助2.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。