(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210271572.8
(22)申请日 2022.03.18
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 徐鲁辉 熊鹏飞 陈宇
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 贾允
(51)Int.Cl.
G06F 40/258(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
标题生成方法、 模型训练方法及装置
(57)摘要
本申请公开了一种标题 生成方法、 模 型训练
方法及装置, 属于计算机技术领域。 所述方法包
括: 获取目标多媒体对象; 确定媒体信息对应的
目标特征信息, 以及文本信息对应的文本特征信
息; 基于跨模态信息处理模型, 对目标特征信息
与文本特征信息进行跨模态语义 分析处理, 输出
目标多媒体对象对应的标题文本。 本申请实施例
提供的技术方案中, 通过确定目标多媒体对象中
目标模态的媒体信息对应的目标特征信息, 以及
目标多媒体对象中的文本信息对应的文本特征
信息, 并由跨模态信息处理模型对 上述目标模态
和文本模态对应的特征信息进行跨模态语义分
析处理后, 自动输出目标多媒体对象的标题文
本, 提升了标题生成效率与标题准确度。
权利要求书4页 说明书28页 附图15页
CN 114611498 A
2022.06.10
CN 114611498 A
1.一种标题生成方法, 其特 征在于, 所述方法包括:
获取目标多媒体对象, 所述目标多媒体对象包括目标模态对应的媒体信 息和文本模态
对应的文本信息, 所述目标模态是指与所述文本模态不同的至少一种信息模态;
确定所述 媒体信息对应的目标 特征信息, 以及所述文本信息对应的文本特 征信息;
基于跨模态信 息处理模型, 对所述目标特征信 息与所述文本特征信 息进行跨模态语义
分析处理, 输出所述目标多媒体对象对应的标题文本;
其中, 所述跨模态信 息处理模型是以多媒体样本对象在所述目标模态与所述文本模态
对应的特 征信息为样本数据进行训练得到的机器学习模型。
2.根据权利要求1所述的方法, 其特征在于, 所述文本信息包括至少一个文本语料单
元, 所述文本特征信息包括所述至少一个文本语料单元对应的文本特征序列, 所述媒体信
息包括所述目标多媒体对象对应的至少一个图像, 所述目标特征信息包括所述至少一个图
像对应的视 觉特征序列;
所述基于所述跨模态信 息处理模型, 对所述目标特征信 息与所述文本特征信 息进行跨
模态语义分析处 理, 输出所述目标多媒体对象对应的标题文本, 包括:
基于所述跨模态信 息处理模型, 对所述视觉特征序列与 所述文本特征序列进行跨模态
语义分析处 理, 输出所述标题文本 。
3.根据权利要求1所述的方法, 其特征在于, 所述文本信 息包括所述目标多媒体对象对
应的原始标题信息, 所述文本特征信息包括所述原始标题信息对应的原始标题特征序列,
所述媒体信息包括所述目标多媒体对象对应的至少一个图像, 所述目标特征信息包括所述
至少一个图像对应的视 觉特征序列;
所述基于所述跨模态信 息处理模型, 对所述目标特征信 息与所述文本特征信 息进行跨
模态语义分析处 理, 输出所述目标多媒体对象对应的标题文本, 包括:
基于所述跨模态信 息处理模型, 对所述视觉特征序列与 所述原始标题特征序列进行跨
模态语义分析处 理, 输出所述标题文本 。
4.根据权利要求3所述的方法, 其特征在于, 所述目标多媒体对象包括目标视频, 所述
文本信息还包括所述目标视频对应的视频文本信息, 所述文本特征信息还包括所述视频文
本信息对应的视频文本特 征序列;
所述基于所述跨模态信 息处理模型, 对所述目标特征信 息与所述文本特征信 息进行跨
模态语义分析处 理, 输出所述目标多媒体对象对应的标题文本, 包括:
基于所述跨模态信息处理模型, 对所述视觉特征序列、 所述视频文本特征序列与所述
原始标题特 征序列进行跨模态语义分析处 理, 输出所述目标视频对应的视频 标题文本 。
5.根据权利要求1至4任一项所述的方法, 其特征在于, 所述基于所述跨模态信息处理
模型, 对所述 目标特征信息与所述文本特征信息进行跨模态语义分析处理, 输出所述 目标
多媒体对象对应的标题文本, 包括:
将所述目标特征信 息与所述文本特征信 息输入所述跨模态信 息处理模型, 所述目标特
征信息包括至少一个第一特征语料单元, 所述文本特征信息包括至少一个第二特征语料单
元;
确定所述跨模态信 息处理模型对应的第 一自注意力掩膜信 息, 所述第 一自注意力掩膜
信息用于表征 所述跨模态信息处 理模型对应的语境信息 选取方向为复合方向;权 利 要 求 书 1/4 页
2
CN 114611498 A
2基于所述第 一自注意力掩膜信 息, 将所述至少一个第 一特征语料单元以及所述至少一
个第二特征语料单元, 确定为所述至少一个第一特征语料单元或所述至少一个第二特征语
料单元对应的语境语料 单元;
基于所述跨模态信息处理模型, 对所述语境语料单元进行跨模态语义分析处理, 输出
所述标题文本 。
6.根据权利要求5所述的方法, 其特征在于, 所述基于所述跨模态信息处理模型, 对所
述语境语料 单元进行跨模态语义分析处 理, 输出所述标题文本, 包括:
基于所述跨模态信息处理模型, 对所述语境语料单元进行跨模态语义分析处理, 得到
所述至少一个第一特征语料单元对应的第一语义特征数据, 以及所述至少一个第二特征语
料单元对应的第二语义特 征数据;
基于所述第一语义特征数据与所述第二语义特征数据, 确定所述标题文本中第1个文
本单元对应的语义特 征数据;
根据所述第一自注意力掩膜信息, 将所述第一语义特征数据、 所述第二语义特征数据
以及第i个文本单元之前的文本单元对应的语义特征数据, 确定为所述第i个文本单元对应
的语境信息, 所述 i为大于1的整数;
基于所述语境信息, 确定所述第i个文本单 元对应的语义特 征数据;
根据各个文本单 元对应的语义特 征数据, 输出 所述标题文本 。
7.根据权利要求1至3任一项所述的方法, 其特征在于, 所述目标多媒体对象包括目标
视频, 所述方法还 包括:
获取所述目标视频中的前N个视频帧, 所述 N为大于0的整数;
对所述前N个视频帧进行文本识别处理, 得到识别文本信 息, 所述文本信息包括所述识
别文本信息 。
8.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
获取标题长度阈值;
确定所述标题长度阈值对应的标题长度特 征信息;
所述基于所述跨模态信 息处理模型, 对所述目标特征信 息与所述文本特征信 息进行跨
模态语义分析处 理, 输出所述目标多媒体对象对应的标题文本, 包括:
基于所述跨模态信息处理模型, 对所述标题长度特征信息、 所述目标特征信息与所述
文本特征信息进行跨模态语义分析处理, 输出所述标题文本, 所述标题文本的长度小于等
于所述标题长度阈值。
9.一种模型训练方法, 其特 征在于, 所述方法包括:
获取第一多媒体样本对象, 所述第 一多媒体样本对象包括目标模态对应的第 一媒体信
息和文本模态对应的文本信息, 所述目标模态是指与所述文本模态不同的至少一种信息模
态;
确定所述第一媒体信息对应的目标特征信息, 以及所述文本信息对应的文本特征信
息;
获取待训练的跨模态信息处 理模型;
基于所述目标特征信 息与所述文本特征信 息, 对所述待训练的跨模态信 息处理模型进
行模型训练, 输出 所述第一多媒体样本对象对应的标题文本;权 利 要 求 书 2/4 页
3
CN 114611498 A
3
专利 标题生成方法、模型训练方法及装置
文档预览
中文文档
48 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共48页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:29上传分享