(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210429393.2
(22)申请日 2022.04.22
(71)申请人 北京爱奇艺科技有限公司
地址 100080 北京市海淀区海淀北一 街2号
鸿城拓展大厦10、 1 1层
(72)发明人 李冠楠
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 吕俊秀
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 30/10(2022.01)
G06F 16/732(2019.01)
G06F 40/289(2020.01)
(54)发明名称
一种针对跨模态视频检索模型的训练方法
及装置
(57)摘要
本发明实施例提供了一种针对跨模态视频
检索模型的训练方法及装置, 通过切分视频流生
成目标分段视频; 获取视频序列位置标量和视频
序列特征向量; 生成分词和由分词组成的分词序
列; 提取文本序列特征向量和文本标签特征向量
和文本位置标量; 基于视频序列位置标量合并视
频序列特征向量生成目标视觉特征向量; 基于文
本位置标量合并文本序列特征向量生成目标文
本特征向量; 将处于不同空间的向量分别映射至
同一向量空间, 计算出隐含特征向量相似度和标
签特征向量相似度; 基于文本标签特征向量、 隐
含特征向量相似度、 标签特征向量相似度确定检
索结果, 从而提高了对长视频进行跨模态检索的
检索精度, 也实现了中文或中英文文本搜索视频
的跨模态检索功能。
权利要求书4页 说明书27页 附图4页
CN 114998777 A
2022.09.02
CN 114998777 A
1.一种针对跨模态视频检索模型的训练方法, 其特征在于, 所述跨模态视频检索模型
包括隐藏向量空间、 标签向量空间, 所述方法包括:
获取并切分视频流, 生成多个目标分段视频;
获取用于表达所述多个目标分段视频的视频序列位置的视频序列位置标量;
获取视频流中用于表达视频序列的特征的多个视频序列 特征向量; 所述视频序列 具有
对应的文本序列;
切分所述文本序列, 生成分词和由所述分词组成的分词序列;
提取针对所述分词的多个文本序列特征向量, 和, 针对所述分词序列的文本标签特征
向量, 和, 用于表达文本位置的文本位置标量;
基于所述视频序列位置标量合并所述多个视频序列特征向量, 并生成 目标视觉特征向
量;
基于所述文本位置标量 合并所述多个文本序列特 征向量, 并生成目标文本特 征向量;
将所述目标视觉特征向量和所述目标文本特征向量映射至所述隐藏向量空间, 并计算
出针对于所述目标视 觉特征向量和所述目标文本特 征向量的隐含特 征向量相似度;
将所述目标视觉特征向量和所述目标文本特征向量映射至所述标签向量空间, 并计算
出针对于所述目标视 觉特征向量和所述目标文本特 征向量的标签特 征向量相似度;
基于所述文本标签特征向量、 所述 隐含特征向量相似度、 所述标签特征向量相似度确
定检索结果。
2.根据权利要求1所述的方法, 其特征在于, 所述跨模态视频检索模型包括残差注意力
模块, 所述基于所述视频序列位置标量合并所述多个视频序列特征向量, 并生成目标视觉
特征向量的步骤 包括:
基于所述视频序列位置标量, 通过所述残差注意力模块对所述多个视频序列 特征向量
进行时域融合, 并生成目标视 觉特征向量。
3.根据权利要求2所述的方法, 其特征在于, 所述残差注意力模块包括多头注意力单元
和多层感知器, 所述基于所述视频序列位置标量, 通过所述残差注意力模块对所述多个视
频序列特 征向量进行时域融合, 并生成目标视 觉特征向量的步骤 包括:
按序对所述视频序列位置标量编码, 生成针对所述视频序列位置标量的第一编码信
息;
对所述多个视频序列特 征向量进行归一 化操作, 并生成多个目标视频序列特 征向量;
将所述多个目标视频序列特 征向量与所述第一编码信息 叠加作为第一输入信号;
将所述第一输入信号输入至所述多头注意力单 元, 生成第一输出信号;
将所述第一输出信号与所述多个视频序列特 征向量叠加作为第二输入信号;
对所述第二输入信号进行归一 化操作, 并生成目标第二输入信号;
将所述目标第二输入信号输入至所述多层感知器, 生成第二输出信号;
将所述第二输出信号与所述第二输入信号叠加, 作为目标视 觉特征向量。
4.根据权利要求1所述的方法, 其特征在于, 所述跨模态视频检索模型包括残差注意力
模块, 所述基于所述文本位置标量合并所述多个文本序列特征向量, 并生成目标文本特征
向量的步骤 包括:
基于所述文本位置标量, 通过所述残差注意力模块对所述多个文本序列特征向量进行权 利 要 求 书 1/4 页
2
CN 114998777 A
2时域融合, 并生成目标文本特 征向量。
5.根据权利要求4所述的方法, 其特征在于, 所述残差注意力模块包括多头注意力单元
和多层感知器, 所述基于所述文本位置标量, 通过所述残差注意力模块对所述多个文本序
列特征向量进行时域融合, 并生成目标文本特 征向量的步骤 包括:
按序对所述文本位置标量进行编码, 生成针对所述文本位置标量的第二编码信息;
对所述多个文本序列特 征向量进行归一 化操作, 并生成多个目标文本序列特 征向量;
将所述多个目标文本序列特 征向量与所述第二编码信息 叠加作为第三输入信号;
将所述第三输入信号输入至所述多头注意力单 元, 生成第三输出信号;
将所述第三输出信号与所述多个文本序列特 征向量叠加作为第四输入信号;
对所述第四输入信号进行归一 化操作, 并生成目标第四输入信号;
将所述目标第四输入信号输入至所述多层感知器, 生成第四输出信号;
将所述第四输出信号与所述第四输入信号叠加, 作为初始目标文本特 征向量;
拼接所述初始目标文本特征向量与所述文本标签特征向量, 并生成目标文本特征向
量。
6.根据权利要求1所述的方法, 其特征在于, 所述将所述目标视觉特征向量和所述目标
文本特征向量映射至所述隐藏向量空间, 并计算出针对于所述目标视觉特征向量和所述目
标文本特 征向量的隐含特 征向量相似度的步骤 包括:
分别将所述目标视觉特征向量和所述目标文本特征向量映射至所述隐藏向量空间, 生
成隐含视 觉向量和隐含文本向量;
确定所述隐含视 觉向量和所述隐含文本向量的第一向量距离;
采用所述第一向量距离计算出针对于所述目标视觉特征向量和所述目标文本特征向
量的隐含特 征向量相似度。
7.根据权利要求6所述的方法, 其特征在于, 所述跨模态视频检索模型包括多层全连接
神经网络, 所述多层全连接神经网络具有对应的网络参数, 在所述确定所述隐含视觉 向量
和所述隐含文本向量的第一向量距离的步骤之前, 还 包括:
采用所述隐含视觉向量和所述隐含文本向量生成第 一目标损失函数; 所述第 一目标损
失函数包括第一损失函数值;
通过控制所述网络参数, 降低所述第一损失函数值。
8.根据权利要求1所述的方法, 其特征在于, 所述将所述目标视觉特征向量和所述目标
文本特征向量映射至所述标签向量空间, 并计算出针对于所述目标视觉特征向量和所述目
标文本特 征向量的标签特 征向量相似度的步骤 包括:
分别所述目标视觉特征向量和所述目标文本特征向量映射至所述标签向量空间, 生成
标签视觉向量和标签文本向量;
确定所述标签视 觉向量和所述标签文本向量之间的第二向量距离;
采用所述第二向量距离计算出针对于所述目标视觉特征向量和所述目标文本特征向
量的标签特 征向量相似度。
9.根据权利要求8所述的方法, 其特征在于, 所述跨模态视频检索模型包括多层全连接
神经网络, 所述多层全连接神经网络具有对应的网络参数, 在所述确定所述标签视觉 向量
和所述标签文本向量之间的第二向量距离的步骤之前, 还 包括:权 利 要 求 书 2/4 页
3
CN 114998777 A
3
专利 一种针对跨模态视频检索模型的训练方法及装置
文档预览
中文文档
36 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:35:52上传分享