(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210347546.9
(22)申请日 2022.04.01
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 俞俊 南瑞环 朱素果 范建平
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱月芬
(51)Int.Cl.
G06T 7/269(2017.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于视频上下文信息融合的多模态密
集视频描述方法
(57)摘要
本发明公开了一种基于视频上下文信息融
合的多模态密集视频描述方法, 用于处理密集视
频描述任务。 本发明步骤如下: 步骤(1)、 数据预
处理, 提取视频多模态数据特征; 步骤(2)、 建立
多模态密集视频描述网络, 并引入时间 ‑语义关
系模块; 步骤(3)、 模型训练, 优化描 述生成器, 得
到模型在视频上的文本描述; 模 型通过采用稀 疏
采样和引入时间 ‑语义关系模块, 解决了视频描
述任务中普遍存在的视频信息冗余 以及视频事
件与事件之间关系的引入问题, 从而减少了模型
的计算量, 提高了生成句子的连贯性与一致性。
在数据集上的实验表明, 通过使用这两种方法,
能够有效提升模型生成文本描述的效果与性能。
权利要求书4页 说明书10页 附图1页
CN 114627162 A
2022.06.14
CN 114627162 A
1.一种基于视频上下文信息 融合的多模态密集视频描述方法, 其特征在于包括如下步
骤:
步骤(1)、 数据预处 理, 提取视频多模态数据特 征;
步骤(2)、 建立多模态密集视频描述网络, 并引入时间 ‑语义关系模块;
步骤(3)、 多模态密集视频描述网络的训练, 并优化描述生成器, 得到模型在视频上的
文本描述。
2.根据权利要求书1所述的一种基于视频上下文信息融合的多模态密集视频描述方
法, 其特征在于步骤(1)所述的数据为视频数据集, 包含来自ActivityNet的20k个视频, 按
照10024/4926/5044划分为训练集、 验证集以及测试集, 其中每个视频都带有一系 列时间定
位的描述, 且每句描述都覆盖 了视频中唯一的一段, 描述了发生的事 件。
3.根据权利要求书1或2所述的一种基于视频上下文信息融合的多模态密集视频描述
方法, 其特征在于音频特征和视觉特征在训练前预先计算, 具体的VGGish网络在AudioSet
上进行预先训练, 用于提取视频的音频特征, I3D网络在Kinetics数据集上进行了预先训
练, 用于提取视频的视觉特征; VGGish模 型处理0.96秒 长的音频片段, 这些音 频片段被表 示
为大小为96 ×64的对数梅尔比例谱图, 这些谱图通过短时傅立叶变换获得; STFT使用25毫
秒汉恩窗口, 对16kHz单声道音轨应用15毫秒步长; VGGish的预分类层为每个谱图输出128
维的嵌入; 因此, 视频数据集中第i个视频的音轨由长度为Tai的128维个特征序列表示, 堆
栈中的每个特征代表0.96秒的原始音轨; I3D输入以25 fps速度提取的, 大小为224 ×224的
64RGB和64光流帧; 其中, 使用PWCNet来提取光流帧; 首先, 调整两组帧的大小, 使min
(Height,Widt h)=256; 然后, 将大小为224 ×224的中心区域裁剪出来; 之后, 两组视频帧都
通过相应的I3D输出1024 ‑d表示的RGB帧和光流帧; 最后将 输出的RGB帧和光流帧相加, 得到
最终为每个视频帧所生成的1024 ‑d表示, 因此第i个视频的视觉轨迹由长度为Tvi的1024‑d
特征序列表示, 其中每 个特征平均跨越原 始视频的2.5 6秒。
4.根据权利要求书1或2或3所述的一种基于视频上下文信 息融合的多模态密集视频描
述方法, 其特征在于文本描述的单词通过在Common Crawl数据集上预先训练的全局向量表
示; 预先训练的模型将全局向量表示映射到维度为Dc的查找表中; 每个文本描述的单词都
用维度为Dc的描述词向量表示。
5.根据权利要求书1或2或3所述的一种基于视频上下文信 息融合的多模态密集视频描
述方法, 其特 征在于步骤(2)具体实现如下:
采用MDVC作为基准模型, 基于Transformer的多模态神经网络来提高视觉特征的利用
率, 生成更加准确的视频描述; 模型同时输入三个模态的数据, 即描述词向量、 视觉特征、 音
频特征; 采用预训练好的Glov e、 I3D和VGGish网络独立地进 行不同特征的提取, 维度大小分
别是300维、 1024维和128维;
模型使用self ‑attention编码特征信息, 使用multihead ‑attention融合两种不同的
特征序列; 这两种方法均基于缩放 点积注意力的概念, 其定义如下:
其中,
是一个比例因子, Q,K,V是查询、 键和值的序列;权 利 要 求 书 1/4 页
2
CN 114627162 A
2模型中引入多头概念, 以允许模型在每个位置学习H个不同的表示子空间, 同时保持相
同的计算效率, 通常表示 为带有参数化的输入:
headh(q,k,v)=A ttention(qWhq,kWhk,vWhv),h∈[1,H] (2)
其中,
T*表示特征的长度, D*表示特征的维
度; 输入k和v具有相同的维度, 输入q的维度与k不同,
表示将相应的输入映射到内部空间
然后多头注意力被定义为映射回查询子空间Dq的H个注意力头的串联, 其中
Attention(q,k,v)=[head1(q,k,v),head2(q,k,v),. ..,headH(q,k,v)]Wout (3)
模型使用batch大小为32进行训练, 并为了同一batch的一致性, 在 数据处理过程 中, 先
将所有特征填充到batch中最长的序列; 由于模态特征的维度大小不同, 因此需要将它们映
射到模型的内部空间中, 内部空间的维度大小为1024维, 模型基于Transformer, N为2层, H
为4头; 最 终生成器的输出维度与描述词向量大小一致, 为10172维; 在最终loss计算标签平
滑中使用γ =0.7, 丢失概率p=0.1; 使用默认超参 数和学习率为5 ×10‑5的Adam优化器 来训
练描述生成器, 并在验证集上选择超参数。
6.根据权利要求书5所述的一种基于视频上下文信息融合的多模态密集视频描述方
法, 其特征在于在视觉特征送入self ‑attention进行编码前, 先对视觉特征进行视频 帧的
稀疏采样; 视觉特征在送入self ‑attention时, 首先进行位置编码, 然后再从视觉特征中随
机提取k帧, 并保留随机提取的k帧视频的时序信息; 将提取的k帧作为视频的主要视觉特征
输入self ‑attention进行编码; 在模型运行的不同层均需对视 觉特征重新进行稀疏采样。
7.根据权利要求书6所述的一种基于视频上下文信息融合的多模态密集视频描述方
法, 其特征在于视觉特征在经过编 码后, 引入时间 ‑语义关系模块TSRM来捕获不同事件之间
在时间结构和语义方面的丰富信息, 结合场景级和帧级关系 特征, 为密集视频描述构建一
个以事件为中心的分层表示; TSRM的输入为整个视频的视 觉特征;
TSRM包括时间关系模块和语义关系模块;
对于时间关系模块, 模型并不采取直接使用tIOU或两事件之间的距离的方式来构建事
件之间的时间关系, 而是通过自适应学习过程从数据中获得时间关系; 对于一组事件(pi,
pj), 首先基于它 们的相对距离和长度执 行位置编码Pij:
其中, ci和li分别表示事件pi的中心位置和长度; [ ·,·]表示两个元素的连接; 首先采
用ci‑cj而不是|ci‑cj|来区分时间顺序; 其次将位置编码标准化, 以便在时间尺度上独立;
之后采用非线性函数将Pij嵌入到高维空间中, 然后再被送入全连接层, 以预测时间关系得
分
语义关系模块主要采用LSTM来捕获事件与事件之间的语义关系; 具体地, 首先采用
LSTM将帧级的视觉特征
编码成递归特征
对于每个事件pi, 通过连接递归特
征
和事件帧级视觉特征的平均池化来构建语义特征Si, 其中
和
分别表示事件pi的权 利 要 求 书 2/4 页
3
CN 114627162 A
3
专利 一种基于视频上下文信息融合的多模态密集视频描述方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:34:08上传分享