安全公司报告
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210316304.3 (22)申请日 2022.03.29 (65)同一申请的已公布的文献号 申请公布号 CN 114419524 A (43)申请公布日 2022.04.29 (73)专利权人 之江实验室 地址 311100 浙江省杭州市余杭区中泰街 道之江实验室南湖总部 (72)发明人 卢修生 鲍虎军 程乐超 杨非  宋明黎  (74)专利代理 机构 杭州浙科专利事务所(普通 合伙) 33213 专利代理师 孙孟辉 杨小凡 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 110246160 A,2019.09.17 CN 10971 1316 A,2019.0 5.03CN 113963301 A,202 2.01.21 CN 110378348 A,2019.10.25 CN 108197586 A,2018.0 6.22 CN 109063549 A,2018.12.21 CN 10828 8015 A,2018.07.17 CN 113158972 A,2021.07.23 CN 108229338 A,2018.0 6.29 CN 109740419 A,2019.0 5.10 孙宁等.结合注意力机制与时空特 征融合的 长时程行为识别方法. 《合肥工业大 学学报 (自然 科学版) 》 .2021,第4 4卷(第8期), 梁鸿等.融入时序激励机制的人体行为识 别. 《计算机工程与设计》 .2020,第41卷(第10期), Xingyu Xu等.Vi olent Video Classificati on Based o n Spatial-Temporal Cues Usi ng Deep Learn ing. 《2018 1 1th Internati onal Symposium o n Computati onal Intelligence and Design (ISCID)》 .2019, Xiaoxia Luo 等.An Modified Video Stream Clas sificati on Method Whic h Fuses Three-Dimensi onal Convolutional Neural Network. 《2019 I nternati onal Conference o n Machine Learn ing, Big Data and Busi ness Intelligence (MLBDBI)》 .2020, 审查员 周亚芳 (54)发明名称 一种基于伪光流辅助的视频分类方法及系 统 (57)摘要 本发明公开了一种基于伪光流辅助的视频 分类方法及系统, 能够计算伪光流特征并利用其 辅助进行视频分类, 其中伪光流计算模块利用相 关性计算/ 卷积/转置卷积等操作, 无监督地估计 伪光流特征, 然后将其融合到主干网络中, 从而 对段间运动信息进行有效显式建模; 伪光流激励 模块则在将伪光流特征对通道维度取均值后, 用 来对主干网络中的视频卷积特征进行空间注意力操作, 从而使得主干网络 更关注与运动信息更 相关的空间位置。 本发明实现方法简便, 思路灵 活, 在动作视频数据集上取得了显著的分类效果 提升。 权利要求书3页 说明书8页 附图4页 CN 114419524 B 2022.08.05 CN 114419524 B 1.一种基于伪光 流辅助的视频分类方法, 其特 征在于包括如下步骤: 步骤S1: 对输入的视频样本进行均匀分段, 在每个视频段中随机采样一帧, 并将视频帧 输入到主干网络中; 步骤S2: 在主干网络的每层之后, 将相邻段的采样视频帧的卷积特征输入到伪光流计 算模块中, 计算相邻段视频帧深度特 征之间的相关性, 并得到伪光 流特征; 步骤S3: 将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块, 首先对当前层 网络的卷积特征与伪光流特征进行加权融合, 然后将伪光流特征在通道上取均值操作后, 对加权融合后的深度特 征进行空间加权, 得到加权特 征; 步骤S4: 将各段采样视频帧的识别结果融合后, 得到视频样本的分类结果, 通过分类结 果与视频样本的真值, 采用交叉熵损失函数进行训练, 用于分类阶段获取最终的视频分类 结果。 2.根据权利要求1所述的一种基于伪光流辅助的视频分类方法, 其特征在于: 所述步骤 S2中, 计算相邻段视频帧深度特征之间的相关性, 再通过多个卷积层和转置卷积层计算伪 光流特征, 最后通过一层卷积 将其通道数与各层视频 特征进行对齐。 3.根据权利要求2所述的一种基于伪光流辅助的视频分类方法, 其特征在于: 在计算伪 光流特征时, 首先对输入特征利用卷积操作减少通道数, 然后计算相邻段视频帧深度特征 之间的相关性, 除最后一层卷积映射用于特 征对齐外, 其 他各层均共享 参数。 4.根据权利要求1所述的一种基于伪光流辅助的视频分类方法, 其特征在于: 所述步骤 S2中, 对于相邻段采样得到的视频帧 和 ,m表示第m个视频段, 第 层网络提取得到 的卷积特 征为 和 , 表示主干网络, 则计算得到的伪光 流特征为: 其中 表示计算两项卷积特征之间的相关性操作, 表示包含多个卷积层 的卷积操作, 表示包含多个转置卷积层的转置卷积 操作。 5.根据权利要求1所述的一种基于伪光流辅助的视频分类方法, 其特征在于: 所述步骤 S3中, 首先对于第 层网络对应的卷积特征 与伪光流特征 , 进行加权融合操 作如下: 其中 和 表示权重超参数, 表示加权融合后的卷积特 征; 然后, 基于伪光 流特征 , 计算特征权重如下: 其中 表示在光流特征 的通道维度上进行取均值操作, 再通过 权 利 要 求 书 1/3 页 2 CN 114419524 B 2卷积操作和 激活操作, 计算在空间各位置上的权重 , 中包含了各空间位置 与运动信息的相关程度; 最后, 通过权 重 , 对加权融合特 征 进行空间注意力操作: 其中 表示点乘操作, 表示加权得到的特征, 加权特征 作为视频帧 所在深度网络的下一层输入, 继续进行 特征提取。 6.根据权利要求1所述的一种基于伪光流辅助的视频分类方法, 其特征在于: 所述步骤 S4中, 将段视频帧的识别结果进行均匀融合后, 得到 视频样本的分类预测结果: 其中 表示输入视频样本, 表示从第 段视频样本中选取的视频 帧, 表示视频样 本共切分为 段, 表示视频帧 提取的视频卷积特征, 表示主干网络, 表示全 连接层; 采用交叉熵损失函数进行训练: 其中,N表示样本数目, C表示类别数目, n、c分别为N和C的索引, 表示视频样本真实 类别标签, 表示视频样本预测类别标签。 7.根据权利要求1所述的一种基于伪光流辅助的视频分类方法, 其特征在于: 所述主干 网络基于残差网络ResNet50框架进行扩展, 在各网络层的每个块中, 使用2D卷积和1D按通 道卷积同时进行时空建模, 1D按通道卷积采用时域 转移操作的方式进行初始化。 8.一种基于伪光流辅助的视频分类系统, 包括主干网络、 伪光流计算模块和伪光流激 励模块, 其特 征在于: 所述主干网络, 用于获取相邻段的采样视频帧, 并在主干网络的每层 之后, 将相邻段的 采样视频帧的卷积特征输入伪光流计算模块; 对各段采样视频帧的识别结果进行融合, 得 到视频样本的分类结果, 通过分类结果与视频样本的真实类别, 采用交叉熵损失函数进行 训练, 用于分类阶段获取最终的视频分类结果; 所述伪光流计算模块, 用于计算相邻段视频帧深度特征之间的相关性, 进而得到伪光 流特征; 将得到的伪光 流特征与视频帧卷积特 征, 输入伪光 流激励模块; 所述伪光流激励模块, 对当前层网络的卷积特征与伪光流特征进行加权融合, 再对伪 光流特征在通道上取均值操作, 然后对加权融合后的深度特征进行空间加权, 得到的加权 特征用于视频帧的识别。 9.根据权利要求8所述的一种基于伪光流辅助的视频分类系统, 其特征在于: 所述伪光 流计算模块包括相关性层、 卷积层、 转置卷积层和映射卷积层, 相关性层用于计算相 邻段视 频帧深度特征之间的相关性, 卷积层和 转置卷积层用于计算伪光流特征, 映射卷积层将其权 利 要 求 书 2/3 页 3 CN 114419524 B 3

.PDF文档 专利 一种基于伪光流辅助的视频分类方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于伪光流辅助的视频分类方法及系统 第 1 页 专利 一种基于伪光流辅助的视频分类方法及系统 第 2 页 专利 一种基于伪光流辅助的视频分类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:32:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。