安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210166930.9 (22)申请日 2022.02.23 (71)申请人 西北大学 地址 710069 陕西省西安市太白北路2 29号 (72)发明人 张清芳 韩枫 梁伟 杨璐瑶  邓鑫 刘征奇 郭竞 许鹏飞  (74)专利代理 机构 西安恒泰知识产权代理事务 所 61216 专利代理师 李郑建 (51)Int.Cl. G06V 40/10(2022.01) G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于三维卷积的时空特征多层次融合 的行为识别方法 (57)摘要 本发明公开了一种基于三维卷积的时空特 征多层次融合的行为识别方法, 该方法针对行为 识别任务中视频能够提供更加丰富特征信息, 采 用三维卷积核以及时间和空间双流框架作为网 络主干, 其中一个分支提取视频时间特征, 另外 一个分支提取视频的空间特征。 在不同的行为 中, 考虑到视频中的行为小目标在识别网络中的 高层网络部分容易特征丢失, 快节 奏的行为不容 易被网络感受, 提出了将不同感受野 上的时间和 空间区域的特征均考虑进网络。 以多层特征融合 模块来均衡空间特征和时间特征对于最后行为 分类结果的影响, 充分利用提取到的多层次特 征。 该方法提取视频中的时间和空间特征, 并对 其进行融合和行为识别, 相较于现有相关行为识 别方法, 具有更高的准确性。 权利要求书1页 说明书8页 附图3页 CN 114677704 A 2022.06.28 CN 114677704 A 1.一种基于三维卷积的时空特征多层次融合的行为识别方法, 其特征在于, 包括如下 步骤: S1: 采用包含多种动作类和多视频段的Kinetic400公开数据集作为实验数据集, 从数 据集中的各个视频片段等间隔的取出部分帧分别作为时空特征双流网络中时间特征提取 网络和空间特 征提取网络的输入; S2: 构建基于时间和空间的双流网络, 包括帧抽取模块、 时间特征提取网络、 空间特征 提取网络和多层次特 征融合模块; 时间特征提取网络和空间特征提取网络的结构包括多阶段的卷积层, 全局池化层以及 全连接层和Softmax层, 其中, 全局池化层和全 连接层构成分类器, Softmax层用来对识别结 果的归一 化; 时间特征提取网络用于提取整段视频包含行为的多层次时间特征信 息; 空间特征提取 网络用于提取整段视频包含行为的多层次空间特征信息, 多层次特征融合模块用于进 行多 层次的时空特 征融合, 分类 器用于对融合后的特 征进行给出行为预测的结果; 在时间特征提取网络和 空间特征提取网络的后面阶段将提取到的不同层次的特征作 为多层次特 征融合模块的输入; S3: 多层次特征融合模块针对不同层次的时间特征图和空间特征图进行采样操作, 对 特征图进行维度对齐, 然后分别在时间和空间特征内部进行上下两方向上 的特征融合, 增 强和丰富各个层次上的特征语义表达, 接着将空间融合后的特征和时间融合后的特征进一 步全融合, 最终获得该视频下不同层次时空特征融合后的行为特征; 将该特征输入到分类 器中分类; S4: 在分类器 中, 输入特征经过全局平均池化和级联的操作, 最后放入全连接层中对视 频中的行为进行分类。 2.如权利要求1所述的行为识别方法, 其特征在于, 所述的时间特征提取网络和空间特 征提取网络采用的backbo ne网络为3D  Resnet50。 3.如权利要求1所述的行为识别方法, 其特征在于, 从数据集提供的行为视频段中等间 距采样64帧默认代表整个视频段, 然后再分别等间距取32帧和4帧, 分别对应于时间特征提 取网络和空间特 征提取网络 两个网络通道中的输入进行 特征提取。 4.如权利要求1所述的行为识别方法, 其特征在于, 所述多层次融合 时间特征和空间特 征包括: 时间特征提取网络和 空间特征提取网络会将最后两个阶段提取到的不同层次的时间 特征和空间特征都馈入多层次特征融合模块, 两个层次对应不同的感受野; 多层次特征融 合模块中, 先对空间特征中两个层次上 的特征做空间维度上 的下采样对齐语义操作, 接着 对时间维度采样, 除行为分类的分类损失函数之外, 对齐模块增加 额外的损失函数保证对 齐维度后特征 的有效性; 空间特征内部进行两个层次特征融合时候, 对时间维度上高维的 特征进行下采样, 对时间维度上低维的特征进行上采样, 时间维度保持一致后, 采用自下而 上和自上而下相结合的融合方式融合不同方向上的空间特征; 并对时间特征做与空间特征 相同的操作和融合处 理; 最后再将多层次融合后的时间特 征和空间特 征再进行全融合。权 利 要 求 书 1/1 页 2 CN 114677704 A 2一种基于三维卷积的时空特征多层次 融合的行为识别方 法 技术领域 [0001]本发明属于行为识别领域, 具体涉及一种基于三维卷积的时空特征多层次融合的 行为识别方法。 背景技术 [0002]目前计算机视觉技术已经被广泛应用到我们的日常生活中, 深度学习技术的发展 也在逐渐解决了计算机视觉中的种种问题。 计算机视觉作为一项跨学科 的领域, 研究如何 从数字图像或者视频中获得高级的理解, 使用计算机来代替人眼实现对目标物体的识别、 追踪以及其他视觉 问题, 使得计算机在某些方面胜于人眼的图像处理能力。 视频理解作为 计算机视觉中的重要方向, 其任务之一就是理解人类的行为, 在视频中识别人类行为的任 务被称为视频动作理解, 比如常见的弹琴, 骑车, 打球等。 从人眼对视频中的行为识别经验 不难发现, 决定一个视频中的行为类别主要由视频 的空间特点和时间变化决定。 当视频中 出现明显的空间特点, 比如弹琴行为中, 视频中一定会有琴这一目标。 如果根据单张视频帧 进行识别, 就会忽略该行为的连续性, 行为识别任务退化 成图像分类任务, 虽然对于某些特 殊行为, 比如打球, 图像分类任务也会有效。 但是对于大部分行为而言, 视频帧之间的时间 特征对于识别该行为而言是必不可少的, 比如跑步和原 地跳这种在时间变化下才能表现出 区分性的运动, 如果忽略时间特征, 将很难区分。 因此对视频中提取到的时空特征的综合表 现能力最终决定 了深度学习模型的行为识别能力。 [0003]目前, 基于这两类特征信息, 最常用的框架是双流卷积网络, 将空间信息流和时间 信息流分开学习, 最后将两者进行融合, 这种方法改进了传统方法中仅对时间或者空间特 征提取的问题。 在双流卷积网络提出后, 其难点之一在于所需要的计算是密集型 的且存储 要求高, 不利于大规模训练或实时的部署。 人们开始 寻找可替代的方法, 一些研究人员认 为 可以将时间信息作为的另一个维度, 同时输入到网络中进行特征提取, 此时卷积网络便由 二维转变为三维, 也可以实现网络的端到端, 简化训练过程。 随着硬件的发展, 计算机的计 算能力也越来越强, 直接训练3D网络也逐渐容易, 计算量对于计算机硬件也不再是最大 的 难题, 采用3D卷积网络作为主干网络也成为现实。 但是基于双流卷积的行为识别网络模型 仍旧普遍存在两个问题: 由于视频是由有序图像帧组成的, 但是不同行为下, 视频的时间维 度和空间维度 表现出来的重要性却不相同, 如果将时间特征和空间特征以同样的权重组合 利用分类器分类, 必然会导致两者不平衡, 从而影响分类结果。 另外, 目前对于时间特征提 取的许多方案, 都无法 同时提取到时间上 的大目标和小目标, 比如正常人 的慢跑行为可能 被误认为行走, 两种 行为目标的节奏变化在时间上 的区分性并不明显, 因此提取时间特征 的时候要同时兼顾全局时间特 征和局部时间特 征。 发明内容 [0004]针对以上现有技术中存在的不足之处, 本发明的目的在于, 提供一种基于三维卷 积的时空特征多层次融合的行为识别方法, 该方法将三 维卷积的时空特征多层次融合的双说 明 书 1/8 页 3 CN 114677704 A 3

PDF文档 专利 一种基于三维卷积的时空特征多层次融合的行为识别方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于三维卷积的时空特征多层次融合的行为识别方法 第 1 页 专利 一种基于三维卷积的时空特征多层次融合的行为识别方法 第 2 页 专利 一种基于三维卷积的时空特征多层次融合的行为识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。