(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210374355.1
(22)申请日 2022.04.11
(71)申请人 长江师范学院
地址 400000 重庆市涪陵区 聚贤大道16号
(72)发明人 黄仕建 岳帆 侯怡冉 马欢
谭勇 党随虎 蒋丽 杜得荣
施明成 邢柏松
(74)专利代理 机构 成都东唐智 宏专利代理事务
所(普通合伙) 51261
专利代理师 晏辉
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 40/10(2022.01)
G06V 20/40(2022.01)
G06T 7/269(2017.01)G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
G06V 10/82(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
(54)发明名称
一种基于混合神经网络的人体行为识别方
法
(57)摘要
本发明涉及智能信息处理与模式识别技术
领域, 尤其涉及一种基于混合神经网络的人体行
为识别方法。 构建训练样本集和测试样本集:将
训练样本集送入混合神经网络进行训练, 以测试
样本集的整体识别准确率作为指标评判性能, 获
取准确率最高的模型, 作为最终训练模型; 将待
定视频序列进行预处理操作将待定视频序列的
图像帧和光流帧导入到最终训练模 型, 得到待定
视频序列中的行为。 本发明通通过神经网络结构
的深度融合来达到充分的提取视频序列的场景
信息, 运动信息以及时间序列信息的目的进而形
成优于任一单一网络结构的识别精度和鲁棒性;
实现了用于复杂场景的人体行为的识别。
权利要求书1页 说明书4页 附图2页
CN 114743266 A
2022.07.12
CN 114743266 A
1.一种基于混合神经网络的人体行为识别方法, 其特 征在于, 包括以下步骤:
S1.构建训练样本集和 测试样本集:
获取包括行为标签的视频数据, 并经其进行预处理操作, 得到视频数据中的图像帧, 并
计算其相邻帧的光 流得到光 流帧;
将所述视频 数据划分为训练样本集和 测试样本集;
S2.将训练样本集送入混合神经网络进行训练, 训练过程中, 通过测试样本集对其训练
结果进行验证, 验证时不更新 参数并将参数保存为权 重文件;
S3.使用已验证准确率最高的权重文件初始化整体混合神经网络, 以测试样本集的整
体识别准确率作为指标评判性能, 获取准确率 最高的模型, 作为 最终训练模型;
S4.使用摄像装置采集具有人体行为的待定视频序列, 并对其进行预处理操作, 得到待
定视频序列的图像帧和光 流帧;
S5.将待定视频序列的图像帧和光流帧导入到最终训练模型, 得到待定视频序列中的
行为。
2.根据权利要求1所述的一种基于混合神经网络的人体行为识别方法, 其特征在于, 其
中, S2和S4中, 通过 预处理获得图像帧和光 流帧的方法主 要包括:
s21.将视频序列每隔五帧提取一帧形成RGB图像帧;
s22.将所述RGB图像帧数据集中每相邻两张图像帧所有对应的像素点的梯度结合时间
信息求其所在时刻的亮度变化 值;
s23.通过像素点为5*5的检测框来跟踪亮度变化的角点, 得到x和y方向上的光流图像,
形成x和y方向的光 流图像帧。
3.据权利要求1所述的一种基于混合神经网络的人体行为识别方法, 其特征在于, S2中
混合神经网络为ResNet101为骨干的网络模型, 并将ResNet101的3*3 卷积替换为cot block
模块, 形成卷积神经网络与注意力机制的结合网络 。
4.据权利要求1所述的一种基于混合神经网络的人体行为识别方法, 其特征在于, S2
中, 训练过程包括:
将视频数据中的所有图像帧和光流帧数据, 定义为
, 其中C、 H、 W分别为
图像的通道数、 高度和宽度;
将采样的帧空间分辨率裁剪为224 ×224的大小并且随机翻转后转换成张量的形式输
入送到混合神经网络中;
训练过程中 的批量大小设置为64; 图像帧的网络输入大小为(64, 3, 224, 224),输出
为(64, 101); 将光流帧的网络输入大小为(64, 20, 224, 224),输出为(64, 101); 其中64
是批量大小, 3是图像帧的通道数量, 20是光流帧的通道数, 224和224是图像的空间分辨率
大小;
训练过程中使用反向传播 来更新参数;
分类器实现为 一层全连接层, 其输出维度设置为类别总数。权 利 要 求 书 1/1 页
2
CN 114743266 A
2一种基于混合神经 网络的人体行为识别方 法
技术领域
[0001]本发明涉及智能信息处理与模式识别技术领域, 尤其涉及一种基于混合神经网络
的人体行为识别方法。
背景技术
[0002]人体行为识别技术广泛应用于医疗健康、 智能交通、 安全监控、 智能机器人等诸多
领域。 近年来, 随着神经网络的不断发展和计算机算力的进一步提高, 神经网络用于人体行
为识别已经 逐渐成为研究人员们的研究热点。
[0003]由于卷积神经网络在图像等领域的兴起, 所以卷积神经网络可以极好的对图像中
的信息进行提取, 因此卷积神经网络对表观信息和运行信息的提取具有极佳 的优势, 但是
相较于图像来讲视频序列具有时间维度特征, 在处理 时间维度信息时卷积神经网络不能有
效的提取其时序特征。 循环神经网络由于其独特的记忆性从而可以有效的提取上下文的关
系来达到提取时间序列的目的, 但是循环神经网络在提取长时间序列时可能发生梯度消失
或者梯度爆炸, 改进的循环神经网络LSTM 增加了遗忘门从而有效的解决了梯度消失和梯
度爆炸问题, 但是在提取场景信息和运动信息时容 易引起参数量的增 加。
[0004]当前, 基于深度学习的人体行为识别的方法大致可以归纳为双流卷积神经网络、
3D卷积神经网络、 循环神经网络三种 方法。 双流卷积神经网络通过分别提取其表观信息和
运动信息然后进行融合分类得到分类结果。 可以较好的提取视频 的场景信息和运动信息。
3D卷积神经网络虽然 可以将视频直接输入到网络中进 行特征的提取, 但是3D卷积核 结构复
杂引起的参数量也随网络深度的增加而大量的增加, 不能进 行长时间的特征提取并且提取
的运动信息和时序信息并不是很充分。 后续经过改进的3D卷积神经网络虽然在一定程度上
解决了参数过大, 提取特征能力有限的问题, 但并不是针对所有的问题都有好的效果。 在循
环伸进网络 之上改进后的LSTM可以获得长期时序信息, 但是在 对场景于运行信息提取不 足
且引入的大量的参数。 拖慢了模 型的识别速度。 后来的研究者利用LSTM 和其它的神进网络
的进行结合取得了不错的识别效果。
[0005]解决人体行为识别的困难涉及到大量图像处理、 模式识别、 人工智能方面的理论
和方法。 为此, 本发明提出一种基于卷积神进网络和LSTM 以及多头注 意力机制结合的混合
神经网络的识别方法, 相对现有方法, 具有更好的特 征提取充分性和人体行为识别精度。
发明内容
[0006]本发明的目的是提供一种基于混合神经网络的人体行为识别方法, 用于解决现有
技术中特征提取不充分和人体行为识别精度不足的问题。
[0007]为了实现上述目的, 本发明采用了如下技 术方案:
一种基于混合神经网络的人体行为识别方法, 包括以下步骤:
S1.构建训练样本集和 测试样本集:
获取包括行为标签的视频数据, 并经其进行预处理操作, 得到视频数据中的图像说 明 书 1/4 页
3
CN 114743266 A
3
专利 一种基于混合神经网络的人体行为识别方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:33:49上传分享