(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210418986.9
(22)申请日 2022.04.20
(71)申请人 北京沃东天骏信息技 术有限公司
地址 100176 北京市大兴区经济技 术开发
区科创十一 街18号院2号楼4层A402室
申请人 北京京东世纪贸易有限公司
(72)发明人 张志伟
(74)专利代理 机构 北京派特恩知识产权代理有
限公司 1 1270
专利代理师 钟舒婷 蒋雅洁
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
动作识别方法、 装置及存 储介质
(57)摘要
本发明提供了一种动作识别方法、 装置及存
储介质, 方法包括: 通过对所获取的待测视频数
据进行处理, 得到多个特征矩阵; 多个特征矩阵
是对包含目标对象的多个视频帧进行处理得到
的; 利用时序特征提取网络模型对多个特征矩阵
进行处理, 得到对应多个特征矩阵的多个时序动
作特征矩阵; 其中, 时序特征提取网络模型中每
一网络块中的网络层, 对前序特征矩阵进行融合
重用和分组处理; 所述前序特征矩阵包括: 网络
层对应的网络块输入的特征矩阵, 及排序在所述
网络层前面的前序网络层输出的所述特征矩阵;
通过多个时序动作特征矩阵, 确定出多个视频帧
中的目标对象的动作识别结果。 本方案可以减少
计算资源的占用, 同时也 提高了识别精度。
权利要求书3页 说明书16页 附图14页
CN 114724249 A
2022.07.08
CN 114724249 A
1.一种动作识别方法, 其特 征在于, 包括:
对所获取的待测视频数据进行处理, 得到多个特征矩阵; 所述多个特征矩阵是对预定
时间段内包 含目标对象的多个视频帧进行处 理得到的;
利用时序 特征提取网络模型对所述多个特征矩阵进行处理, 得到对应所述多个特征矩
阵的多个时序动作特征矩阵; 其中, 所述时序特征提取网络模 型中每一网络块中的网络层,
对前序特征矩阵进行融合重用和分组处理; 所述前序特征矩阵包括: 所述网络层对应的网
络块输入的特 征矩阵, 及排序在所述网络层前面的前序网络层输出的所述特 征矩阵;
通过所述多个时序动作特征矩阵, 确定出所述多个视频帧中的所述目标对象的动作识
别结果。
2.根据权利要求1所述的动作识别方法, 其特征在于, 所述利用时序特征提取网络模型
对所述多个特征矩阵进行处理, 得到对应所述多个特征矩阵的多个时序动作特征矩阵, 包
括:
利用第1个网络块中的每个网络层对所述多个特征矩阵, 及所述前序网络层输出的特
征矩阵进 行融合重用和分组处理, 得到所述第1个网络块输出的第1组 时序特征矩阵, 供第2
网络块进行处 理;
直至利用第m个网络块中的所述每个网络层对第m ‑1组时序特征矩阵, 及所述前序网络
层输出的特征矩阵进行融合重用和分组处理, 得到所述多个时序动作特征矩阵; 所述时序
特征提取网络模 型中包括: m个网络块; m为大于等于2的正整 数; 所述第m ‑1组时序特征矩阵
是第m‑1个网络块输出的特 征矩阵。
3.根据权利要求2所述的动作识别方法, 其特征在于, 所述直至利用第m个网络块中的
所述每个网络层对第m ‑1组时序特征矩阵, 及所述前序网络层输出 的特征矩阵进行融合重
用和分组 处理, 得到所述多个时序动作特 征矩阵, 包括:
利用第1个网络层对所述第m ‑1组时序特征矩阵进行分组卷积处理, 得到第1组特征矩
阵, 将所述第1组特征矩阵进行降维后, 与所述第m ‑1组时序特征矩阵融合, 得到第1组中间
特征矩阵, 供第2网络层进行处 理;
利用第i个网络层对第i ‑1组中间特征矩阵进行分组卷积处理, 得到第i组特征矩阵, 将
所述第i组特征矩阵进行降维后, 与所述第m ‑1组时序特征矩阵, 及前i ‑1组中间特征矩阵融
合, 得到第i组中间特征矩阵, 供第i+1个网络层进行处理; 所述前i ‑1组中间特征矩阵是前
i‑1个网络层分别输出的特征矩阵; 所述前序网络层包括: 所述前i ‑1个网络层; i为大于1小
于n的整数;
直至利用第 n个网络层对第n ‑1组中间特征矩阵进行分组卷积处理, 得到所述多个时序
动作特征矩阵; 所述第n ‑1组中间特征矩阵是第n ‑1个网络层输出的特征矩阵; 所述第m个网
络块中包括: n个网络层; n 为大于等于2的正整数。
4.根据权利要求3所述的动作识别方法, 其特征在于, 所述利用第 i个网络层对第i ‑1组
中间特征矩阵进 行分组卷积处理, 得到第i组特征矩阵, 将所述第i组特征矩阵进 行降维后,
与所述第 m‑1组时序特征矩阵, 及前i ‑1组中间特征矩阵融合, 得到第i组中间特征矩阵, 包
括:
利用所述第i个网络层中的各个卷积层对所述第i ‑1组中间特征矩阵进行分组卷积处
理, 得到所述第i组特 征矩阵;权 利 要 求 书 1/3 页
2
CN 114724249 A
2计算所述第m ‑1组时序特征矩阵及前i ‑1组中间特征矩阵组合后的矩阵, 将所述矩阵与
预定系数相乘后的得到目标矩阵;
对所述第i组特征矩阵按照第i+1网络层输入通道个数的一半进行降维后, 与所述目标
矩阵融合得到所述第i组中间特 征矩阵。
5.根据权利要求4所述的动作识别方法, 其特征在于, 所述各个卷积层包括: 第1卷积
层、 第2卷积层和第3卷积层;
所述利用所述第i个网络层中的各个卷积层对所述第i ‑1组中间特征矩阵进行分组卷
积处理, 得到所述第i组特 征矩阵, 包括:
利用所述第1卷积层对所述第i ‑1组中间特 征矩阵进行处 理, 得到多个第i待分组矩阵;
将所述多个第i待分组矩阵分为多个第i组矩阵, 利用所述第2卷积层分别对所述多个
第i组矩阵中的每组矩阵进行处 理, 得到对应所述每组矩阵的第i待融合特 征矩阵;
将多个第i待融合特征矩阵进行融合后, 利用所述第3卷积层进行处理, 得到所述第i组
特征矩阵。
6.根据权利要求1所述的动作识别方法, 其特征在于, 所述通过所述多个时序动作 特征
矩阵, 确定出 所述多个视频帧中的所述目标对象的动作识别结果, 包括:
对所述多个时序动作特 征矩阵进行池化和降维处 理, 得到多个中间时序特 征矩阵;
利用预设网络模型对所述多个中间时序特 征矩阵进行处 理, 得到最终时序特 征矩阵;
利用预设函数对所述 最终时序特 征矩阵, 进行处 理得到多个概 率值;
在匹配数据库中根据 所述多个概率值中的最大概率值的位 次, 确定出所述动作识别结
果; 所述匹配数据库预存有所述多个概率值的位次与对应的动作识别结果之间的映射信
息。
7.根据权利要求1所述的动作识别方法, 其特征在于, 所述对所获取的待测视频数据进
行处理, 得到多个特 征矩阵, 包括:
在获取的待测视频数据中, 按照时序特征提取出包含所述目标对象的所述多个视频
帧;
根据所述多个视频帧中的每个像素点对应预定色值空间的色值, 确定出多个色值矩
阵;
对所述多个色值矩阵进行归一 化、 卷积和池化处 理得到所述多个特 征矩阵。
8.一种动作识别装置, 其特 征在于, 包括:
处理单元, 用于对所获取的待测视频数据进行处理, 得到多个特征矩阵; 所述多个特征
矩阵是对预定时间段内包 含目标对象的多个视频帧进行处 理得到的;
所述处理单元, 还用于利用时序特征提取网络模型对所述多个特征矩阵进行处理, 得
到对应所述多个特征矩阵的多个时序动作特征矩阵; 其中, 所述时序特征提取网络模型中
每一网络块中的网络层, 对前序特征矩阵进行融合重用和分组处理; 所述前序特征矩阵包
括: 所述网络层对应的网络块输入的特征矩阵, 及排序在所述网络层前面的前序网络层输
出的所述特 征矩阵;
确定单元, 用于通过所述多个时序动作特征矩阵, 确定出所述多个视频帧中的所述目
标对象的动作识别结果。
9.一种动作识别装置, 其特征在于, 包括存储器和处理器, 所述存储器存储有可在处理权 利 要 求 书 2/3 页
3
CN 114724249 A
3
专利 动作识别方法、装置及存储介质
文档预览
中文文档
34 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共34页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:36:15上传分享