专利 动作识别方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210418986.9 (22)申请日 2022.04.20 (71)申请人北京沃东天骏信息技术有限公司地址 100176 北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司 (72)发明人张志伟　 (74)专利代理机构北京派特恩知识产权代理有限公司 1 1270 专利代理师钟舒婷　蒋雅洁 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称动作识别方法、装置及存储介质 (57)摘要本发明提供了一种动作识别方法、装置及存储介质，方法包括：通过对所获取的待测视频数据进行处理，得到多个特征矩阵；多个特征矩阵是对包含目标对象的多个视频帧进行处理得到的；利用时序特征提取网络模型对多个特征矩阵进行处理，得到对应多个特征矩阵的多个时序动作特征矩阵；其中，时序特征提取网络模型中每一网络块中的网络层，对前序特征矩阵进行融合重用和分组处理；所述前序特征矩阵包括：网络层对应的网络块输入的特征矩阵，及排序在所述网络层前面的前序网络层输出的所述特征矩阵；通过多个时序动作特征矩阵，确定出多个视频帧中的目标对象的动作识别结果。本方案可以减少计算资源的占用，同时也提高了识别精度。权利要求书3页说明书16页附图14页 CN 114724249 A 2022.07.08 CN 114724249 A 1.一种动作识别方法，其特征在于，包括：对所获取的待测视频数据进行处理，得到多个特征矩阵；所述多个特征矩阵是对预定时间段内包含目标对象的多个视频帧进行处理得到的；利用时序特征提取网络模型对所述多个特征矩阵进行处理，得到对应所述多个特征矩阵的多个时序动作特征矩阵；其中，所述时序特征提取网络模型中每一网络块中的网络层，对前序特征矩阵进行融合重用和分组处理；所述前序特征矩阵包括：所述网络层对应的网络块输入的特征矩阵，及排序在所述网络层前面的前序网络层输出的所述特征矩阵；通过所述多个时序动作特征矩阵，确定出所述多个视频帧中的所述目标对象的动作识别结果。 2.根据权利要求1所述的动作识别方法，其特征在于，所述利用时序特征提取网络模型对所述多个特征矩阵进行处理，得到对应所述多个特征矩阵的多个时序动作特征矩阵，包括：利用第1个网络块中的每个网络层对所述多个特征矩阵，及所述前序网络层输出的特征矩阵进行融合重用和分组处理，得到所述第1个网络块输出的第1组时序特征矩阵，供第2 网络块进行处理；直至利用第m个网络块中的所述每个网络层对第m ‑1组时序特征矩阵，及所述前序网络层输出的特征矩阵进行融合重用和分组处理，得到所述多个时序动作特征矩阵；所述时序特征提取网络模型中包括： m个网络块； m为大于等于2的正整数；所述第m ‑1组时序特征矩阵是第m‑1个网络块输出的特征矩阵。 3.根据权利要求2所述的动作识别方法，其特征在于，所述直至利用第m个网络块中的所述每个网络层对第m ‑1组时序特征矩阵，及所述前序网络层输出的特征矩阵进行融合重用和分组处理，得到所述多个时序动作特征矩阵，包括：利用第1个网络层对所述第m ‑1组时序特征矩阵进行分组卷积处理，得到第1组特征矩阵，将所述第1组特征矩阵进行降维后，与所述第m ‑1组时序特征矩阵融合，得到第1组中间特征矩阵，供第2网络层进行处理；利用第i个网络层对第i ‑1组中间特征矩阵进行分组卷积处理，得到第i组特征矩阵，将所述第i组特征矩阵进行降维后，与所述第m ‑1组时序特征矩阵，及前i ‑1组中间特征矩阵融合，得到第i组中间特征矩阵，供第i+1个网络层进行处理；所述前i ‑1组中间特征矩阵是前 i‑1个网络层分别输出的特征矩阵；所述前序网络层包括：所述前i ‑1个网络层； i为大于1小于n的整数；直至利用第 n个网络层对第n ‑1组中间特征矩阵进行分组卷积处理，得到所述多个时序动作特征矩阵；所述第n ‑1组中间特征矩阵是第n ‑1个网络层输出的特征矩阵；所述第m个网络块中包括： n个网络层； n 为大于等于2的正整数。 4.根据权利要求3所述的动作识别方法，其特征在于，所述利用第 i个网络层对第i ‑1组中间特征矩阵进行分组卷积处理，得到第i组特征矩阵，将所述第i组特征矩阵进行降维后，与所述第 m‑1组时序特征矩阵，及前i ‑1组中间特征矩阵融合，得到第i组中间特征矩阵，包括：利用所述第i个网络层中的各个卷积层对所述第i ‑1组中间特征矩阵进行分组卷积处理，得到所述第i组特征矩阵；权　利　要　求　书 1/3 页 2 CN 114724249 A 2计算所述第m ‑1组时序特征矩阵及前i ‑1组中间特征矩阵组合后的矩阵，将所述矩阵与预定系数相乘后的得到目标矩阵；对所述第i组特征矩阵按照第i+1网络层输入通道个数的一半进行降维后，与所述目标矩阵融合得到所述第i组中间特征矩阵。 5.根据权利要求4所述的动作识别方法，其特征在于，所述各个卷积层包括：第1卷积层、第2卷积层和第3卷积层；所述利用所述第i个网络层中的各个卷积层对所述第i ‑1组中间特征矩阵进行分组卷积处理，得到所述第i组特征矩阵，包括：利用所述第1卷积层对所述第i ‑1组中间特征矩阵进行处理，得到多个第i待分组矩阵；将所述多个第i待分组矩阵分为多个第i组矩阵，利用所述第2卷积层分别对所述多个第i组矩阵中的每组矩阵进行处理，得到对应所述每组矩阵的第i待融合特征矩阵；将多个第i待融合特征矩阵进行融合后，利用所述第3卷积层进行处理，得到所述第i组特征矩阵。 6.根据权利要求1所述的动作识别方法，其特征在于，所述通过所述多个时序动作特征矩阵，确定出所述多个视频帧中的所述目标对象的动作识别结果，包括：对所述多个时序动作特征矩阵进行池化和降维处理，得到多个中间时序特征矩阵；利用预设网络模型对所述多个中间时序特征矩阵进行处理，得到最终时序特征矩阵；利用预设函数对所述最终时序特征矩阵，进行处理得到多个概率值；在匹配数据库中根据所述多个概率值中的最大概率值的位次，确定出所述动作识别结果；所述匹配数据库预存有所述多个概率值的位次与对应的动作识别结果之间的映射信息。 7.根据权利要求1所述的动作识别方法，其特征在于，所述对所获取的待测视频数据进行处理，得到多个特征矩阵，包括：在获取的待测视频数据中，按照时序特征提取出包含所述目标对象的所述多个视频帧；根据所述多个视频帧中的每个像素点对应预定色值空间的色值，确定出多个色值矩阵；对所述多个色值矩阵进行归一化、卷积和池化处理得到所述多个特征矩阵。 8.一种动作识别装置，其特征在于，包括：处理单元，用于对所获取的待测视频数据进行处理，得到多个特征矩阵；所述多个特征矩阵是对预定时间段内包含目标对象的多个视频帧进行处理得到的；所述处理单元，还用于利用时序特征提取网络模型对所述多个特征矩阵进行处理，得到对应所述多个特征矩阵的多个时序动作特征矩阵；其中，所述时序特征提取网络模型中每一网络块中的网络层，对前序特征矩阵进行融合重用和分组处理；所述前序特征矩阵包括：所述网络层对应的网络块输入的特征矩阵，及排序在所述网络层前面的前序网络层输出的所述特征矩阵；确定单元，用于通过所述多个时序动作特征矩阵，确定出所述多个视频帧中的所述目标对象的动作识别结果。 9.一种动作识别装置，其特征在于，包括存储器和处理器，所述存储器存储有可在处理权　利　要　求　书 2/3 页 3 CN 114724249 A 3

专利 动作识别方法、装置及存储介质

专利动作识别方法、装置及存储介质