专利 基于时空图的人体骨骼动作识别方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210424128.5 (22)申请日 2022.04.22 (65)同一申请的已公布的文献号申请公布号 CN 114550308 A (43)申请公布日 2022.05.27 (73)专利权人成都信息工程大学地址 610225 四川省成都市双流区西南航空港经济开发区学府路一段24 号 (72)发明人邹茂扬　万辉帆　潘光晖　 (74)专利代理机构西安正华恒远知识产权代理事务所(普通合伙) 61271 专利代理师陈选中 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/42(2022.01)G06V 10/44(2022.01) G06V 10/77(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113657349 A,2021.1 1.16 CN 112395945 A,2021.02.23 审查员罗帅 (54)发明名称基于时空图的人体骨骼动作识别方法 (57)摘要本发明公开了一种基于时空图的人体骨骼动作识别方法，包括以下步骤： S1、获取骨骼数据，并对所述骨骼数据进行预处理，得到二阶数据信息； S2、将二阶数据信息输入多分支网络，得到骨骼数据提取信息； S3、将骨骼数据提取信息输入时空特征提取网络，得到骨骼数据的时空特征信息； S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层，得到置信度最高的动作，完成人体骨骼动作识别。本发明设计了时空图模块引入Transformer结构，可以更好捕捉若干帧内全局的时空关系，利用其注意力机制自适应的学习跨帧节点间关联性的强度，并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充，从而使得信息能够直接的跨时空交流。权利要求书3页说明书10页附图4页 CN 114550308 B 2022.07.05 CN 114550308 B 1.一种基于时空图的人体骨骼动作识别方法，其特征在于，包括以下步骤： S1、获取骨骼数据，并对所述骨骼数据进行预处理，得到二阶数据信息； S2、将二阶数据信息输入多分支网络，得到骨骼数据提取信息； S3、将骨骼数据提取信息输入时空特征提取网络，得到骨骼数据的时空特征信息； S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层，得到置信度最高的动作，完成人体骨骼动作识别；所述步骤S1中，二阶数据信息包括节点位置信息、运动向量信息和骨骼信息；所述步骤S1包括以下分步骤： S11、通过人体姿态估计算法或深度摄像头获取骨骼数据，进而根据骨骼数据构建时空图； S12、将时空图每帧中的节点位置信息减去其中心节点位置信息，得到节点相对位置信息； S13、将时空图相邻两帧的节点位置信息相减，得到运动向量信息； S14、基于时空图每帧中相互连接节点构成的骨骼边，通过计算相连接的两节点位置得到骨骼边信息；所述步骤S2中，多分支网络包括三个并行的分支网络，每个分支网络均包括两个相互连接的STGCN子网络，所述STGCN子网络包括依次连接的图卷积模块、时间卷积模块和时空点注意力模块；所述步骤S2具体为：将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中，进而将三个分支网络的输出结果进行拼接，得到骨骼数据提取信息；其中，所述节点位置信息、运动向量信息和骨骼信息的表示形式具体为时空图的三维矩阵；R为三维矩阵， C为每个所述分支网络输入数据的通道数；每个分支网络的输出结果表示形式具体为，D为每个所述分支网络输出数据的通道数；骨骼数据提取信息的表示形式具体为；所述步骤S3中，时空特征提取网络包括三个依次连接的STGT子网络，每个所述STGT子网络均通过残差连接，每个所述STGT子网络均包括依次连接的时空图模块、多尺度混合自卷积模块和时空点注意力模块；所述时空图模块用于提取输入数据混合时空特征信息，所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息；所述时空图模块包括并行的跨时空子模块和图卷积子模块；所述跨时空子模块用于提取输入数据的全局跨时空特征信息，所述图卷积子模块用于提取输入数据的局部空间特征信息；所述时空图模块获取输入数据混合时空特征信息的方法具体为： SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息； SA2、通过图卷积子模块提取输入数据的局部空间特征信息； SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合，得到输入数据混合时空特征信息；权　利　要　求　书 1/3 页 2 CN 114550308 B 2所述步骤SA1包括以下分步骤： SA11、将输入数据通过1*1的标准卷积进行特征映射到高维空间，得到第一特征图；其中，第一特征图； SA12、将特征图在时间维度进行分割展开成 N个第二特征图，得到第二特征图；其中，第二特征图，为第二特征图中包括的帧数； SA13、将每个第二特征图进行展平并转置，得到第三特征图；其中，第三特征图且，Ｑ为第三特征图的所有帧中包含的节点数； SA14、通过 Transformer 编码公式捕捉第三特征图的跨时空关系，得到第四特征图；其中，得到第四特征图的表达式具体为：式中，Transformer 为Transformer 编码公式， n为特征图的序号； SA15、将第四特征图合并，得到第五特征图，并将第五特征图通过 1*1的标准卷积进行跨通道信息交互，得到输入数据的全局跨时空特征信息；所述步骤SA2中，通过图卷积子模块提取输入数据的局部空间结构信息的表达式具体为：式中，为输入数据的第 t帧内第i节点，为输入特性向量，为输出特性向量，为包含节点的邻居节点集，为映射函数，为权值函数，为邻居节点集的总数；所述多尺度混合自卷积模块提取输入数据中连续帧间节点的上下文特征信息方法具体为： SB1、将输入数据通过1*1的标准卷积进行处理，并输出的结果分别通过1*9卷积核的自然卷积和1* 5卷积核的自然卷积，分别得到输出特征Y1和输出特征Y2；其中，所述输出特征，输出特征； SB2、将输出特征Y1和输出特征Y2进行特征融合，得到输出特征Z；权　利　要　求　书 2/3 页 3 CN 114550308 B 3

专利 基于时空图的人体骨骼动作识别方法

专利基于时空图的人体骨骼动作识别方法