专利 动作定位模型的训练方法、装置及动作定位方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210423969.4 (22)申请日 2022.04.22 (65)同一申请的已公布的文献号申请公布号 CN 114550307 A (43)申请公布日 2022.05.27 (73)专利权人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人张天柱　张哲　张勇东　杨文飞　吴枫　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师吴梦圆 (51)Int.Cl. G06V 40/20(2022.01)G06V 10/774(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01) 审查员刘展 (54)发明名称动作定位模型的训练方法、装置及动作定位方法 (57)摘要本发明提供了一种动作定位模型的训练方法，包括：操作1，对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集；操作2，利用样本视频集和第一伪标签集对初始动作定位模型进行训练，得到第一动作定位模型；操作3，根据第一动作定位模型和当前前景特征更新第一伪标签集，得到第二伪标签集；操作 4，在确定第二伪标签集不满足预设条件的情况下，利用样本视频集和第二伪标签集对第一动作定位模型进行训练，得到第二动作定位模型；操作5，循环执行操作3和操作4以循环更新伪标签集，直到得到的第i伪标签集满足预设条件时，结束训练，得到最终动作定位模型。本发明还提供了一种动作定位模型的训练装置、动作定位方法。权利要求书3页说明书12页附图5页 CN 114550307 B 2022.09.09 CN 114550307 B 1.一种动作定位模型的训练方法，包括：操作1，对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集，其中，所述第一伪标签集包括与所述样本视频对应的伪标签；操作2，利用所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型；操作3，根据更新系数和当前前景特征更新所述第一伪标签集，得到第二伪标签集，其中，所述当前前景特征为在对所述初始动作定位模型训练过程中对所述样本视频进行处理得到的；操作4，在确定所述第二伪标签集不满足预设条件的情况下，利用所述样本视频集中样本视频的样本特征数据和所述第二伪标签集中的伪标签对所述第一动作定位模型进行训练，得到第二动作定位模型；操作5，循环执行操作3和操作4以循环更新伪标签集，直到得到的第i伪标签集满足所述预设条件时，结束训练，得到最终动作定位模型；其中，所述根据更新系数和当前前景特征更新所述第一伪标签集包括：根据所述更新系数和所述当前前景特征更新样本存储器和中心存储中的特征，得到更新后的前景特征和更新后的中心特征，其中，所述样本存储器用于存储与所述样本视频对应的历史前景特征，所述中心存储器用于存储与每个伪标签对应的历史中心特征；根据所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征更新所述第一伪标签集；其中，所述根据所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征更新所述第一伪标签集包括：将所述样本存储器中更新后的前景特征输入所述第一动作定位模型的分类器中，输出成本矩阵，其中，所述成本矩阵反映每个候选伪标签分配给所述样本视频的概率；利用所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征确定相似性矩阵，其中，所述相似性矩阵反映所述样本视频和所述中心特征之间的相似性；利用所述成本矩阵和所述相似性矩阵更新所述第一伪标签集。 2.根据权利要求1所述的方法，其中，所述预设条件包括在所述第i伪标签集中的伪标签与第i‑1伪标签集中的伪标签相同时，结束训练。 3.根据权利要求1所述的方法，还包括：在所述对样本视频集中样本视频的样本特征数据进行聚类分析之前，按照预设方式对所述样本视频进行划分，得到L个视频片段，其中， L≥1；将所述L个视频片段输入到预设的特征提取网络中，输出L个特征向量；将所述L个特征向量堆叠，得到与所述样本视频对应的样本特征数据。 4.根据权利要求3所述的方法，其中，所述利用所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型包括：将所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签输入所述初始动作定位模型，生成与所述样本视频对应的前景特征和背景特征；将所述前景特征和所述背景特征输入分类器，得到与所述前景特征对应的前景分类分权　利　要　求　书 1/3 页 2 CN 114550307 B 2数和与所述背景特征对应的背景分类分数；将所述前景分类分数、背景分类分数和与所述样本视频对应的伪标签输入损失函数，得到损失结果；根据所述损失结果调整所述初始动作定位模型的模型参数，得到训练后的所述第一动作定位模型。 5.一种动作定位方法，其中，所述方法基于如权利要求1至4任一项所述的训练方法训练得到的最终动作定位模型来实现；所述动作定位方法包括：将目标视频按照预设方式进行划分，得到K个视频片段，其中， K≥1；对所述K个视频片段进行特征提取，得到所述目标视频的特征数据；将所述目标视频的特征数据输入所述最终动作定位模型，输出伪标签概率矩阵和动作概率矩阵，其中，所述伪标签概率矩阵包括所述K个视频片段中每个视频片段属于每个伪标签的概率值，所述动作概率矩阵包括所述K个视频片段中每个视频片段属于动作片段的概率值；根据所述伪标签概率矩阵和所述动作概率矩阵确定与所述目标视频对应的动作定位结果。 6.根据权利要求5所述的方法，其中，所述根据所述伪标签概率矩阵和所述动作概率矩阵确定与所述目标视频对应的动作定位结果包括：根据第二预设阈值对所述动作概率矩阵进行二值化处理，得到二值化矩阵；根据所述二值化矩阵和预设合并规则合并所述视频片段，得到动作视频；根据与所述动作视频对应的视频片段和所述伪标签概率矩阵确定与所述动作视频对应的伪标签；根据所述动作视频和与所述动作视频对应的伪标签生成所述动作定位结果。 7.根据权利要求6所述的方法，其中，所述预设合并规则包括：将所述K个视频片段中属于动作片段的连续视频片段进行合并。 8.一种动作定位模型的训练装置，包括：聚类分析模块，用于对样本视频集中样本视频的样本特征数据进行聚类分析，得到第一伪标签集，其中，所述第一伪标签集包括与所述样本视频对应的伪标签；初始训练模块，用于利用所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签对初始动作定位模型进行训练，得到第一动作定位模型；更新模块，用于根据更新系数和当前前景特征更新所述第一伪标签集，得到第二伪标签集，其中，所述当前前景特征为在对所述初始动作定位模型训练过程中对所述样本视频进行处理得到的，其中，所述根据更新系数和当前前景特征更新所述第一伪标签集包括：根据所述更新系数和所述当前前景特征更新样本存储器和中心存储中的特征，得到更新后的前景特征和更新后的中心特征，其中，所述样本存储器用于存储与所述样本视频对应的历史前景特征，所述中心存储器用于存储与每个伪标签对应的历史中心特征；根据所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征更新所述第一伪标签集，其中，所述根据所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征更新所述第一伪标签集包括：将所述样本存储器中更新后的前景特征输入所述第一权　利　要　求　书 2/3 页 3 CN 114550307 B 3

专利 动作定位模型的训练方法、装置及动作定位方法

专利动作定位模型的训练方法、装置及动作定位方法