(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210423969.4
(22)申请日 2022.04.22
(65)同一申请的已公布的文献号
申请公布号 CN 114550307 A
(43)申请公布日 2022.05.27
(73)专利权人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 张天柱 张哲 张勇东 杨文飞
吴枫
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 吴梦圆
(51)Int.Cl.
G06V 40/20(2022.01)G06V 10/774(2022.01)
G06V 10/762(2022.01)
G06V 10/764(2022.01)
G06K 9/62(2022.01)
审查员 刘展
(54)发明名称
动作定位模 型的训练方法、 装置及动作定位
方法
(57)摘要
本发明提供了一种动作定位模型的训练方
法, 包括: 操作1, 对样本视频集中样本视频的样
本特征数据进行聚类分析, 得到第一伪标签集;
操作2, 利用 样本视频集和第一伪标签集对初始
动作定位模型进行训练, 得到第一动作定位模
型; 操作3, 根据第一动作定位模型和当前前景特
征更新第一伪标签集, 得到第二伪标签集; 操作
4, 在确定第二伪标签集不满足预设条件的情况
下, 利用样 本视频集和第二伪标签集对第一动作
定位模型进行训练, 得到第二动作定位模型; 操
作5, 循环执行操作3和操作4以循环更新伪标签
集, 直到得到的第i伪标签集满足预设条件时, 结
束训练, 得到最终动作定位模型。 本发明还提供
了一种动作定位模型的训练装置、 动作定位方
法。
权利要求书3页 说明书12页 附图5页
CN 114550307 B
2022.09.09
CN 114550307 B
1.一种动作定位模型的训练方法, 包括:
操作1, 对样本视频集中样本视频的样本特征数据进行聚类分析, 得到第一伪标签集,
其中, 所述第一伪标签集包括与所述样本 视频对应的伪标签;
操作2, 利用所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪
标签对初始动作定位模型进行训练, 得到第一动作定位模型;
操作3, 根据更新系数和当前前景特征更新所述第一伪标签集, 得到第二伪标签集, 其
中, 所述当前前景特征为在 对所述初始动作定位模型训练过程中对所述样本视频进行 处理
得到的;
操作4, 在确定所述第二伪标签集不满足预设条件的情况下, 利用所述样本视频集中样
本视频的样本特征数据和所述第二伪标签集中的伪标签对所述第一动作定位模型进行训
练, 得到第二动作定位模型;
操作5, 循环执行操作3和操作4以循环更新伪标签集, 直到得到的第i伪标签集满足所
述预设条件时, 结束训练, 得到最终动作定位模型;
其中, 所述 根据更新系数和当前 前景特征更新所述第一伪标签集包括:
根据所述更新系数和所述当前前景特征更新样本存储器和中心存储中的特征, 得到更
新后的前景特征和更新后的中心特征, 其中, 所述样本存储器用于存储与所述样本视频对
应的历史前 景特征, 所述中心存 储器用于存 储与每个伪标签对应的历史中心特 征;
根据所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征更
新所述第一伪标签集;
其中, 所述根据 所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中
心特征更新所述第一伪标签集包括:
将所述样本存储器中更新后的前景特征输入所述第 一动作定位模型的分类器中, 输出
成本矩阵, 其中, 所述成本矩阵反映每 个候选伪标签分配给 所述样本 视频的概 率;
利用所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中心特征确
定相似性矩阵, 其中, 所述相似性矩阵反映所述样本 视频和所述中心特 征之间的相似性;
利用所述成本矩阵和所述相似性矩阵更新所述第一伪标签集。
2.根据权利要求1所述的方法, 其中, 所述预设条件包括在所述第i伪标签集中的伪标
签与第i‑1伪标签集中的伪标签相同时, 结束训练。
3.根据权利要求1所述的方法, 还 包括:
在所述对样本视频集中样本视频的样本特征数据进行聚类分析之前, 按照预设方式对
所述样本 视频进行划分, 得到L个视频片段, 其中, L≥1;
将所述L个视频片段输入到预设的特 征提取网络中, 输出L个特 征向量;
将所述L个特征向量堆叠, 得到与所述样本 视频对应的样本特 征数据。
4.根据权利要求3所述的方法, 其中, 所述利用所述样本视频集中样本视频的样本特征
数据和所述第一伪标签集中的伪标签对初始动作定位模型进 行训练, 得到第一动作定位模
型包括:
将所述样本视频集中样本视频的样本特征数据和所述第一伪标签集中的伪标签输入
所述初始动作定位模型, 生成与所述样本 视频对应的前 景特征和背景 特征;
将所述前景特征和所述背景特征输入分类器, 得到与 所述前景特征对应的前景分类分权 利 要 求 书 1/3 页
2
CN 114550307 B
2数和与所述背景 特征对应的背景分类分数;
将所述前景分类分数、 背景分类分数和与所述样本视频对应的伪标签输入损 失函数,
得到损失结果;
根据所述损失结果调整所述初始动作定位模型的模型参数, 得到训练后的所述第 一动
作定位模型。
5.一种动作定位方法, 其中, 所述方法基于如权利要求1至4任一项所述的训练方法训
练得到的最终动作定位模型来实现;
所述动作定位方法包括:
将目标视频按照预设方式进行划分, 得到K个视频片段, 其中, K≥1;
对所述K个视频片段进行 特征提取, 得到所述目标视频的特 征数据;
将所述目标视频的特征数据输入所述最终动作定位模型, 输出伪标签概率矩阵和动作
概率矩阵, 其中, 所述伪标签概率矩阵包括所述K个视频片段中每个视频片段属于每个伪标
签的概率值, 所述动作概率矩阵包括所述K个视频片段中每个视频片段属于动作片段的概
率值;
根据所述伪标签概率矩阵和所述动作概率矩阵确定与所述目标视频对应的动作定位
结果。
6.根据权利要求5所述的方法, 其中, 所述根据所述伪标签概率矩阵和所述动作概率矩
阵确定与所述目标视频对应的动作定位结果包括:
根据第二预设阈值对所述动作概 率矩阵进行二 值化处理, 得到二 值化矩阵;
根据所述 二值化矩阵和预设合并规则合并所述视频片段, 得到动作视频;
根据与所述动作视频对应的视频片段和所述伪标签概率矩阵确定与所述动作视频对
应的伪标签;
根据所述动作视频和与所述动作视频对应的伪标签生成所述动作定位结果。
7.根据权利要求6所述的方法, 其中, 所述预设合并规则包括: 将所述K个视频片段中属
于动作片段的连续视频片段进行合并。
8.一种动作定位模型的训练装置, 包括:
聚类分析模块, 用于对样本视频集中样本视频的样本特征数据进行聚类分析, 得到第
一伪标签集, 其中, 所述第一伪标签集包括与所述样本 视频对应的伪标签;
初始训练模块, 用于利用所述样本视频集中样本视频的样本特征数据和所述第 一伪标
签集中的伪标签对初始动作定位模型进行训练, 得到第一动作定位模型;
更新模块, 用于根据更新系数和当前前景特征更新所述第一伪标签集, 得到第二伪标
签集, 其中, 所述当前前景特征为在对所述初始动作定位模型训练过程中对所述样本视频
进行处理得到的, 其中, 所述根据更新系数和当前前景特征更新所述第一伪标签集包括: 根
据所述更新系数和所述当前前景特征更新样本存储器和中心存储中的特征, 得到更新后的
前景特征和更新后的中心特征, 其中, 所述样本存储器用于存储与所述样本视频对应的历
史前景特征, 所述中心存储器用于存储与每个伪标签对应的历史中心特征; 根据所述样本
存储器中更新后的前景特征和所述中心存储器中更新后的中心特征更新所述第一伪标签
集, 其中, 所述根据所述样本存储器中更新后的前景特征和所述中心存储器中更新后的中
心特征更新所述第一伪标签集包括: 将所述样本存储器中更新后的前景特征输入所述第一权 利 要 求 书 2/3 页
3
CN 114550307 B
3
专利 动作定位模型的训练方法、装置及动作定位方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:35:00上传分享