(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210543347.5
(22)申请日 2022.05.19
(71)申请人 中科南京软件技 术研究院
地址 211135 江苏省南京市江宁区麒 麟科
创园创研 路266号人工智能产业园4号
楼11楼
(72)发明人 孟令中 薛云志 高卉 戴非凡
龚优迪
(74)专利代理 机构 南京钟山专利代理有限公司
32252
专利代理师 戴朝荣
(51)Int.Cl.
G06V 10/762(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
图像数据集有效性评估方法、 装置、 设备及
存储介质
(57)摘要
本发明提供了一种图像数据集有效性评估
方法、 装置、 设备及存储介质, 属于人工智能技术
领域。 其中方法包括: 获取图像数据集; 采用图像
数据集中的样本数据训练自编码模 型, 得到训练
后的编码模 型; 按照样本数据的标签对图像数据
集进行分类, 得到至少一类样本数据; 采用训练
后的编码模型处理目标类样本数据中每个样本
数据, 得到目标类样本数据中每个样本数据的特
征向量; 基于目标类样本数据中所有样本数据的
特征向量, 获取目标类样本数据中的无效样本数
据; 统计至少一类样本数据中的无效样本数据,
得到图像数据集的有效性度量值。 本发明提供了
无效样本数据的筛选方式和图像数据集有效性
的评估方式, 实现了准确评估图像数据集有效
性。
权利要求书3页 说明书15页 附图2页
CN 114782731 A
2022.07.22
CN 114782731 A
1.一种图像数据集有效性评估方法, 其特 征在于, 包括:
获取图像数据集, 所述图像数据集包括多个样本数据以及样本数据的标签;
采用所述图像数据集中的样本数据训练自编码模型, 得到训练后的编码模型; 其中, 所
述自编码模型包括编码模型和解码模型;
按照样本数据的标签对所述图像数据集进行分类, 得到 至少一类样本数据;
针对所述至少一类样本数据中的目标类样本数据, 采用所述训练后的编码模型处理所
述目标类样本数据中每个样本数据, 得到所述目标类样本数据中每个样本数据的特征向
量;
基于所述目标类样本数据中所有样本数据的特征向量, 获取所述目标类样本数据中的
无效样本数据; 其中, 所述无效样本数据是指对所属类别样本数据的属 性特征提取没有贡
献的样本数据;
统计所述至少一类样本数据中的无效样本数据, 得到所述图像数据集的有效性度量
值, 所述有效性度量 值用于指示所述图像数据集有效性。
2.根据权利要求1所述的图像数据集有 效性评估方法, 其特征在于, 所述基于所述目标
类样本数据中所有样本数据的特征向量, 获取所述 目标类样本数据中的无效样本数据, 包
括:
基于所述目标类样本数据中所有样本数据的特征向量, 确定所述目标类样本数据的特
征中心点;
计算所述目标类样本数据中每 个样本数据的特 征向量与所述特 征中心点之间的距离;
基于所述目标类样本数据中所有样本数据的特征向量与 所述特征中心点之间的距离,
从所述目标类样本数据中筛 选所述无效样本数据。
3.根据权利要求2所述的图像数据集有 效性评估方法, 其特征在于, 所述基于所述目标
类样本数据中所有样本数据的特征向量与所述特征中心 点之间的距离, 从所述目标类样本
数据中筛 选所述无效样本数据, 包括:
对所述目标类样本数据中所有样本数据的特征向量与所述特征中心点之间的距离进
行排序, 得到所有距离排序;
以特征中心点 为参考, 将所有距离排序中wu位点处的距离确定为距离阈值hu;
计算所述所有距离排序中小于所述距离阈值hu的最大距离与所述距离阈值hu之间的差
值, 得到相邻距离 差值;
以所述相邻距离 差值的目标倍数为 步长, 增大 所述距离阈值hu, 得到距离阈值hu+1;
计算所述距离阈值hu+1内的距离在所有距离中的占比wu+1;
在所述占比wu+1与wu之间的差值小于或等于目标差值的情况下, 将距离阈值hu+1确定为
目标距离阈值; 将所有距离排序中大于所述目标距离阈值的距离对应的样本数据确定为无
效样本数据;
在所述占比wu+1与wu之间的差值大于目标差值的情况下, 令u=u+1, 并从以特征中心点为
参考, 将所有距离排序中wu位点处的距离确定为距离阈值hu的步骤开始再次执 行。
4.根据权利要求2所述的图像数据集有 效性评估方法, 其特征在于, 所述基于所述目标
类样本数据中所有样本数据的特征向量与所述特征中心 点之间的距离, 从所述目标类样本
数据中筛 选所述无效样本数据, 包括:权 利 要 求 书 1/3 页
2
CN 114782731 A
2获取所述目标类样本数据中样本数据的总数;
在所述目标类样本数据中样本数据的总数大于或等于样本数量阈值的情况下, 将所有
距离中大于第一距离阈值的距离对应的样本数据确定为所述无效样本数据;
在所述目标类样本数据中样本数据的总数小于样本数量阈值的情况下, 将所有距离中
大于第二距离阈值的距离对应的样本数据确定为所述无效样本数据; 其中, 所述第一距离
阈值小于所述第二距离阈值。
5.根据权利要求1至4任一项所述的图像数据集有效性评估方法, 其特征在于, 所述统
计所述至少一类样本数据中的无效样本数据, 得到所述图像数据集的有效性度量 值, 包括:
对所述至少一类样本数据中的无效样本数据的数量进行求和处理, 得到无效样本数据
的总数;
基于所述无效样本数据的总数和所述图像数据集中样本数据的总数, 计算所述有效性
度量值。
6.根据权利要求1至4任一项所述的图像数据集有效性评估方法, 其特征在于, 所述统
计所述至少一类样本数据中的无效样本数据, 得到所述图像数据集的有效性度量 值, 包括:
获取第一无效总数和第 二无效总数, 所述第 一无效总数是指样本数据的总数大于或等
于样本数量阈值的样本数据类别中无效样本数据的总数, 所述第二无效总数是指样本数据
的总数小于样本数量阈值的样本数据类别中无效样本数据的总数;
获取第一置信度和第二置信度, 所述第一置信度对应于所述第一无效总数, 所述第二
置信度对应于所述第二无效总数; 其中, 所述第一置信度大于所述第二置信度, 且所述第一
置信度与所述第二置信度之和等于1;
基于所述第 一无效总数、 所述第 二无效总数、 所述第 一置信度、 所述第 二置信度以及所
述图像数据集中样本数据的总数, 计算所述有效性度量 值。
7.根据权利要求1至4任一项所述的图像数据集有效性评估方法, 其特征在于, 所述统
计所述至少一类样本数据中的无效样本数据, 得到所述图像数据集的有效性度量 值, 包括:
获取所述至少一类样本数据中与 所述图像数据集的应用任务相匹配的样本数据类别,
得到任务匹配样本数据类别;
获取目标无效总数和其余无效总数, 所述目标无效总数是指所述任务匹配样本数据类
别中无效样本数据的总数, 所述其余无效总数是指所述图像数据集中除所述任务匹配样本
数据类别之外的样本数据的总数;
基于所述目标无效总数、 所述其余无效总数和所述图像数据集中样本数据的总数, 计
算所述有效性度量 值。
8.一种图像数据集有效性评估 装置, 其特 征在于, 包括:
第一获取模块, 用于获取图像数据集, 所述图像数据集包括多个样本数据以及样本数
据的标签;
训练模块, 用于采用所述图像数据集中的样本数据训练自编码模型, 得到训练后的编
码模型; 其中, 所述自编码模型包括编码模型和解码模型;
分类模块, 用于按照样本数据的标签对所述图像数据集进行分类, 得到至少一类样本
数据;
处理模块, 用于针对所述至少一类样本数据中的目标类样本数据, 采用所述训练后的权 利 要 求 书 2/3 页
3
CN 114782731 A
3
专利 图像数据集有效性评估方法、装置、设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:35:12上传分享