(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210340191.0
(22)申请日 2022.04.02
(65)同一申请的已公布的文献号
申请公布号 CN 114444619 A
(43)申请公布日 2022.05.06
(73)专利权人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 李硕 许晓文 聂磊
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 杨静
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 20/00(2019.01)G06V 10/774(2022.01)
G06V 10/762(2022.01)
(56)对比文件
CN 110705602 A,2020.01.17
CN 109242106 A,2019.01.18
CN 112784893 A,2021.0 5.11
US 2011317927 A1,201 1.12.29
CN 112784981 A,2021.0 5.11
审查员 焦月
(54)发明名称
样本生成方法、 训练方法、 数据处理方法以
及电子设备
(57)摘要
本发明提供了一种样本生成方法、 训练方
法、 数据处理方法以及电子设备, 涉及人工智能
技术领域, 尤其涉及工业安全、 数据挖掘、 计算机
视觉和深度学习技术领域。 具体实现方案为: 根
据第一样本集, 得到样本表征向量集, 其中, 第一
样本集包括多个样本, 样本未被确定类别; 根据
样本表征向量集, 对第一样本集进行聚类, 得到
至少一个聚类样本集; 根据至少一个聚类样本
集, 生成显著样本数据集。
权利要求书5页 说明书18页 附图8页
CN 114444619 B
2022.07.26
CN 114444619 B
1.一种样本生成方法, 包括:
根据第一样本集, 得到样本表征向量集, 其中, 所述第一样本集包括多个样本, 所述样
本未被确定类别;
根据所述样本表征向量集, 对所述第 一样本集进行聚类, 得到至少一个聚类样本集; 以
及
根据所述至少一个聚类样本集, 生成显著样本集;
其中, 所述显著样本集包括至少一个显著样本;
所述方法还 包括:
针对所述显著样本,
在根据所述显著样本的样本表征向量和与历史样本集包括的历史显著样本集对应的
样本表征向量集, 确定所述历史显著样本集中存在与所述显著样本相匹配的匹配样本的情
况下, 将与所述显著样本对应的聚类样本集和与所述匹配样本对应的聚类样本集进行合
并; 以及
在根据所述显著样本的样本表征向量和与所述历史样本集包括的历史显著样本集对
应的样本表征向量集, 确定所述历史显著样本集中不存在与所述显著样本相匹配的匹配样
本的情况下, 将所述显著样本确定为新的历史显著样本, 以及将与所述显著样本对应的聚
类样本集添加至所述历史样本集。
2.根据权利要求1所述的方法, 其中, 所述根据第一样本集, 得到样本表征向量集, 包
括:
利用表征模型处理所述第 一样本集, 得到所述样本表征向量集, 其中, 所述表征模型是
基于损失函数, 根据正样本的样本表征向量和与所述正样本对应的多个负样本的样本表征
向量训练自监督模型得到的, 所述多个负样本是从与所述正样本对应的多个候选负样本中
确定的。
3.根据权利要求2所述的方法, 其中, 所述多个负样本是从与 所述正样本对应的多个候
选负样本中确定的, 包括:
与所述正样本对应的多个负样本是根据所述正样本的表征向量和与所述正样本对应
的多个候选负 样本的表征向量, 从所述多个候选负 样本中确定的;
其中, 所述 正样本的样本表征向量是利用所述自监 督模型处 理所述正样本得到的;
其中, 所述负 样本的样本表征向量是利用所述自监 督模型处 理所述负 样本得到的。
4.根据权利要求2或3所述的方法, 其中, 所述显著样本集包括至少一个显著样本;
所述方法还 包括:
根据所述显著样本, 从与所述显著样本对应的聚类样本集中确定异常样本集, 以便利
用所述显著样本集和所述异常样本集对所述表征模型进行优化, 其中, 所述异常样本集包
括的异常样本的类别与所述显著样本的类别不同。
5. 根据权利要求4所述的方法, 其中, 所述根据 所述显著样本, 从与所述显著样本对应
的聚类样本集中确定异常样本集, 包括:
响应于检测到针对所述显著样本的标记操作, 显示与所述显著样本对应的聚类样本
集; 以及
从与所述显著样本对应的聚类样本集中确定与 所述显著样本的类别不同的样本, 得到权 利 要 求 书 1/5 页
2
CN 114444619 B
2所述异常样本集。
6.根据权利要求1或2所述的方法, 其中, 所述根据 所述样本表征向量集, 对所述第一样
本集进行聚类, 得到 至少一个聚类样本集, 包括:
利用基于密度的聚类算法, 根据所述样本表征向量集, 得到所述至少一个聚类样本集,
其中, 所述聚类样本集具有聚类样本中心, 所述聚类样本集包括至少一个聚类样本;
其中, 所述 根据所述至少一个聚类样本集, 确定 显著样本集, 包括:
将所述聚类样本中心确定为所述显著样本 。
7.根据权利要求6所述的方法, 其中, 所述利用基于密度的聚类算法, 根据所述样本表
征向量集, 得到所述至少一个聚类样本集, 包括:
利用所述基于密度的聚类算法, 根据所述样本表征向量集, 得到至少一个初始聚类样
本集, 其中, 所述初始聚类样本集具有初始聚类样本中心;
在确定存在偏离样本的情况 下,
根据所述偏离样本的样本表征向量和与至少一个所述初始聚类样本中心对应的样本
表征向量, 确定与所述偏离样本对应的初始聚类样本集, 得到更新后的初始聚类样本集; 以
及
根据与待重聚类样本集对应的样本表征向量集, 对所述待重聚类样本集进行聚类, 得
到与所述待重聚类样本集对应的至少一个聚类样本集, 其中, 所述待重聚类样本集包括以
下至少一项: 所述更新后的初始 聚类样本集和至少一个其他聚类样本集, 所述其他聚类样
本集是所述至少一个初始 聚类样本集中除所述更新后的初始 聚类样本集以外的初始 聚类
样本集。
8. 根据权利要求1所述的方法, 还 包括:
根据所述显著样本的样本表征向量和与所述历史样本集包括的历史显著样本集对应
的样本表征向量集, 确定所述显著样本与所述历史显著样本集包括的至少一个历史显著样
本之间的距离, 得到 至少一个距离; 以及
根据所述至少一个距离, 确定所述历史显著样本集中是否存在与所述显著样本相匹配
的匹配样本 。
9.根据权利要求1或2所述的方法, 其中, 所述样本包括以下一项: 样本图像、 样本文本
和样本音频。
10.一种深度学习模型的训练方法, 包括:
将显著样本 输入所述深度学习模型, 得到 输出值;
根据所述输出值和所述显著样本的标签值, 确定损失函数值; 以及
根据所述损失函数值调整所述深度学习模型的模型参数, 得到经训练的深度学习模
型,
其中, 所述显著样本数据是根据权利要求1~9中任一项所述的方法生成的。
11.根据权利要求10所述的方法, 还 包括:
在根据与所述显著样本对应的输出值和标签值确定所述显著样本是错误样本的情况
下, 根据错误样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征
向量集, 从所述历史样本集中确定与所述错误样本对应的相似样本集, 以便利用所述相似
样本集执 行针对所述经训练的深度学习模型的训练操作。权 利 要 求 书 2/5 页
3
CN 114444619 B
3
专利 样本生成方法、训练方法、数据处理方法以及电子设备
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:37:02上传分享