(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210063646.9
(22)申请日 2022.01.20
(71)申请人 中山大学
地址 510275 广东省广州市海珠区新港西
路135号
(72)发明人 王瑞轩 钟哲灏
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
代理人 李斌
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/776(2022.01)
G06V 10/82(2022.01)
G06V 10/74(2022.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种数据有限和不平衡的语义软标签图像
识别方法及装置
(57)摘要
本发明公开了一种数据有限和不平衡的语
义软标签图像识别方法及装置, 方法包括: 构建
语义软标签图像识别模型; 在大规模文本数据集
上对自监督网络进行预训练, 获得词嵌入模块;
利用词嵌入模块, 对训练数据集中的每个类别,
生成对应的软标签; 将训练数据集输入特征提取
器中获取特征向量, 使用对应软标签来指导训
练, 得到训练好的语义软标签图像识别模型; 将
测试数据集输入训练好的语义软标签图像识别
模型中进行测试, 获得图像识别结果。 本方法通
过在大规模文本数据集上训练词嵌入模块, 并利
用其对数据集的每个类生成对应的包含丰富语
义信息的软标签, 在数据有限和不平衡的情况
下, 帮助训练得到泛化性能强的图像识别模型,
提高了识别性能。
权利要求书2页 说明书9页 附图3页
CN 114419394 A
2022.04.29
CN 114419394 A
1.一种数据有限和不平衡的语义软 标签图像识别方法, 其特 征在于, 包括下述 步骤:
构建语义软标签图像识别模型; 所述语义软标签图像识别模型包括特征提取器及词嵌
入模块;
在大规模文本数据集上对自监 督网络进行 预训练, 获得词嵌入 模块;
利用词嵌入 模块, 对训练数据集中的每 个类别, 生成对应的软 标签;
将训练数据集输入特征提取器中获取特征向量, 使用对应软标签来指导训练, 得到训
练好的语义软 标签图像识别模型;
将测试数据集输入训练好的语义软标签图像识别模型中进行测试, 获得图像识别结
果。
2.根据权利要求1所述的一种数据有限和不平衡的语义软标签图像识别方法, 其特征
在于, 所述词嵌入 模块训练步骤为:
对大规模文本数据集中的训练文本进行处理, 去掉乱码及符号后生成共有V个单词的
词汇表;
将词汇表中每个单词对应确定为 一个N维的可 学习词向量;
使用词汇表中V个单词的N维可学习词向量对自监督网络进行训练, 获得训练好的自监
督网络;
保留训练好自监 督网络的特 征编码器部分作为词嵌入 模块。
3.根据权利要求2所述的一种数据有限和不平衡的语义软标签图像识别方法, 其特征
在于, 所述自监 督网络包括 Word2Vec、 GloVe、 Fast text、 Kazumac har及Bert网络。
4.根据权利要求2所述的一种数据有限和不平衡的语义软标签图像识别方法, 其特征
在于, 所述 生成对应的软 标签, 具体为:
将训练数据集输入词嵌入 模块, 获取每 个类别对应的软 标签, 表示 为:
wc∈RD
其中, wc表示训练数据集中第c个 类的软标签, RD表示实数空间R上D维向量;
所述训练数据集表示 为:
DA={(xi,yi),i=1,…,N}
其中, xi表示第i张训练图像, yi表示第i张训练图像对应的真实独热标签, N表示训练数
据集中总的训练图像数量。
5.根据权利要求4所述的一种数据有限和不平衡的语义软标签图像识别方法, 其特征
在于, 所述获取 特征向量, 具体为:
使用特征提取器提取训练图像xi的特征向量, 表示 为:
fi=F(xi)
其中fi表示特征提取器对于 输入训练图像xi的D维特征向量输出。
6.根据权利要求5所述的一种数据有限和不平衡的语义软标签图像识别方法, 其特征
在于, 所述得到训练好的语义软 标签图像识别模型, 具体为:
对于每一张训练图像xi, 通过余弦距离损失函数来计算特征提取器输出的fi和对应软
标签之间的余弦相似度, 得到交叉熵损失函数, 公式为:权 利 要 求 书 1/2 页
2
CN 114419394 A
2其中, s(fi,wi)表示第i张训练图像的特征向量fi与第i张训练图像对应 软标签wi之间的
余弦相似度, C表 示训练数据集中类别总数, s(fi,wj)是第i张训练图像的特征向量fi与训练
数据集中第j个 类别对应的软 标签wj之间的余弦相似度, τ 为温度超参数;
利用交叉熵损失函数对特征提取器进行训练, 并通过随机梯度 下降更新特征提取器的
参数;
得到训练好的语义软 标签图像识别模型。
7.根据权利要求6所述的一种数据有限和不平衡的语义软标签图像识别方法, 其特征
在于, 所述特 征提取器采用ResNet、 VG G、 DenseNet或ViT网络结构。
8.根据权利要求2所述的一种数据有限和不平衡的语义软标签图像识别方法, 其特征
在于, 所述 生成对应的软 标签, 具体为:
利用大量图像数据训练出来的深度学习网络对训练数据集中的每一类图像进行特征
提取, 计算类中心作为软 标签。
9.一种数据有限和不平衡的语义软标签图像识别系统, 其特征在于, 应用于权利要求
1‑8中任一项所述的一种数据有限和不平衡的语义软标签图像识别方法, 包括模型构建模
块、 词嵌入训练模块、 软 标签生成模块、 模型训练模块及图像识别模块;
所述模型构建模块用于构建语义软标签图像识别模型, 所述模型包括特征提取器及词
嵌入模块;
所述词嵌入训练模块用于在大规模文本数据集上对自监督网络进行预训练, 获得词嵌
入模块;
所述软标签生成模块利用词嵌入模块, 对训练数据集中的每个类别, 生成对应的软标
签;
所述模型训练模块将训练数据集输入特征提取器中获取特征向量, 使用对应软标签来
指导训练, 得到训练好的语义软 标签图像识别模型;
所述图像识别模块用于将测试数据集输入训练好的语义软标签图像识别模型中进行
测试, 获得图像识别结果。
10.一种计算机可读存储介质, 存储有程序, 其特征在于, 所述程序被处理器执行时, 实
现权利要求1 ‑8任一项所述的一种数据有限和不平衡的语义软 标签图像识别方法。权 利 要 求 书 2/2 页
3
CN 114419394 A
3
专利 一种数据有限和不平衡的语义软标签图像识别方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:50上传分享