(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210315149.3
(22)申请日 2022.03.28
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 袁小童 谭资昌 郭国栋
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 张霞
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06V 40/16(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
图像分类方法和图像 分类模型的训练方法、
装置
(57)摘要
本公开提供了一种图像分类方法和图像分
类模型的训练方法, 涉及人工智 能领域, 具体涉
及计算机视觉和深度学习技术领域。 其中, 图像
分类模型包括自注意力编码器、 全局编码网络、
第一局部编码网络和预测网络。 图像 分类方法的
具体实现方案为: 将待分类图像切分为多个图像
块, 得到图像块序列; 采用自注意力编码器对 图
像块序列进行自注意力编码, 得到第一特征图序
列; 第一特征图序列包括分别针对多个图像块的
多个特征图; 采用全局编码网络提取第一特征图
序列的全局特征, 得到全局特征图; 采用第一局
部编码网络提取第一特征图序列的第一局部特
征, 得到第一局部特征图; 以及将全局特征图和
第一局部 特征图输入预测网络, 得到待分类图像
的分类信息 。
权利要求书4页 说明书17页 附图9页
CN 114863229 A
2022.08.05
CN 114863229 A
1.一种基于 图像分类模型的图像分类方法, 其中, 所述图像分类模型包括自注意力编
码器、 全局编码网络、 第一局部编码网络和预测网络; 所述方法包括:
将待分类图像切分为多个图像块, 得到图像块序列;
采用所述自注意力编码器对所述图像块序列进行自注意力编码, 得到第一特征图序
列; 所述第一特 征图序列包括分别针对所述多个图像块的多个特 征图;
采用所述全局编码网络提取 所述第一特 征图序列的全局特 征, 得到全局特 征图;
采用所述第 一局部编码网络提取所述第 一特征图序列的第 一局部特征, 得到第 一局部
特征图; 以及
将所述全局特征图和所述第 一局部特征图输入所述预测网络, 得到所述待分类图像的
分类信息 。
2.根据权利要求1所述的方法, 其中, 所述全局编码网络包括第 一编码子网络和第 一转
化子网络; 所述采用所述全局编码网络提取所述第一特征图序列的全局特征, 得到全局特
征图包括:
基于所述第一特 征图序列, 采用所述第一编码子网络得到第二特 征图序列; 以及
采用所述第 一转化子网络将所述第 二特征图序列转化为特征图矩阵, 得到所述全局特
征图。
3.根据权利要求2所述的方法, 其中, 所述全局编码网络还包括第一融合子网络; 所述
基于所述第一特 征图序列, 采用所述第一编码子网络得到第二特 征图序列包括:
采用所述第 一融合子网络对所述第 一特征图序列中的特征图进行全局融合, 得到第 三
特征图序列; 以及
将所述第三特 征图序列输入所述第一编码子网络, 得到所述第二特 征图序列。
4.根据权利要求3所述的方法, 其中, 所述第一融合子网络包括第一转化层、 第一降采
样层和第二转化层; 所述采用所述第一融合子网络对所述第一特征图序列中的特征图进 行
全局融合, 得到第三特 征图序列包括:
采用所述第一 转化层将所述第一特 征图序列转 化为第一特 征图矩阵;
采用所述第 一降采样层对所述第 一特征图矩阵中的特征图间隔采样, 得到多个融合子
矩阵; 以及
采用所述第 二转化层将所述多个融合子矩阵转化为多个融合特征图, 得到由所述多个
融合特征图构成的第三特 征图序列。
5.根据权利要求1所述的方法, 其中, 所述第一局部编码网络包括第二融合子网络、 第
二编码子网络和 第二转化子网络; 所述采用所述第一局部编码网络提取所述第一特征图序
列的第一局部特 征, 得到第一局部特 征图包括:
采用所述第 二融合子网络 融合所述第 一特征图序列中第 一部分的特征图, 得到第四特
征图序列;
将所述第四特 征图序列输入所述第二编码子网络, 得到第五特 征图序列; 以及
采用所述第 二转化子网络将所述第五特征图序列转化为特征图矩阵, 得到所述第 一局
部特征图。
6.根据权利要求5所述的方法, 其中, 所述第二融合子网络包括第三转化层、 第一池化
层和第四转化层; 所述采用所述第二融合子网络融合所述第一特征图序列中第一部 分的特权 利 要 求 书 1/4 页
2
CN 114863229 A
2征图, 得到第四特 征图序列包括:
采用所述第三 转化层将所述第一特 征图序列转 化为第一特 征图矩阵;
采用所述第一池化层对截取的所述第一特征图矩阵中第一预定区域的特征图进行池
化操作, 得到第六 特征图矩阵; 以及
采用所述第四转 化层将所述第六 特征图矩阵转 化为所述第四特 征图序列。
7.根据权利要求5所述的方法, 其中, 所述图像分类模型还包括第二局部编码网络; 所
述方法还 包括:
采用所述第 二局部编码网络提取所述第 一特征图序列的第 二局部特征, 得到第 二局部
特征图; 以及
将所述全局特征图、 所述第一局部特征图和所述第二局部特征图输入所述预测网络,
得到所述待分类图像的分类信息,
其中, 所述第一局部特 征的尺寸大于所述第二局部特 征的尺寸。
8.根据权利要求7所述的方法, 其中, 所述第二局部编码网络包括第三融合子网络、 第
三编码子网络和 第三转化子网络; 所述采用所述第二局部编码网络提取所述第一特征图序
列的第二局部特 征, 得到第二局部特 征图包括:
采用所述第 三融合子网络 融合所述第 一特征图序列中第 二部分的特征图, 得到第七特
征图序列;
将所述第七特 征图序列输入所述第三编码子网络, 得到第六 特征图序列; 以及
采用所述第 三转化子网络将所述第六特征图序列转化为特征图矩阵, 得到所述第 二局
部特征图。
9.根据权利要求8所述的方法, 其中, 所述第三融合子网络包括第五转化层、 第二池化
层和第六转化层; 所述采用所述第三融合子网络融合所述第一特征图序列中第二部 分的特
征图, 得到第七特 征图序列包括:
采用所述第五转 化层将所述第一特 征图序列转 化为第一特 征图矩阵;
采用所述第二池化层对截取的所述第一特征图矩阵中第二预定区域的特征图进行池
化操作, 得到第八特 征图矩阵; 以及
采用所述第六转 化层将所述第八特 征图矩阵转 化为所述第七特 征图序列。
10.一种图像分类模型的训练方法, 其中, 所述图像分类模型包括自注意力编码器、 全
局编码网络、 第一局部编码网络; 所述方法包括:
将样本图像切分为多个图像块, 得到图像块序列;
采用所述自注意力编码器对所述图像块序列进行自注意力编码, 得到第一特征图序
列; 所述第一特 征图序列包括分别针对所述多个图像块的多个特 征图;
采用所述全局编码网络提取 所述第一特 征图序列的全局特 征, 得到全局特 征图;
采用所述第 一局部编码网络提取所述第 一特征图序列的第 一局部特征, 得到第 一局部
特征图;
根据所述全局特征图确定第 一分类信 息, 并根据 所述第一局部特征图确定第 二分类信
息; 以及
根据所述第 一分类信 息与所述第二分类信 息之间的第 一差异, 对所述图像分类模型进
行训练。权 利 要 求 书 2/4 页
3
CN 114863229 A
3
专利 图像分类方法和图像分类模型的训练方法、装置
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:36:25上传分享