专利 图像分类方法和图像分类模型的训练方法、装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210315149.3 (22)申请日 2022.03.28 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人袁小童　谭资昌　郭国栋　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师张霞 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 40/16(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称图像分类方法和图像分类模型的训练方法、装置 (57)摘要本公开提供了一种图像分类方法和图像分类模型的训练方法，涉及人工智能领域，具体涉及计算机视觉和深度学习技术领域。其中，图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络和预测网络。图像分类方法的具体实现方案为：将待分类图像切分为多个图像块，得到图像块序列；采用自注意力编码器对图像块序列进行自注意力编码，得到第一特征图序列；第一特征图序列包括分别针对多个图像块的多个特征图；采用全局编码网络提取第一特征图序列的全局特征，得到全局特征图；采用第一局部编码网络提取第一特征图序列的第一局部特征，得到第一局部特征图；以及将全局特征图和第一局部特征图输入预测网络，得到待分类图像的分类信息。权利要求书4页说明书17页附图9页 CN 114863229 A 2022.08.05 CN 114863229 A 1.一种基于图像分类模型的图像分类方法，其中，所述图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络和预测网络；所述方法包括：将待分类图像切分为多个图像块，得到图像块序列；采用所述自注意力编码器对所述图像块序列进行自注意力编码，得到第一特征图序列；所述第一特征图序列包括分别针对所述多个图像块的多个特征图；采用所述全局编码网络提取所述第一特征图序列的全局特征，得到全局特征图；采用所述第一局部编码网络提取所述第一特征图序列的第一局部特征，得到第一局部特征图；以及将所述全局特征图和所述第一局部特征图输入所述预测网络，得到所述待分类图像的分类信息。 2.根据权利要求1所述的方法，其中，所述全局编码网络包括第一编码子网络和第一转化子网络；所述采用所述全局编码网络提取所述第一特征图序列的全局特征，得到全局特征图包括：基于所述第一特征图序列，采用所述第一编码子网络得到第二特征图序列；以及采用所述第一转化子网络将所述第二特征图序列转化为特征图矩阵，得到所述全局特征图。 3.根据权利要求2所述的方法，其中，所述全局编码网络还包括第一融合子网络；所述基于所述第一特征图序列，采用所述第一编码子网络得到第二特征图序列包括：采用所述第一融合子网络对所述第一特征图序列中的特征图进行全局融合，得到第三特征图序列；以及将所述第三特征图序列输入所述第一编码子网络，得到所述第二特征图序列。 4.根据权利要求3所述的方法，其中，所述第一融合子网络包括第一转化层、第一降采样层和第二转化层；所述采用所述第一融合子网络对所述第一特征图序列中的特征图进行全局融合，得到第三特征图序列包括：采用所述第一转化层将所述第一特征图序列转化为第一特征图矩阵；采用所述第一降采样层对所述第一特征图矩阵中的特征图间隔采样，得到多个融合子矩阵；以及采用所述第二转化层将所述多个融合子矩阵转化为多个融合特征图，得到由所述多个融合特征图构成的第三特征图序列。 5.根据权利要求1所述的方法，其中，所述第一局部编码网络包括第二融合子网络、第二编码子网络和第二转化子网络；所述采用所述第一局部编码网络提取所述第一特征图序列的第一局部特征，得到第一局部特征图包括：采用所述第二融合子网络融合所述第一特征图序列中第一部分的特征图，得到第四特征图序列；将所述第四特征图序列输入所述第二编码子网络，得到第五特征图序列；以及采用所述第二转化子网络将所述第五特征图序列转化为特征图矩阵，得到所述第一局部特征图。 6.根据权利要求5所述的方法，其中，所述第二融合子网络包括第三转化层、第一池化层和第四转化层；所述采用所述第二融合子网络融合所述第一特征图序列中第一部分的特权　利　要　求　书 1/4 页 2 CN 114863229 A 2征图，得到第四特征图序列包括：采用所述第三转化层将所述第一特征图序列转化为第一特征图矩阵；采用所述第一池化层对截取的所述第一特征图矩阵中第一预定区域的特征图进行池化操作，得到第六特征图矩阵；以及采用所述第四转化层将所述第六特征图矩阵转化为所述第四特征图序列。 7.根据权利要求5所述的方法，其中，所述图像分类模型还包括第二局部编码网络；所述方法还包括：采用所述第二局部编码网络提取所述第一特征图序列的第二局部特征，得到第二局部特征图；以及将所述全局特征图、所述第一局部特征图和所述第二局部特征图输入所述预测网络，得到所述待分类图像的分类信息，其中，所述第一局部特征的尺寸大于所述第二局部特征的尺寸。 8.根据权利要求7所述的方法，其中，所述第二局部编码网络包括第三融合子网络、第三编码子网络和第三转化子网络；所述采用所述第二局部编码网络提取所述第一特征图序列的第二局部特征，得到第二局部特征图包括：采用所述第三融合子网络融合所述第一特征图序列中第二部分的特征图，得到第七特征图序列；将所述第七特征图序列输入所述第三编码子网络，得到第六特征图序列；以及采用所述第三转化子网络将所述第六特征图序列转化为特征图矩阵，得到所述第二局部特征图。 9.根据权利要求8所述的方法，其中，所述第三融合子网络包括第五转化层、第二池化层和第六转化层；所述采用所述第三融合子网络融合所述第一特征图序列中第二部分的特征图，得到第七特征图序列包括：采用所述第五转化层将所述第一特征图序列转化为第一特征图矩阵；采用所述第二池化层对截取的所述第一特征图矩阵中第二预定区域的特征图进行池化操作，得到第八特征图矩阵；以及采用所述第六转化层将所述第八特征图矩阵转化为所述第七特征图序列。 10.一种图像分类模型的训练方法，其中，所述图像分类模型包括自注意力编码器、全局编码网络、第一局部编码网络；所述方法包括：将样本图像切分为多个图像块，得到图像块序列；采用所述自注意力编码器对所述图像块序列进行自注意力编码，得到第一特征图序列；所述第一特征图序列包括分别针对所述多个图像块的多个特征图；采用所述全局编码网络提取所述第一特征图序列的全局特征，得到全局特征图；采用所述第一局部编码网络提取所述第一特征图序列的第一局部特征，得到第一局部特征图；根据所述全局特征图确定第一分类信息，并根据所述第一局部特征图确定第二分类信息；以及根据所述第一分类信息与所述第二分类信息之间的第一差异，对所述图像分类模型进行训练。权　利　要　求　书 2/4 页 3 CN 114863229 A 3

专利 图像分类方法和图像分类模型的训练方法、装置

专利图像分类方法和图像分类模型的训练方法、装置