专利 基于多尺度特征和上下文注意力的实例分割方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210333902.1 (22)申请日 2022.03.31 (71)申请人福州大学地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学 (72)发明人牛玉贞　甘伟泽　林晓锋　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师张灯灿　蔡学俊 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) (54)发明名称基于多尺度特征和上下文注意力的实例分割方法及系统 (57)摘要本发明涉及一种基于多尺度特征和上下文注意力的实例分割方法及系统，该方法包括以下步骤：对训练集中图像进行包括数据增强和标准化处理的数据预处理；构建多尺度特征融合和上下文注意力聚合模块，以利用金字塔结构加强特征表示，并聚焦金字塔特征图中的小目标物体；构建基于多尺度特征融合和上下文注意力聚合的实例分割网络；利用训练集中图像对实例分割网络进行训练，生成实例分割结果并计算损失函数，反向传播优化整个网络的参数，得到训练好的实例分割网络；将待处理图像输入训练好的实例分割网络，得到实例分割结果。该方法及系统不仅能够提高大目标和中等目标的分割精度，同时也聚焦小目标物体，提升小目标的分割性能。权利要求书3页说明书8页附图2页 CN 114693930 A 2022.07.01 CN 114693930 A 1.一种基于多尺度特征和上下文注意力的实例分割方法，其特征在于，包括以下步骤：步骤A：对训练集中图像进行包括数据增强和标准化处理的数据预处理；步骤B：构建多尺度特征融合和上下文注意力聚合模块，包括级联的多尺度特征融合模块和上下文注意力聚合模块，以利用金字塔结构加强特征表示，并聚焦金字塔特征图中的小目标物体；步骤C：构建基于多尺度特征融合和上下文注意力聚合的实例分割网络；步骤D：利用训练集中图像对实例分割网络进行训练，生成实例分割结果并计算损失函数，反向传播优化整个网络的参数，得到训练好的实例分割网络；步骤E：将待处理图像输入训练好的实例分割网络，得到实例分割结果。 2.根据权利要求1所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤A具体包括以下步骤：步骤A1：对训练集中图像进行尺度变换，在保持长宽比不变的情况下，设定图像长和宽的阈值为2048；即根据图像的长边和阈值对图像进行尺度变换，保证长边和短边都不会超出所述阈值；然后将尺度变换后的所有图像进行随机翻转，翻转比例为0.5，实现数据增强；步骤A2：对增强后的图像进行标准化处理，标准化的均值为[123.675,116.28, 103.53]，方差为[58.395,57.12,57.375]；最后对图像进行填充，使得长宽能被32整除；每张图像有对应标签，标签内容是图像中每个实例物体的边界框和掩码，在图像尺度变换和数据增强的同时也对图像标签进行同步处理。 3.根据权利要求1所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤B中，多尺度特征融合模块的实现方法如下：步骤B101：实例分割网络的特征提取模块对输入图像进行特征提取，得到高分辨率层到低分辨率层，即低语义信息到高语义信息的四个特征图C1、 C2、 C3、 C4，然后输入多尺度特征融合模块；步骤B102：多尺度特征融合模块对低分辨率特征图进行双线性差值上采样操作，得到和C1特征图一样分辨率大小的特征图，进行特征拼接得到M1，再利用3 ×3卷积改变M1特征图的通道数为 N，具体公式如下所示： M1＝Conv3×3(Concat(C1,2xUp(C2),4xUp(C3),8xUp(C4))), 其中， Conv3×3为3×3卷积， Concat 为特征拼接操作， 2xUp表示2 倍上采样， 4xUp和8xUp分别是4倍和8倍上采样；步骤B103：构建金字塔特征图结构；对步骤B102得到的M1进行3×3卷积下采样2倍，再与初始的特征图C2经过1×1卷积改变通道数为N后进行逐元素相加，得到M2；同理， M3由M2下采样与经过1 ×1卷积的特征图C3进行逐元素相加得到， M4由M3下采样与经过1 ×1卷积的特征图C4进行逐元素相加得到，具体公式如下所示： Mi＝Conv3×3(Mi‑1)+Conv1×1(Ci), 其中Conv3×3为3×3卷积且步长为2， Co nv1×1为1×1卷积且输出通道数为 N， i＝2,3,4；步骤B104：将M4通过3×3且步长为2的卷积下采样2倍得到M5，至此形成金字塔结构的5 个特征图M1、 M2、 M3、 M4、 M5。 4.根据权利要求3所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤B中，上下文注意力聚合模块的实现方法如下：权　利　要　求　书 1/3 页 2 CN 114693930 A 2步骤B201：将特征图M5经过3×3卷积得到P5，此为尺度5的金字塔结构特征图；步骤B202：通过上下文注意力聚合模块CAA，融合两个层次的特征图；将特征图M4、 M5输入到第四CCA模块中，利用特征图M5高层的语义信息，提升特征图M4中上下文信息，将第四 CAA模块的输出记为M'4； M'4再经过3×3卷积得到P4，此为尺度4的金字塔结构特征图，具体公式如下所示： M′4＝CAA4(M4,M5), P4＝Conv3×3(M′4), 其中， CAA4是第4个尺度使用的上下文注意力聚合模块， Conv3×3是3×3卷积且步长为1、输入输出通道数都为 N；步骤B203：将特征图M3、 M'4输入到第三CAA模块中，得到M'3，再经过3 ×3卷积得到P3；以此类推， M2与M'3经过第二CAA模块后再经过3 ×3卷积得到特征图P2， M1与M'2经过第一CAA模块后再经过3 ×3卷积得到特征图P1；至此聚合上下文注意力的5个尺度的金字塔结构特征图，分别为P1、 P2、 P3、 P4、 P5；以上过程具体公式如下所示： M′i＝CAAi(Mi,M′i+1), Pi＝Conv3×3(M′i), 其中， CAAi为第i个尺度使用的上下文注意力聚合模块， Conv3×3是3×3卷积且步长为1、输入输出通道数都为 N， i＝1,2,3。 5.根据权利要求4所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述上下文注意力聚合模块的输入为任意两个相邻层的特征图Mi与M'i+1，对于倒数第二层，即尺度4，使用Mi+1代替M'i+1； Mi+1和M'i+1为较低分辨率、高语义层， Mi为较高分辨率、低语义层；将特征图M'i+1经过全局平均池化得到高层注意力，经过1 ×1卷积改变通道数为N 后，与M'i+1经过双线性插值2倍上采样的特征图以及特征图Mi，三者逐元素相加得到上下文特征Chigh，具体公式如下所示： Chigh＝Mi+2xUp(M′i+1)+Conv1×1(GAP(M′i+1)), 其中， 2xUp表示2倍上采样， Co nv1×1为输出通道数N的1 ×1卷积， GAP为全局平均池化；将上下文特征Chigh经过全局平均池化得到上下文注意力，经过1 ×1卷积改变通道数为N 后，与原输入特征图Mi经过3×3卷积后进行逐元素相乘得到上下文注意力CAtten，具体公式如下所示： CAtten＝Conv3×3(Mi)×Conv1×1(GAP(Chigh)) 最后将CAtten与Chigh逐元素相加得到最终上下文注意力聚合的特征图M'i，具体公式如下所示： M′i＝CAtten+Chigh。 6.根据权利要求5所述的基于多尺度特征和上下文注意力的实例分割方法，其特征在于，所述步骤C中，基于多尺度特征融合和上下文注意力聚合的实例分割网络的实现方法为：步骤C1：以HRNet骨干网络作为特征提取模块，对输入图像进行特征提取，将提取到的特征图送入多尺度特征融合和上下文注意力聚合模块；步骤C2：利用多尺度特征融合和上下文注意力聚合模块，加强特征的表示，形成多尺度的金字塔结构，然后送入RPN子网络中进行区域候选提议；权　利　要　求　书 2/3 页 3 CN 114693930 A 3

专利 基于多尺度特征和上下文注意力的实例分割方法及系统

专利基于多尺度特征和上下文注意力的实例分割方法及系统