专利 一种基于注意力机制的无监督图像语义分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210504797.3 (22)申请日 2022.05.10 (71)申请人浙江工业大学地址 310014 浙江省杭州市拱墅区潮王路 18号 (72)发明人钱丽萍　王寅生　钱江　王晨熙　王倩　 (74)专利代理机构浙江千克知识产权代理有限公司 33246 专利代理师赵芳 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/40(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于注意力机制的无监督图像语义分割方法 (57)摘要一种基于注意力机制的无监督图像语义分割方法，通过对RGB图像经注意力模块去除部分冗余背景信息；利用无监督图像语义分割网络提取图像语义信息，并给图像中属于相同类别的像素打上相同的标签，以实现图像语义信息的提取。本发明可以用于解决在无监督图像语义分割中因存在大量荣誉背景信息导致算力浪费以及分割精度下降等问题。权利要求书2页说明书5页附图1页 CN 114758135 A 2022.07.15 CN 114758135 A 1.一种基于注意力机制的无监督图像语义分割方法，其特征在于，所述方法包括以下步骤： S1:获取仿射变换矩阵θ，首先， θ被初始化为恒等变换矩阵，通过损失函数不断更正θ 的参数，最终得到期望的仿射变换矩阵； S2:RGB图像U输入后，根据上一阶段的到的仿射变换矩阵，计算的到特征图V的坐标点对应的输入图像U的坐标点的位置，计算方法如下：其中，代表像素的位置， s代表输入特征图像坐标点， t代表输出特征图坐标点， Aθ 是S1阶段得到的仿射变换； S3:利用插值的方式计算输出特征图中某个特定像素点的灰度值，计算方法如下：式中W和H代表输入图像的宽度和高度，是通道c中位置的像素i的灰度值，为输入特征图上第c个通道点(n,m)的灰度值； S4:使用特征提取模块对输入图像提取深层特征{xn}； S5:一维(1D)卷积层计算q维类别空间中的特征响应向量{rn}； S6:特征响应向量{rn}在像素类别空间各轴上使用批归一化函数(Batch Normalization)得到{r ′n}，使{r′n}具有零均值和单位方差； S7:使用argmax函数，选择在{r ′n}中具有最大值的维度来确定每个像素的类别标签 {cn}； S8:计算损失函数并进行反向传播更新参数，其中损失函数由特征相似度损失和空间连续性损失组成， μ代表平衡两个损失函数的权重损失函数，定义如下： L＝Lsim({r′n,cn})+ μLcon({r′n}) (3) 其中特征相似度损失函数如下：其中，其中， N为输入图像的像素总数，响应图{rn＝Wcxn}是通过应用一个线性分类器得到的，其中{Wc∈Rq×p}，然后，响应图被归一化为{r′n}；空间连续性损失函数定义如下：式中r′ξ, η代表响应图{r ′n}中( ξ, η )处的像素值；权　利　要　求　书 1/2 页 2 CN 114758135 A 2通过应用空间连续性损失，删除由于复杂的图案或纹理原因而产生的过多的像素标签。 2.如权利要求1所述的一种基于注意力机制的无监督图像语义分割方法，其特征在于，所述步骤S1中，在二维图像中，仿射变换矩阵θ 为2 ×3的矩阵。 3.如权利要求1或2所述的一种基于注意力机制的无监督图像语义分割方法，其特征在于，所述步骤S2中，坐标映射关系为目标图片映射到输入图片，原因是坐标映射需要从原图不同坐标上采集像素至目标图片，每次采样都需要遍历目标图片的坐标，而采集的原图片的坐标是不固定的，因此可得变换后的输出特征图每个位置的坐标在输入特征图上的对应坐标点。 4.如权利要求1或2所述的一种基于注意力机制的无监督图像语义分割方法，其特征在于，所述步骤S3中，当或者大于1时，对应的max()项将取0，故只有(xi, yi)周围4个点的灰度值决定目标像素点的灰度，并且当和越小，影响越大(即离点(n,m)越近)，权重越大。 5.如权利要求1或2所述的一种基于注意力机制的无监督图像语义分割方法，其特征在于，所述步骤S8中，特征相似度损失函数背后的目标是增强相似特征的相似性，一旦图像像素根据其特征进行聚类，同一类别内的特征向量应该是相互相似的，而不同类别的特征向量应该是相互不同的，通过这个损失函数的最小化，网络权重被更新以促进提取更有效的特征进行分类。权　利　要　求　书 2/2 页 3 CN 114758135 A 3

专利 一种基于注意力机制的无监督图像语义分割方法

专利一种基于注意力机制的无监督图像语义分割方法