(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210504797.3
(22)申请日 2022.05.10
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 钱丽萍 王寅生 钱江 王晨熙
王倩
(74)专利代理 机构 浙江千克知识产权代理有限
公司 33246
专利代理师 赵芳
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/40(2022.01)
G06V 10/762(2022.01)
G06V 10/764(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于注意力机制的无监督图像语义分
割方法
(57)摘要
一种基于注意力机制的无监督图像语义分
割方法, 通过对RGB图像经注意力模块去除部分
冗余背景信息; 利用无监督图像语义分割网络提
取图像语义信息, 并给图像中属于相同类别的像
素打上相同的标签, 以实现图像语义信息的提
取。 本发明可以用于解决在无监督图像语义分割
中因存在大量荣誉背景信息导致算力浪费以及
分割精度下降等问题。
权利要求书2页 说明书5页 附图1页
CN 114758135 A
2022.07.15
CN 114758135 A
1.一种基于注意力机制的无监督图像语义分割方法, 其特征在于, 所述方法包括以下
步骤:
S1:获取仿射变换矩阵θ, 首先, θ被初始化为恒等变换矩阵, 通过损失函数不断更正θ 的
参数, 最终得到期望的仿射变换矩阵;
S2:RGB图像U输入后, 根据上一阶段的到的仿射变换矩阵, 计算的到特征图V的坐标点
对应的输入图像U的坐标点的位置, 计算方法如下:
其中,
代表像素的位置, s代表输入特征图像坐标点, t代表输出特征图坐标点, Aθ
是S1阶段 得到的仿射变换;
S3:利用插值的方式计算输出 特征图中某个特定像素点的灰度值, 计算方法如下:
式中W和H代表输入图像的宽度和高度,
是通道c中位置
的像素i的灰度值,
为输入特 征图上第c个通道点(n,m)的灰度值;
S4:使用特 征提取模块对输入图像提取深层特 征{xn};
S5:一维(1D)卷积层计算q维类别空间中的特 征响应向量{rn};
S6:特征响应向量{rn}在像素类别空间各轴上使用批归一化函数(Batch
Normalization)得到{r ′n}, 使{r′n}具有零均值和单位方差;
S7:使用argmax函数, 选择在{r ′n}中具有最大值的维度来确定每个像素的类别标签
{cn};
S8:计算损失函数并进行反向传播更新参数, 其中损失函数由特征相似度损失和空间
连续性损失组成, μ代 表平衡两个损失函数的权 重损失函数, 定义如下:
L=Lsim({r′n,cn})+ μLcon({r′n}) (3)
其中特征相似度损失函数如下:
其中,
其中, N为输入图像的像素总数, 响应图{rn=Wcxn}是通过应用一个线性分类器得到的,
其中{Wc∈Rq×p}, 然后, 响应图被归一 化为{r′n};
空间连续 性损失函数定义如下:
式中r′ξ, η代表响应图{r ′n}中( ξ, η )处的像素值;权 利 要 求 书 1/2 页
2
CN 114758135 A
2通过应用空间连续性损失, 删除由于复杂的图案或纹理原因而产生的过多的像素标
签。
2.如权利要求1所述的一种基于注意力 机制的无监督图像语义分割方法, 其特征在于,
所述步骤S1中, 在二维图像中, 仿射变换矩阵θ 为2 ×3的矩阵。
3.如权利要求1或2所述的一种基于注意力 机制的无监督图像语义分割方法, 其特征在
于, 所述步骤S2中, 坐标映射关系为目标图片映射到输入图片, 原因是坐标映射需要从原图
不同坐标上采集像素至目标图片, 每次采样都需要遍历目标图片的坐标, 而采集的原图片
的坐标是不固定的, 因此可得变换后的输出特征图每个位置的坐标在输入 特征图上的对应
坐标点。
4.如权利要求1或2所述的一种基于注意力 机制的无监督图像语义分割方法, 其特征在
于, 所述步骤S3中, 当
或者
大于1时, 对应的max()项将取0, 故只有(xi,
yi)周围4个点的灰度值决定目标像素点的灰度, 并且当
和
越小, 影响越
大(即离点(n,m)越近), 权 重越大。
5.如权利要求1或2所述的一种基于注意力 机制的无监督图像语义分割方法, 其特征在
于, 所述步骤S8中, 特征相似度损失函数背后的目标是增强相似特征的相似性, 一旦图像像
素根据其特征进行聚类, 同一类别内的特征向量应该是相互相似的, 而不同类别的特征向
量应该是相互不同的, 通过这个损失函数 的最小化, 网络权重被更新以促进提取更有效的
特征进行分类。权 利 要 求 书 2/2 页
3
CN 114758135 A
3
专利 一种基于注意力机制的无监督图像语义分割方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:32:14上传分享