(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210410629.8
(22)申请日 2022.04.19
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 张亚新 赵志强 唐金龙 吕帅帅
潘勉 于海滨
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱月芬
(51)Int.Cl.
G06V 20/05(2022.01)
G06V 10/80(2022.01)
G06V 10/25(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于注意力融合的水 下目标检测方法
(57)摘要
本发明公开了一种基于注意力融合的水下
目标检测方法, 包括以下步骤: 步骤一, 准备数据
集。 步骤二, 构建基于注意力融合的目标检测 网
络。 步骤三, 获得通用场景下的特征提取网络。 步
骤四, 构建损失函数, 训练得到基于注意力融合
的水下目标检测网络。 本发明使用Vision ‑
Transformer模块提取输入图像的自注意力信
息, 并通过对输入图像分块, 避免对完整图像计
算自注意力, 减少了计算量。 使用PAFPN模 块提取
特征的空间注意力信息, 并分层输出, 将提取到
的高级语义信息和低级细 节信息进行融合。 使用
SE模块提取特征的通道注意力信息, 进一步提升
了模型的检测精度。
权利要求书3页 说明书7页 附图2页
CN 114782798 A
2022.07.22
CN 114782798 A
1.一种基于注意力融合的水 下目标检测方法, 其特 征在于, 步骤如下:
步骤一, 准备 数据集;
步骤二, 构建基于注意力融合的目标检测网络;
步骤三, 获得通用场景 下的特征提取网络;
步骤四, 构建损失函数, 训练得到基于注意力融合的水 下目标检测网络 。
2.根据权利要求1所述的一种基于注意力融合的水下目标检测方法, 其特征在于, 步骤
一具体方法如下:
在实际水下场景下拍摄含有感兴趣目标的图片/视频, 采用目标检测数据集标注软件
为图片中出现的感兴趣目标做标注, 获得水下 目标检测数据集; 从ImageNet官方网站下载
数据集, 以备模型 预训练使用。
3.根据权利要求2所述的一种基于注意力融合的水下目标检测方法, 其特征在于, 步骤
二具体方法如下:
所述的基于注意力融合的目标检测网络包括主干特征提取网络、 PAFPN路径增 强特征
金字塔模块、 区域推荐网络和检测头;
图片输入到目标检测网络中, 通过主干特征提取网络提取自注意力信息, 通过PAFPN路
径增强特征金字塔模块提取 空间注意力信息, 通过检测头内部的S E模块提取通道间注意力
信息;
之后进行注意力信息融合, 通过级联的方式传递特征, 并根据不同类型的注意力机制
的优势, 对注意力信息进行融合, 将主干特征提取网络提取的自注意力信息、 PAFPN路径增
强特征金字塔模块提取的空间注意力信息、 检测头内部的S E模块提取的通道间注意力信息
做逐步融合。
4.根据权利要求3所述的一种基于注意力融合的水下目标检测方法, 其特征在于, 目标
检测网络使用Visi on‑Transformer作为主干特 征提取网络, 提取自注意力 信息。
5.根据权利要求4所述的一种基于注意力融合的水下目标检测方法, 其特征在于, 所述
的PAFPN路径增强的特征金字塔模块, 包含 特征金字塔模块和路径增强模块; 特征金字塔模
块通过下采样, 压缩了特征 的尺寸, 提取了低级细节信息; 路径增强模块通过上采样, 扩大
了特征的尺寸, 提取了高级语义信息, 并将低级细节信息和高级语义信息进行融合, 并分M
层输出; PAFPN路径增强的特征金字塔模块, 不仅提取了多尺寸的特征信息, 还将高级语义
信息和低级细节信息进行融合, 专 注于空间层面的信息, 即提取了空间注意力 信息。
6.根据权利要求5所述的一种基于注意力融合的水下目标检测方法, 其特征在于, 所述
的区域推荐网络用于对PAFPN输出的每一层特征图做初步检测, 检测出可能存在目标的区
域并推荐给对应的检测头; 区域推荐网络包括分类分支和定位分支两个 分支; 其中, 分类分
支是对区域内是否存在目标分类, 若存在则将它的边界框推荐给检测头; 定位分支是对目
标所在区域做回归, 输出目标所在边界框的左上角、 右下角坐标; 使用检测头内部的S E模块
提取通道间注意力信息, 并输送到检测头内部的定位分支和分类分支, 对输入图像中可能
存在的目标做检测。
7.根据权利要求6所述的一种基于注意力融合的水下目标检测方法, 其特征在于, 所述
的检测头的个数由PAFPN路径增强的特征金字塔模块的层数确定, 有M个; 检测 头根据送入
的区域中可能存在目标的特征, 对目标分类, 并预测目标的位置; 将特征拷贝, 再输入到分权 利 要 求 书 1/3 页
2
CN 114782798 A
2类分支, 经过全连接层输出目标属于可能类别的概率; 将特征输入定位分支, 经过全连接层
输出目标 可能所在边框的左上角、 右下角的横纵坐标。
8.根据权利要求3 ‑7任一所述的一种基于注意力融合的水下目标检测方法, 其特征在
于, 步骤三具体方法如下:
通过预训练数据集预训练基于注意力融合的目标检测网络的主干特征提取网络, 得到
具有强大 特征提取能力的预训练模型权 重。
9.根据权利要求8所述的一种基于注意力融合的水下目标检测方法, 其特征在于, 步骤
四具体方法如下:
构建位置回归损失函数和分类预测损失函数; 其中位置回归损失函数采用smooth L1
loss, 衡量预测边界框与真实边界框之间的差距,
分类预测损失函数采用Focal loss, 衡量预测类别与真实类别之间的差距,
其中, y取值为1或 ‑1, 表示目标是否是真实类别; p取值[0,1], 表示目标是某待测类别
的概率; α、 γ用来调节分类损失的权重, 参考Focal loss原文中推荐的取值, α =0.25,γ=
2;
总损失函数 是位置回归损失和分类预测损失之和:
Loss=Lreg+Lclass
设计基于注意力融合的水下目标检测网络, 采用Adam优化器更新模型权重, 同时将多
种注意力机制模型提取的特征进 行融合, 通过步骤一 获得的水下目标检测数据集训练目标
检测网络, 得到基于注意力融合的水 下目标检测网络;
使用基于梯度下降的Adam优化 算法更新水 下目标检测网络模型权 重;
其中Wt, Wt+1分别表示在t阶段和t+1阶段的目标检测模型权重; ηt表示在t阶段的目标检
测模型的学习率; mt, mt‑1分别表示在t阶段和t ‑1阶段目标检测模型的一阶动量项; vt, vt‑1分
别表示在t阶段和t ‑1阶段目标检测模型的二阶动量项;
和
分别表示t阶段目标检测模
型梯度的一阶矩和二阶矩; β1和β2分别表示一阶动量项和二阶动量项的常数系数, 通常取
0.9和0.9 99; ∈是一个取值很小的数, 为了避免分母为0 。权 利 要 求 书 2/3 页
3
CN 114782798 A
3
专利 一种基于注意力融合的水下目标检测方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:33:39上传分享