专利 一种基于注意力融合的水下目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210410629.8 (22)申请日 2022.04.19 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人张亚新　赵志强　唐金龙　吕帅帅　潘勉　于海滨　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师朱月芬 (51)Int.Cl. G06V 20/05(2022.01) G06V 10/80(2022.01) G06V 10/25(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于注意力融合的水下目标检测方法 (57)摘要本发明公开了一种基于注意力融合的水下目标检测方法，包括以下步骤：步骤一，准备数据集。步骤二，构建基于注意力融合的目标检测网络。步骤三，获得通用场景下的特征提取网络。步骤四，构建损失函数，训练得到基于注意力融合的水下目标检测网络。本发明使用Vision ‑ Transformer模块提取输入图像的自注意力信息，并通过对输入图像分块，避免对完整图像计算自注意力，减少了计算量。使用PAFPN模块提取特征的空间注意力信息，并分层输出，将提取到的高级语义信息和低级细节信息进行融合。使用 SE模块提取特征的通道注意力信息，进一步提升了模型的检测精度。权利要求书3页说明书7页附图2页 CN 114782798 A 2022.07.22 CN 114782798 A 1.一种基于注意力融合的水下目标检测方法，其特征在于，步骤如下：步骤一，准备数据集；步骤二，构建基于注意力融合的目标检测网络；步骤三，获得通用场景下的特征提取网络；步骤四，构建损失函数，训练得到基于注意力融合的水下目标检测网络。 2.根据权利要求1所述的一种基于注意力融合的水下目标检测方法，其特征在于，步骤一具体方法如下：在实际水下场景下拍摄含有感兴趣目标的图片/视频，采用目标检测数据集标注软件为图片中出现的感兴趣目标做标注，获得水下目标检测数据集；从ImageNet官方网站下载数据集，以备模型预训练使用。 3.根据权利要求2所述的一种基于注意力融合的水下目标检测方法，其特征在于，步骤二具体方法如下：所述的基于注意力融合的目标检测网络包括主干特征提取网络、 PAFPN路径增强特征金字塔模块、区域推荐网络和检测头；图片输入到目标检测网络中，通过主干特征提取网络提取自注意力信息，通过PAFPN路径增强特征金字塔模块提取空间注意力信息，通过检测头内部的S E模块提取通道间注意力信息；之后进行注意力信息融合，通过级联的方式传递特征，并根据不同类型的注意力机制的优势，对注意力信息进行融合，将主干特征提取网络提取的自注意力信息、 PAFPN路径增强特征金字塔模块提取的空间注意力信息、检测头内部的S E模块提取的通道间注意力信息做逐步融合。 4.根据权利要求3所述的一种基于注意力融合的水下目标检测方法，其特征在于，目标检测网络使用Visi on‑Transformer作为主干特征提取网络，提取自注意力信息。 5.根据权利要求4所述的一种基于注意力融合的水下目标检测方法，其特征在于，所述的PAFPN路径增强的特征金字塔模块，包含特征金字塔模块和路径增强模块；特征金字塔模块通过下采样，压缩了特征的尺寸，提取了低级细节信息；路径增强模块通过上采样，扩大了特征的尺寸，提取了高级语义信息，并将低级细节信息和高级语义信息进行融合，并分M 层输出； PAFPN路径增强的特征金字塔模块，不仅提取了多尺寸的特征信息，还将高级语义信息和低级细节信息进行融合，专注于空间层面的信息，即提取了空间注意力信息。 6.根据权利要求5所述的一种基于注意力融合的水下目标检测方法，其特征在于，所述的区域推荐网络用于对PAFPN输出的每一层特征图做初步检测，检测出可能存在目标的区域并推荐给对应的检测头；区域推荐网络包括分类分支和定位分支两个分支；其中，分类分支是对区域内是否存在目标分类，若存在则将它的边界框推荐给检测头；定位分支是对目标所在区域做回归，输出目标所在边界框的左上角、右下角坐标；使用检测头内部的S E模块提取通道间注意力信息，并输送到检测头内部的定位分支和分类分支，对输入图像中可能存在的目标做检测。 7.根据权利要求6所述的一种基于注意力融合的水下目标检测方法，其特征在于，所述的检测头的个数由PAFPN路径增强的特征金字塔模块的层数确定，有M个；检测头根据送入的区域中可能存在目标的特征，对目标分类，并预测目标的位置；将特征拷贝，再输入到分权　利　要　求　书 1/3 页 2 CN 114782798 A 2类分支，经过全连接层输出目标属于可能类别的概率；将特征输入定位分支，经过全连接层输出目标可能所在边框的左上角、右下角的横纵坐标。 8.根据权利要求3 ‑7任一所述的一种基于注意力融合的水下目标检测方法，其特征在于，步骤三具体方法如下：通过预训练数据集预训练基于注意力融合的目标检测网络的主干特征提取网络，得到具有强大特征提取能力的预训练模型权重。 9.根据权利要求8所述的一种基于注意力融合的水下目标检测方法，其特征在于，步骤四具体方法如下：构建位置回归损失函数和分类预测损失函数；其中位置回归损失函数采用smooth L1 loss，衡量预测边界框与真实边界框之间的差距，分类预测损失函数采用Focal loss，衡量预测类别与真实类别之间的差距，其中， y取值为1或 ‑1，表示目标是否是真实类别； p取值[0,1]，表示目标是某待测类别的概率； α、 γ用来调节分类损失的权重，参考Focal loss原文中推荐的取值， α ＝0.25,γ＝ 2；总损失函数是位置回归损失和分类预测损失之和： Loss＝Lreg+Lclass 设计基于注意力融合的水下目标检测网络，采用Adam优化器更新模型权重，同时将多种注意力机制模型提取的特征进行融合，通过步骤一获得的水下目标检测数据集训练目标检测网络，得到基于注意力融合的水下目标检测网络；使用基于梯度下降的Adam优化算法更新水下目标检测网络模型权重；其中Wt， Wt+1分别表示在t阶段和t+1阶段的目标检测模型权重； ηt表示在t阶段的目标检测模型的学习率； mt， mt‑1分别表示在t阶段和t ‑1阶段目标检测模型的一阶动量项； vt， vt‑1分别表示在t阶段和t ‑1阶段目标检测模型的二阶动量项；和分别表示t阶段目标检测模型梯度的一阶矩和二阶矩； β1和β2分别表示一阶动量项和二阶动量项的常数系数，通常取 0.9和0.9 99； ∈是一个取值很小的数，为了避免分母为0 。权　利　要　求　书 2/3 页 3 CN 114782798 A 3

专利 一种基于注意力融合的水下目标检测方法

专利一种基于注意力融合的水下目标检测方法