(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210781168.5
(22)申请日 2022.07.05
(65)同一申请的已公布的文献号
申请公布号 CN 114863368 A
(43)申请公布日 2022.08.05
(73)专利权人 城云科技 (中国) 有限公司
地址 310052 浙江省杭州市滨江区长河街
道江南大道588号恒 鑫大厦主楼17层、
18层
(72)发明人 齐韬 张香伟 刘仿 曹喆 王勇
彭大蒙 毛云青
(74)专利代理 机构 杭州汇和信专利代理有限公
司 33475
专利代理师 董超
(51)Int.Cl.
G06V 20/52(2022.01)G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06T 7/00(2017.01)
(56)对比文件
CN 114529825 A,202 2.05.24
CN 113569868 A,2021.10.2 9
CN 114267003 A,2022.04.01
US 2021124920 A1,2021.04.2 9
刘志鹏.基 于深度学习的目标检测算法研
究. 《中国优秀硕士学位 论文全文数据库 (信息
科技辑)》 .202 2,
Xuyang Bai et al. .TransFusi on: Robust
LiDAR-Camera Fusi on for 3D Object
Detection with Transformers. 《Computer
Vision and Pat tern Recogn ition》 .2022,
审查员 郭晓坤
(54)发明名称
用于道路破损检测的多尺度目标检测模型、
方法
(57)摘要
本申请提出了一种用于道路破损检测的多
尺度目标检测模型、 方法, 包括依次连接的主干
网络、 聚焦Transformer模 块、 空间调制共同注意
力机制模块以及多尺度预测头部, 输入图像在经
过主干网络后得到第一特征, 第一特征输入到聚
焦Transformer模块中输出第二特征, 第二特征
和第一特征融合后得到第三特征, 第三特征经历
不同尺度的下采样处理后得到至少一第四特征,
第四特征和第三特征共同输入空间调制共同注
意力机制模块得到至少一多尺度语义特征, 多尺
度语义特征输入多尺度预测头部进行目标检测,
可以解决细粒度高分辨率视觉任务检测时存在
的效率低下的问题的同时加速了网络的收敛速
度。
权利要求书2页 说明书11页 附图3页
CN 114863368 B
2022.09.27
CN 114863368 B
1.一种多尺度目标检测模型的构建方法, 其特 征在于, 包括:
依次连接的主干网络、 聚焦Transformer模块、 空间调制共同注意力机制模块以及多尺
度预测头部, 获取包含待检测目标的待检测图像, 待检测图像在经过主干网络后得到第一
特征, 第一特征输入到聚焦 Transformer模块中输出第二特征, 第二特征和第一特征融合后
得到第三特征, 第三特征经历不同尺度的下采样处理后得到至少一第四特征, 第四特征和
第三特征共同输入空间调制共同注意力机制模块得到至少一多尺度语义特征, 多尺度语义
特征输入多尺度预测头部进行目标检测得到待检测目标, 其中主干网络包括多层下采样
层, 聚焦Transformer模块包括串 联的第一聚焦 模块和第二聚焦 模块, 所述第一聚焦模块由
层归一化和聚焦自注意力机制组成, 所述第二聚焦模块由层归一 化和多层感知机组成。
2.根据权利要求1所述的多尺度目标检测模型的构建方法, 其特征在于, 第 一特征输入
到第一聚焦 模块后得到第一聚焦特征, 第一聚焦特征和第一特征融合后再输入第二聚焦模
块中得到第二聚焦特征, 第二聚焦特征和第一聚焦特征融合后得到第三聚焦特征, 第三聚
焦特征被特征重塑后得到第三特 征。
3.根据权利要求2所述的多尺度目标检测模型的构建方法, 其特征在于, 第 一特征在经
历层归一化后输入聚焦自注意力机制, 输入到聚焦自注意力机制的特征图被窗口划分为不
同层级的特征区域, 每一特征区域内均含有相同的查询特征, 每一特征区域经历对应尺度
的子窗口池化后被平展得到平展图, 所有平展图共同融合后得到融合图, 融合图经历线性
投影后获取values特征向量和keys特征向量, 查询特征被平展后并进行线性投影获取线性
投影图, 线性投影图、 values特征向量和keys特征向量共同输入多头部注意力网络中得到
第一聚焦特 征。
4.根据权利要求3所述的多尺度目标检测模型的构建方法, 其特征在于, 在 “每一特征
区域经历对应尺度的子窗口池化后被平展得到平展图 ”步骤中, 小尺度的特征区域对应的
子窗口池化尺度小。
5.根据权利要求1所述的多尺度目标检测模型的构建方法, 其特征在于, 所述多层感知
机包括依次连接的第一全连接层、 SUM激活函数、 第二全连接层、 第一Dropout层、 第三全连
接层以及第二Dropout层。
6.根据权利要求1所述的多尺度目标检测模型的构建方法, 其特征在于, 空间调制共同
注意力机制模块包括编 码器和解码器, 所有第四特征和所述第三特征在所述编 码器内利用
层内自注意力编码、 层间自注 意力编码、 线性投影后得到Keys特征向量和Valu es特征向量;
在所述解码器内, 目标查询向量通过多层感知机生成空间先验特征, keys特征向量和目标
查询向量相乘得到共同注意力特征, 共同注意力特征与对应的空间先验特征映射地相乘 得
到多尺度调制共同注 意力特征, 多尺度调制共同注意力特征在不同分支中经过对应的共同
注意力权重处理后得到多尺度聚合特征, 处理所述多尺度聚合特征输出至少一多尺度语义
特征。
7.根据权利要求6所述的多尺度目标检测模型的构建方法, 其特征在于, 所有第四特征
和第三特征分别利用层内 自注意力编 码得到对应的特征向量, 所有特征向量经历特征堆叠
后得到多尺度特征向量, 多尺度特征向量经历层间自注意力编 码后得到多尺度自注意力特
征, 多尺度自注意力特 征分别经 过线性投影得到K eys特征向量和Values特 征向量。
8.根据权利要求6所述的多尺度目标检测模型的构建方法, 其特征在于, 在 “处理所述权 利 要 求 书 1/2 页
2
CN 114863368 B
2多尺度聚合特征输出至少一多尺度语义特征 ”步骤中, 多尺度聚合特征和values特征向量
合并处理后得到交叉注意力特征, 交叉注意力特征和目标查询向量融合后经历特征向量重
塑输出至少一多尺度语义特 征。
9.一种多尺度目标检测模型, 其特征在于, 根据权利要求1到8任一所述的多尺度目标
检测模型的构建方法构建得到 。
10.一种多尺度目标检测方法, 基于依次连接的主干网络、 聚焦Transformer模块、 空间
调制共同注意力机制模块以及多尺度预测头部的多尺度目标检测模型进 行目标检测, 其特
征在于, 包括以下步骤:
获取包含待检测目标的待检测图像;
主干网络包括多层下采样层, 聚焦Transformer模块包括串联的第一聚焦模块和第二
聚焦模块, 所述第一聚焦模块由层归一化和聚焦自注意力机制组成, 所述第二聚焦模块由
层归一化和多层感知机组成;
待检测图像在经过主干网络后得到第一特征, 第一特征输入到聚焦Transformer模块
中输出第二特征, 第二特征和第一特征融合后得到第三特征, 第三特征经历不同尺度的下
采样处理后得到至少一第四特征, 第四特征和 第三特征共同输入空间调制共同注意力机制
模块得到至少一多尺度语义特征, 多尺度语义特征输入多尺度预测头部进 行目标检测得到
待检测目标。
11.一种用于道路破损检测的多尺度目标检测模型, 其特征在于, 利用标注有道路破损
目标的道路图像训练权利要求9所述的多尺度目标检测模型 得到。
12.一种道路破损检测方法, 其特 征在于, 包括以下步骤:
获取涵盖道路区域的待检测图像;
所述待检测图像输入到权利要求11所述的用于道路破损检测的多目标检测模型中进
行检测, 若检测到破损目标, 则判断道路破损。
13.一种多尺度目标检测装置, 其特 征在于, 包括:
图像获取 单元, 用于获取包 含待检测目标的待检测图像;
检测单元, 用于将所述待检测图像输入到权利要求11所述的用于道路破损检测的多目
标检测模型中进行检测, 若检测到破损目标, 则判断道路破损。
14.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程
序, 所述处理器被设置为运行所述计算机程序以执行权利要求12所述的道路破损检测方法
或权利要求10所述的多尺度目标检测方法。
15.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计
算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据执行权利要求 12所
述的道路破损检测方法或权利要求10所述的多尺度目标检测方法。权 利 要 求 书 2/2 页
3
CN 114863368 B
3
专利 用于道路破损检测的多尺度目标检测模型、方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:34上传分享