(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210415251.0
(22)申请日 2022.04.20
(65)同一申请的已公布的文献号
申请公布号 CN 114782691 A
(43)申请公布日 2022.07.22
(73)专利权人 安徽工程大学
地址 241000 安徽省芜湖市鸠江区北京中
路安徽工程大学
(72)发明人 陈孟元 韩朋朋 王伟 徐韬
刘金辉
(74)专利代理 机构 芜湖思诚知识产权代理有限
公司 34138
专利代理师 项磊
(51)Int.Cl.
G06V 10/26(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06T 7/579(2017.01)
G06T 7/73(2017.01)
G06T 5/50(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 吴媛媛
(54)发明名称
基于深度学习的机器人目标识别与运动检
测方法、 存 储介质及设备
(57)摘要
本发明公开了基于深度学习的机器人目标
识别与运动检测方法、 存储介质及设备, 其中方
法包括下列步骤: 步骤S1、 通过融合注意力机制
和位置编码的实例分割网络对潜在动态物体所
在区域添加掩膜; 步骤S2、 利用场景中实例分割
掩膜外的静态特征点对相机位姿进行估计; 步骤
S3, 通过相机位姿估计出物体位姿变换矩阵; 步
骤S4, 由运动视差与微 分熵之间关系判断出物体
特征点运动状态, 从而判断整个物体运动状态;
步骤S5, 剔除其中的动态物体, 并修复剔除区域
的静态背景, 用于位姿估计与地图构建。 本发明
提高被遮挡动态物体分割边界的精确度, 剔除动
态区域特 征点减少动态 物体对系统的影响。
权利要求书3页 说明书11页 附图13页
CN 114782691 B
2022.10.11
CN 114782691 B
1.基于深度学习的机器人目标识别与运动检测方法, 其特 征在于: 包括下列步骤:
步骤S1、 通过融合注意力机制和位置编码的实例分割网络对潜在动态物体所在区域添
加掩膜;
步骤S2、 利用场景中实例分割掩膜外的静态特 征点对相机位姿 进行估计;
步骤S3, 由于相机位姿与物体位姿投影在同一张图像中具有耦合关系, 通过相机位姿
估计出物体位姿变换矩阵;
步骤S4, 求出潜在运动物体上所有点运动视差中位数, 并根据位姿优化过程得到运动
不确定性微分熵, 由运动视差与微分熵之间关系判断出物体特征点运动状态, 从而判断整
个物体运动状态;
步骤S5, 剔除其中的动态物体, 并修复剔除区域的静态背景, 根据信息熵与交叉熵筛选
出其中的高质量特 征点用于位姿估计与地图构建;
所述步骤S1中, 多注意力模块由通道注意力机制和空间注意力机制两个子网络组成,
将输入特征图F分别在通道维度和空间维度进行连接, 并将对应获取 的通道维度特征图F ′
与空间维度特征图F ″进行concat融合得到输出F ″ ′; 以加强被遮挡物体部 分的像素权重, 提
高遮挡物体的识别率, 通道注意力机制作用为将特征图中各层通道分配相应权重, 空间注
意力其主要作用为增加特征图中被遮挡位置像素值权重, 经过学习不断调整各个权重值,
进而引导网络关注遮挡部分所在区域, 由此对潜在动态 物体所在区域添加掩膜;
所述步骤S1中, 将H ×W×C的输入特征图F输入到通道注意力机制中, 对特征图进行全
局注意平均池化和最大池化操作, 从而得到特征图每个通道的信息, 通过平均池化和最大
池化获得的特征Favg与Fmax经过全连接层FC模块加强通道之间关联性, 并对 各通道权重进行
重新分配, 更好地对遮挡特征进行学习, 经过通道注意力机制获得的输出fv计算方式如下
所示:
fv=σ((Favg+Fmax)η β )
其中, σ 表示Sigmoid函数, η表示ReLU函数, β 为全连接层的参数, 最后用fv对输入特征图
F进行逐层通道加权得到通道维度特 征图F′, H、 W和C分别表示高、 宽和通道数;
步骤S1中, 还将输入特征图F输入空间注意力机制, 通过平均池化和最大池化后进行
concat融合形成H ×W×2特征图fc, 再通过3 ×3×1卷积层和Sigmoid函数处理得到空间注
意图fu, 其计算方式如下 所示:
fu=σ(c(fc))
其中, fu为空间注意图, fc为H×W×2特征图, σ 表示Sigmoid函数, c为3 ×3×1卷积网络,
将fu与输入特 征图F连接得到经空间注意力加权后的空间维度特 征图F″;
所述步骤S 1中提出一种相对位置编码算法, 该算法使用点积计算输入元素之间相关性
分数eij, 其计算方式如下 所示:
其中, eij为输入元素之间相关性分数, σ 为可训练参数初始值为1,
为二维相对
位置权重, 且与transformer网络中的query参数交互; WQ、 WK为可训练参数矩阵; Pi、 Pj为图
像块的输入, i、 j为输入图像块序号, 对应前述的像素Ii, Ij, dz表示输出矩阵维度; 将相对位权 利 要 求 书 1/3 页
2
CN 114782691 B
2置编码融入Transformer网络构建融合相对位置编码Transformer模块, 通过像素间距离重
新分配像素权重, 加强遮挡物体与被遮挡物体之间边界语义信息, 提高被遮挡动态物体分
割边界的精确度;
步骤S2中, 机器人在实时运行过程中, 在已知摄像机标定参数和特征点深度前提下, 将
空间中静态点m从参 考帧Fk‑1关联到后一帧Fk, 其计算方式为:
mk=Δ[HcΔ‑1Ik‑1(mk‑1, dk‑1)]
其中, Δ和Δ‑1分别对应投影函数和反向投影函数, 该函数是由相机内参与外参构成,
Hc∈SE(3)为相机姿态的相对变换矩阵, SE(3)为李代数矩阵; Ik‑1为空间静态点投影到Fk‑1
中3D点, 坐标为(mk‑1, dk‑1), 其中mk‑1为该点在帧Fk‑1中的2D像素坐标, dk‑1为该点在帧Fk‑1中
的深度; mk为空间静态点投影到Fk中2D像素坐标;
相机位姿求 解公式如下 所示, 通过计算重投影误差求 解得到相机位姿,
e(Hc)=m′k‑Δ[Ik‑1(mk‑1, dk‑1)Δ‑1Hcexp(hc)]
其中, e(Hc)为Hc的重投影误差, Hc∈SE(3)为相机姿态的相对变换矩阵, hc∈se(3)为相
机姿态相对变换向量, 由Hc变换得到; Ik‑1为物体特征点投影到Fk‑1中3D点, 其中mk‑1为该点
在帧Fk‑1中的2D像素坐标, dk‑1为该点在帧Fk‑1中的深度; m ′k为前一帧Fk‑1中2D像素坐标mk‑1
投影到当前帧的2D像素坐标, Δ和Δ‑1分别对应投影函数和反向投影函数, exp( ·)为从李
代数向量变换到李群矩阵三维变换;
将
定义为从se(3)映射到
的符号运算, 最小二乘解
如下所示,
其中, ρh为惩罚因子, ∑p为重投影误差的协方差矩阵, n为残差运算所需3D点投影至2D
点数量, e(hc)为hc的重投影误差, 通过求解hc变换可以得到相机位姿的相对变换矩阵Hc, 通
过优化求解得到相机位姿;
所述步骤S3中, 依据相机运动估计物体位姿变换矩阵Hc∈SE(3), 将潜在动态对象建模
为一个带有位姿变换矩阵Ho的实体, 将空间中动态点
从参考帧Fk‑1关联到后一帧Fk, 其计
算方式如下:
其中, Hc∈SE(3)为相机运动估计物体位姿变换矩阵, Ho∈SE(3)为物体姿态的相对变换
矩阵, I′k‑1为空间中动态点
投影到Fk‑1帧中3D点,
为深度图像帧Fk‑1中2D像素坐标,
为帧Fk‑1中坐标点深度,
为该点
在帧Fk中的2D点坐标, Δ和Δ‑1分别对应投影函数
和反向投影函数, 该函数 是由相机内参与相机 外参构成;
通过重投影误差与最小二乘法计算得到物体位姿变换矩阵Ho, 其计算公式如下 所示:
其中, e(Ho)为重投影误差, ho∈se(3)为物体姿态相对变换向量, 由Ho变换得到, nb为相
应残差运算所需3D点投影至2D点数量,
为前一帧Fk‑1中2D像素坐标
投影到当前帧的
2D像素坐标, exp( ·)为从李代数向量变换到李群矩阵三 维变换; 该方法通过将误差值最小权 利 要 求 书 2/3 页
3
CN 114782691 B
3
专利 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:37:59上传分享