专利 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210415251.0 (22)申请日 2022.04.20 (65)同一申请的已公布的文献号申请公布号 CN 114782691 A (43)申请公布日 2022.07.22 (73)专利权人安徽工程大学地址 241000 安徽省芜湖市鸠江区北京中路安徽工程大学 (72)发明人陈孟元　韩朋朋　王伟　徐韬　刘金辉　 (74)专利代理机构芜湖思诚知识产权代理有限公司 34138 专利代理师项磊 (51)Int.Cl. G06V 10/26(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06T 7/579(2017.01) G06T 7/73(2017.01) G06T 5/50(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员吴媛媛 (54)发明名称基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 (57)摘要本发明公开了基于深度学习的机器人目标识别与运动检测方法、存储介质及设备，其中方法包括下列步骤：步骤S1、通过融合注意力机制和位置编码的实例分割网络对潜在动态物体所在区域添加掩膜；步骤S2、利用场景中实例分割掩膜外的静态特征点对相机位姿进行估计；步骤 S3，通过相机位姿估计出物体位姿变换矩阵；步骤S4，由运动视差与微分熵之间关系判断出物体特征点运动状态，从而判断整个物体运动状态；步骤S5，剔除其中的动态物体，并修复剔除区域的静态背景，用于位姿估计与地图构建。本发明提高被遮挡动态物体分割边界的精确度，剔除动态区域特征点减少动态物体对系统的影响。权利要求书3页说明书11页附图13页 CN 114782691 B 2022.10.11 CN 114782691 B 1.基于深度学习的机器人目标识别与运动检测方法，其特征在于：包括下列步骤：步骤S1、通过融合注意力机制和位置编码的实例分割网络对潜在动态物体所在区域添加掩膜；步骤S2、利用场景中实例分割掩膜外的静态特征点对相机位姿进行估计；步骤S3，由于相机位姿与物体位姿投影在同一张图像中具有耦合关系，通过相机位姿估计出物体位姿变换矩阵；步骤S4，求出潜在运动物体上所有点运动视差中位数，并根据位姿优化过程得到运动不确定性微分熵，由运动视差与微分熵之间关系判断出物体特征点运动状态，从而判断整个物体运动状态；步骤S5，剔除其中的动态物体，并修复剔除区域的静态背景，根据信息熵与交叉熵筛选出其中的高质量特征点用于位姿估计与地图构建；所述步骤S1中，多注意力模块由通道注意力机制和空间注意力机制两个子网络组成，将输入特征图F分别在通道维度和空间维度进行连接，并将对应获取的通道维度特征图F ′ 与空间维度特征图F ″进行concat融合得到输出F ″ ′；以加强被遮挡物体部分的像素权重，提高遮挡物体的识别率，通道注意力机制作用为将特征图中各层通道分配相应权重，空间注意力其主要作用为增加特征图中被遮挡位置像素值权重，经过学习不断调整各个权重值，进而引导网络关注遮挡部分所在区域，由此对潜在动态物体所在区域添加掩膜；所述步骤S1中，将H ×W×C的输入特征图F输入到通道注意力机制中，对特征图进行全局注意平均池化和最大池化操作，从而得到特征图每个通道的信息，通过平均池化和最大池化获得的特征Favg与Fmax经过全连接层FC模块加强通道之间关联性，并对各通道权重进行重新分配，更好地对遮挡特征进行学习，经过通道注意力机制获得的输出fv计算方式如下所示： fv＝σ((Favg+Fmax)η β ) 其中， σ 表示Sigmoid函数， η表示ReLU函数， β 为全连接层的参数，最后用fv对输入特征图 F进行逐层通道加权得到通道维度特征图F′， H、 W和C分别表示高、宽和通道数；步骤S1中，还将输入特征图F输入空间注意力机制，通过平均池化和最大池化后进行 concat融合形成H ×W×2特征图fc，再通过3 ×3×1卷积层和Sigmoid函数处理得到空间注意图fu，其计算方式如下所示： fu＝σ(c(fc)) 其中， fu为空间注意图， fc为H×W×2特征图， σ 表示Sigmoid函数， c为3 ×3×1卷积网络，将fu与输入特征图F连接得到经空间注意力加权后的空间维度特征图F″；所述步骤S 1中提出一种相对位置编码算法，该算法使用点积计算输入元素之间相关性分数eij，其计算方式如下所示：其中， eij为输入元素之间相关性分数， σ 为可训练参数初始值为1，为二维相对位置权重，且与transformer网络中的query参数交互； WQ、 WK为可训练参数矩阵； Pi、 Pj为图像块的输入， i、 j为输入图像块序号，对应前述的像素Ii， Ij， dz表示输出矩阵维度；将相对位权　利　要　求　书 1/3 页 2 CN 114782691 B 2置编码融入Transformer网络构建融合相对位置编码Transformer模块，通过像素间距离重新分配像素权重，加强遮挡物体与被遮挡物体之间边界语义信息，提高被遮挡动态物体分割边界的精确度；步骤S2中，机器人在实时运行过程中，在已知摄像机标定参数和特征点深度前提下，将空间中静态点m从参考帧Fk‑1关联到后一帧Fk，其计算方式为： mk＝Δ[HcΔ‑1Ik‑1(mk‑1， dk‑1)] 其中， Δ和Δ‑1分别对应投影函数和反向投影函数，该函数是由相机内参与外参构成， Hc∈SE(3)为相机姿态的相对变换矩阵， SE(3)为李代数矩阵； Ik‑1为空间静态点投影到Fk‑1 中3D点，坐标为(mk‑1， dk‑1)，其中mk‑1为该点在帧Fk‑1中的2D像素坐标， dk‑1为该点在帧Fk‑1中的深度； mk为空间静态点投影到Fk中2D像素坐标；相机位姿求解公式如下所示，通过计算重投影误差求解得到相机位姿， e(Hc)＝m′k‑Δ[Ik‑1(mk‑1， dk‑1)Δ‑1Hcexp(hc)] 其中， e(Hc)为Hc的重投影误差， Hc∈SE(3)为相机姿态的相对变换矩阵， hc∈se(3)为相机姿态相对变换向量，由Hc变换得到； Ik‑1为物体特征点投影到Fk‑1中3D点，其中mk‑1为该点在帧Fk‑1中的2D像素坐标， dk‑1为该点在帧Fk‑1中的深度； m ′k为前一帧Fk‑1中2D像素坐标mk‑1 投影到当前帧的2D像素坐标， Δ和Δ‑1分别对应投影函数和反向投影函数， exp( ·)为从李代数向量变换到李群矩阵三维变换；将定义为从se(3)映射到的符号运算，最小二乘解如下所示，其中， ρh为惩罚因子， ∑p为重投影误差的协方差矩阵， n为残差运算所需3D点投影至2D 点数量， e(hc)为hc的重投影误差，通过求解hc变换可以得到相机位姿的相对变换矩阵Hc，通过优化求解得到相机位姿；所述步骤S3中，依据相机运动估计物体位姿变换矩阵Hc∈SE(3)，将潜在动态对象建模为一个带有位姿变换矩阵Ho的实体，将空间中动态点从参考帧Fk‑1关联到后一帧Fk，其计算方式如下：其中， Hc∈SE(3)为相机运动估计物体位姿变换矩阵， Ho∈SE(3)为物体姿态的相对变换矩阵， I′k‑1为空间中动态点投影到Fk‑1帧中3D点，为深度图像帧Fk‑1中2D像素坐标，为帧Fk‑1中坐标点深度，为该点在帧Fk中的2D点坐标， Δ和Δ‑1分别对应投影函数和反向投影函数，该函数是由相机内参与相机外参构成；通过重投影误差与最小二乘法计算得到物体位姿变换矩阵Ho，其计算公式如下所示：其中， e(Ho)为重投影误差， ho∈se(3)为物体姿态相对变换向量，由Ho变换得到， nb为相应残差运算所需3D点投影至2D点数量，为前一帧Fk‑1中2D像素坐标投影到当前帧的 2D像素坐标， exp( ·)为从李代数向量变换到李群矩阵三维变换；该方法通过将误差值最小权　利　要　求　书 2/3 页 3 CN 114782691 B 3

专利 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备

专利基于深度学习的机器人目标识别与运动检测方法、存储介质及设备