专利 水下单目视觉估计目标三维位姿的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210166778.4 (22)申请日 2022.02.23 (71)申请人中国海洋大学地址 266100 山东省青岛市崂山区松岭路 238号 (72)发明人葛宪威　迟书凯　贾威　 (74)专利代理机构青岛清泰联信知识产权代理有限公司 3725 6 专利代理师徐艳艳 (51)Int.Cl. G06T 7/70(2017.01) G06V 20/05(2022.01) G06V 10/25(2022.01) G06V 10/762(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称水下单目视觉估计目标三维位姿的方法 (57)摘要本发明涉及一种水下单目视觉估计目标三维位姿的方法，该方法采用改进的YOL Ov3神经网络构建神经网络模型并对神经网络模型进行训练，利用训练后的模型检测目标物图像中的目标物，得到目标物上四个特征点像素坐标；根据构建的折射补偿模型计算折射前后的补偿系数，根据折射前后的补偿系数计算得到补偿后的四个特征点像素坐标；根据补偿后的四个特征点像素坐标，结合已知先验信息，建立位姿估计模型；求解位姿估计模型得到目标物相对于相机的三维位姿。本发明用于估计水下规则目标三维位姿，满足在复杂多变的水下环境里对目标进行准确检测，且位姿估计精度高。权利要求书4页说明书11页附图5页 CN 114549629 A 2022.05.27 CN 114549629 A 1.一种水下单目视觉估计目标三维位姿的方法，其特征在于，其具体步骤为：构建神经网络模型步骤：在YOLOv3神经网络的主干网络中加入重组层代替卷积层和池化层，引入实例归一化代替YOLOv3神经网络早期层中的批归一化，建立神经网络模型；训练神经网络模型步骤：对神经网络模型进行训练得到训练后的神经网络模型；目标检测步骤：通过训练后的神经网络模型对获取的水下目标物图像中的目标物进行检测，得到目标物四个角点的预测框，取预测框的中点像素坐标作为目标物的特征点坐标，得到目标物上四个特征点像素坐标；构建折射补偿模型步骤：根据目标物实际位置、发生折射位置及水中折射后的投影位置构建折射补偿模型；折射补偿步骤：根据折射补偿模型计算折射前后的补偿系数，根据折射前后的补偿系数计算得到补偿后的四个特征点像素坐标；构建位姿估计模型步骤：根据补偿后的四个特征点像素坐标，结合已知先验信息，在目标物上建立世界坐标系，得到四个特征点在真实世界坐标系下的3D坐标，并以垂直于相机相面的方向为Z轴建立相机坐标系，四个特征点建立世界坐标系与相机坐标系之间的转换关系，该转换关系即为构建的位姿估计模型；三维位姿估计步骤：求解位姿估计模型得到目标物的世界坐标系与相机坐标系之间的转换关系，该转换关系即为目标物相对于相机的三维位姿。 2.如权利要求1所述的水下单目视觉估计目标三维位姿的方法，其特征在于，构建神经网络模型步骤中，所述重组层是将每个通道上大小为2*2的图像块中4个像素点进行拆解，然后重新排列成4个通道的大小为1*1图像块的结构层。 3.如权利要求1所述的水下单目视觉估计目标三维位姿的方法，其特征在于，构建神经网络模型步骤中，所述实例归一化表示为：式中， yncij为归一化后的值， xncij为一个图层中特征图的第ncij个元素，其中， i和j为空间维度， c为特征通道， n为批次中的第n个图像； μnc为第n个图像的第c个特征通道中的平均差， σnc为第n个图像的第c个特征通道中的方差， ∈为常数， H0为特征图的高度， W0为特征图的宽度。 4.如权利要求1所述的水下单目视觉估计目标三维位姿的方法，其特征在于，构建神经网络模型步骤中，对Y OLOv3神经网络的损失函数进行改进，转化为区域框对角线的损失，则神经网络模型的损失函数表示为：权　利　要　求　书 1/4 页 2 CN 114549629 A 2式中， Ci为目标的类别； Pi为属于某个类别的概率；为第i个网格的第j个anchor box 是否负责预测该目标，如果负责则为 1，否则为0； w0为预测框的宽， h0为预测框的高； w0'为真实框的宽， h0'为真实框的高，为特征图中所有网格， s为特征图的边长，为遍历每个网格对应的预测框， xi和yi为特征图中第i个网格的预测框的坐标， xi′和yi′为特征图中第i个网格的真实框的坐标， λcoord为λcoord对应项的权值系数， λnoobj为λnoobj对应项的权值系数，为第i个网格的第j个anch or box是否不负责预测该目标，如果不负责则为1，否则为0，为特征图中第j个网格的预测框的类别，为特征图中第j个网格的真实框的类别，为特征图中第j个网格的预测框的置信度，为特征图中第j个网格的真实框的置信度。 5.如权利要求1所述的水下单目视觉估计目标三维位姿的方法，其特征在于，构建神经网络模型步骤中，还对YOLOv3神经网络中的大、中、小三个分支的大分支进行剪枝处理，仅保留用于检测中等目标和小目标的中、小两个分支。 6.如权利要求1所述的水下单目视觉估计目标三维位姿的方法，其特征在于，训练神经网络模型步骤中，在训练神经网络模型之前，首先对待检测区域进行数据集标注，然后设定 anchor box的尺寸，通过聚类得到最优的9簇anc hor box，此时进行申请网络模型训练。 7.如权利要求6所述的水下单目视觉估计目标三维位姿的方法，其特征在于，对待检测区域进行数据集标注的方法为： (1)将现有的数据集图像旋转随机角度，并在设定范围内随机调整图像亮度； (2)对调整后的图像做自适应直方图均衡化处理，在设定范围内随机调整颜色对比度阈值以及进行像素均衡化的网格大小，得到不同对比度及亮度情况下的数据集样本，待样本满足设定要求后使用label img2进行数据集标注。 8.如权利要求1所述的水下单目视觉估计目标三维位姿的方法，其特征在于，构建折射补偿模型步骤中，构建折射补充模型的具体步骤为：将像素坐标系转换为图像坐标系，有：权　利　要　求　书 2/4 页 3 CN 114549629 A 3

专利 水下单目视觉估计目标三维位姿的方法

专利水下单目视觉估计目标三维位姿的方法