安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210413969.6 (22)申请日 2022.04.14 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 李斌 龚小谨  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 林超 (51)Int.Cl. G06V 20/10(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 9/00(2006.01) (54)发明名称 一种基于跨模态知识蒸馏的深度特权视觉 里程计方法 (57)摘要 本发明公开了一种基于跨模态知识蒸馏的 深度特权 单目视觉里程计方法。 采集场景的彩色 图像和三维点云构建视觉 ‑激光里程计数据集; 输入视觉 ‑激光里程计网络和单目视觉里程计网 络中分别训练; 通过跨模态知识蒸馏模块来利用 视觉‑激光里程计网络对单目视觉里程计网络再 次训练; 训练结束后, 对待测的连续时刻的彩色 图像序列输入训练后的单目视觉里程计网络, 输 出得到全局位姿, 实现了单目视觉里程计的处 理。 本发明方法利用了更可靠的深度特权信息, 对弱纹理区域和光照变化等环境因素有更好的 鲁棒性, 取得了显著的性能提升, 有较好的通用 性和普适 性。 权利要求书6页 说明书12页 附图3页 CN 114743105 A 2022.07.12 CN 114743105 A 1.一种基于跨模态知识蒸馏的深度特权单目视 觉里程计方法, 其特 征在于, 方法包括: (1)使用彩色相机和激光雷达联合采集场景的彩色图像和三维点云, 构建视觉 ‑激光里 程计数据集; (2)将视觉 ‑激光里程计数据集输入视觉 ‑激光里程计网络VLO和单目视觉里程计网络 VO中使用优化 算法分别进行训练; (3)通过跨模态知识蒸馏模块来利用视觉 ‑激光里程计网络VLO进一步对单目视觉里程 计网络VO进行 再次训练; (4)训练结束后, 将待测的连续时刻的彩色图像序列分组后, 再分别输入训练后的单目 视觉里程计网络VO, 输出得到每组各自的目标帧彩色图像It对应的致密深度图 以及帧 间位姿 其中 为平移向量, 表示欧拉角向量; 最后将 各组的帧间位姿累乘获得全局位姿, 全局位姿作为待测的连续时刻的彩色图像序列的完整 运动轨迹, 实现了单目视 觉里程计的处 理。 2.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法, 其特 征在于: 所述步骤(1)具体为: 针对同一场景, 由彩色相机采集连续时刻下的彩色图像序列, 由激光雷达采集同样连续时刻下和彩色图像序列对应的三维点云序列, 再将三维点云序列 中的三维点云投影到彩色相机的相机成像平面得到稀疏深度图, 由彩色图像序列及其对应 的稀疏深度图序列组成视 觉‑激光里程计数据集。 3.根据权利要求2所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法, 其特 征在于: 所述的彩色图像序列中的彩色图像数量和稀疏深度图序列中的稀疏深度图数量均 相同, 且均为奇数; 将彩色图像序列和稀疏深度图序列中位于中间的一帧作为目标帧, 其余 帧均为参考帧。 4.根据权利要求1所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法, 其特 征在于: 所述视觉 ‑激光里程计网络VLO的网络结构包括视觉特征编码器、 深度特征编码器、 第 一深度解码 器和位姿 预测器; 视觉特征编 码器和深度特征编码器分别对彩色图像序列及其 对应的稀疏深度图序列处理, 从中提取视觉编码器特征和深度编码器特征, 视觉编码器特 征和深度编码 器特征经过局部融合后得到多模态编码特征Hvlo, 将视觉编码 器特征、 深度编 码器特征、 多模态编码特征Hvlo输入到第一深度解码器得到四个不同尺度的多模态致密深 度图 将多模态编码特征Hvlo输入到位姿预测器得到多模态预测帧间位姿 i∈{1, 2, 3, 4}, 其中i表示致密深度图的尺度阶数, 为多模态 预测平移向量, 表示多模态预测欧拉角向量。 5.根据权利要求4所述的基于跨模态知识蒸馏的深度特权单目视觉里程计方法, 其特 征在于: 所述视觉‑激光里程计网络VLO中, 所述的深度特征编码器主要由连续的五个卷积模块依次连接构 成, 稀疏深度图序列输 入到深度特征编码器中, 先按照时序对每三幅连续的稀疏深度图划分为一组, 将每组中的权 利 要 求 书 1/6 页 2 CN 114743105 A 2三幅稀疏深度图进行通道连接组成初始稀疏深度图输入特征, 将初始稀疏深度图输入特征 分别经连续的五个卷积模块依次处理, 第一个到第四个卷积模块的输出分别作为第一阶到 第四阶深度编码器特征, 尺度依 次减小, 第 五个卷积模块的输出作为第 五阶深度编码器特 征, 第四阶深度编码器特 征和第五阶深度编码器特 征的尺度相同; 所述的视觉特征编码器主要由连续的五个卷积模块依次连接构 成, 彩色图像序列输入 到视觉特征编码器中, 先按照时序对每三幅连续的彩色图像划分为一组, 将每组中的三幅 彩色图像的所有三个通道进行连接组成初始彩色图像输入特征, 将初始彩色图像输入特征 分别经连续的五个卷积模块依次处理, 第一个到第四个卷积模块的输出分别作为第一阶到 第四阶视觉编码器特征, 尺度依 次减小, 第 五个卷积模块的输出作为第 五阶视觉编码器特 征, 第四阶视 觉度编码器特 征和第五阶深度编码器特 征的尺度相同; 所述的第一深度解码器主要由五个尺度依次递增的反卷积模块、 四个第 一特征融合模 块和四个深度预测器构成, 五个反卷积模块依 次连接, 且在每相邻两个反卷积模块之间连 接设置有一个第一特征融合模块, 多模态编码特征Hvlo输入到第一个反卷积模块中; 第一个 反卷积模块的输出、 第一阶深度编码器特征、 第一阶视觉编码器特征均输入到第一个第一 特征融合模块, 第一个第一特征融合模块的输出直接输入到第二个反卷积模块中, 第二个 反卷积模块的输出经第一个深度预测器处理后输出第一阶尺度的多模态致密深度图 第二个反卷积模块的输出、 第二阶深度编码器特征、 第二阶视觉编码器特征均输 入到第二个第一特征融合模块, 第二个第一特征融合模块的输出直接输入到第三个反卷积 模块中, 第三个反卷积模块的输出经第二个深度预测器处理后输出第二阶尺度的多模态致 密深度图 第三个反卷积模块 的输出、 第三阶深度编码器特征、 第三阶视觉编码器 特征均输入到第三个第一特征融合模块, 第三个第一特征融合模块的输出直接输入到第四 个反卷积模块中, 第四个反卷积模块的输出经第三个深度预测器处理后输出第三阶尺度的 多模态致密深度图 第四个反卷积模块的输出、 第四阶深度编码器特征、 第四阶视 觉编码器特征均输入到第四个第一特征融合模块, 第四个第一特征融合模块的输出直接输 入到第五个反卷积模块中, 第五个反卷积模块的输出经第四个深度预测器处理后输出第四 阶尺度的多模态致密深度图 所述的第一特征融合模块中, 是先将从视觉特征编码器输出过来的视觉编码器特征和 从第一特征融合模块自身 前面紧邻相连的反卷积模块输出的特征进行连接, 将连接后的结 果再和从第一深度特征编码器输出过来的深度编码器特征进行相加作为第一特征融合模 块的输出; 所述的位姿预测器具体包括一个卷积模块和两个卷积池化单元, 卷积模块的输入为位 姿预测器的输入, 卷积模块的输出分别输入到两个卷积池化单元中, 两个卷积池化单元 的 输出作为位姿 预测器的输出; 每个卷积池化单元的结构相同, 均是由第一个卷积模块、 全局 平均池化模块和 第二个卷积模块依次连接构成, 每个全局平均池化模块均是由一个全局平 均池化操作构成, 两个卷积池化单元分别用于处理输出帧间位姿中的平移向量和欧拉角向 量。权 利 要 求 书 2/6 页 3 CN 114743105 A 3

.PDF文档 专利 一种基于跨模态知识蒸馏的深度特权视觉里程计方法

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 第 1 页 专利 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 第 2 页 专利 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:34:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。