(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210442789.0
(22)申请日 2022.04.25
(71)申请人 中国人民解 放军军事科学院国防科
技创新研究院
地址 100071 北京市丰台区东大街5 3号院
(72)发明人 张亚坤 张敬 吴竞寒 秦伟
印二威 谢良 罗治国 张皓洋
闫野
(74)专利代理 机构 北京丰浩知识产权代理事务
所(普通合伙) 11781
专利代理师 李强
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/143(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G10L 15/25(2013.01)
(54)发明名称
一种基于红外微光望远镜的多源融合唇语
识别方法和系统
(57)摘要
本发明公开了一种基于红外微光望远镜的
多源融合唇语识别方法和系统, 方法包括获取红
外热成像视频和微光视频, 提取唇部区域的红外
热成像图像数据和微光图像数据; 使用多源融合
唇语识别模型对唇部区域的红外热成像图像数
据和微光图像数据进行识别, 得到识别出的文
本; 将识别出的文本显示或发送至其他接收设
备。 本发明所提供的方法, 为在复杂光照环 境、 远
距离和特殊应用场合提供了更加安全可靠的信
息获取与交互方式, 弥补了单一视频数据来源特
征提取和唇部图像识别的局限性, 通过多源数据
特征融合建模极大地提高了唇语识别的准确性,
拓展了唇语识别技术的应用范围和场景, 为唇语
识别技术的发展提供了新的方向。
权利要求书4页 说明书11页 附图2页
CN 114821781 A
2022.07.29
CN 114821781 A
1.一种基于红外微光望远镜的多源融合唇语识别方法, 其特征在于, 所述多源融合唇
语识别方法包括:
获取红外热成像视频和微光视频, 提取唇部区域的红外热成像图像数据和微光图像数
据;
使用多源融合唇语识别模型对唇部区域的红外热成像图像数据和微光图像数据进行
识别, 得到识别出的文本;
将识别出的文本 显示或发送至其 他接收设备。
2.根据权利要求1所述的一种基于红外微光望远镜的多源融合唇语识别方法, 其特征
在于,
所述获取红外热成像视频和微光视频, 提取唇部区域的红外热成像图像数据和微光图
像数据包括:
采集红外热成像视频和微光成像视频后, 将视频数据进行分帧, 得到目标对象的红外
热成像图像序列和微 光图像序列;
根据所述目标对象的红外热成像图像序列和微光图像序列进行人脸检测和唇部区域
标记, 得到目标对象唇部区域的红外热成像图像数据和微 光图像数据;
所述根据所述目标对象的红外热成像图像序列和微光图像序列进行人脸检测和唇部
区域标记, 得到目标对象唇部区域的红外热成像图像数据和微 光图像数据包括:
使用动态多帧平均算法对红外热成像图像序列进行降噪; 使用帧间差分法确定目标对
象开始说话时的图像起始点和终止点; 根据人脸的几何结构比例 定位唇部区域, 得到目标
对象唇部区域的红外热成像图像数据;
使用帧积分法对微光图像序列进行图像降噪; 使用帧间差分法确定目标对象开始说话
时的图像起始点和终止点; 根据人脸的几何结构比例 定位唇部区域, 得到目标对 象唇部区
域的微光图像数据。
3.根据权利要求2所述的一种基于红外微光望远镜的多源融合唇语识别方法, 其特征
在于,
所述多源融合唇语识别模型使用如下 方式建立:
获取若干红外热成像视频和微光视频及对应的文本, 提取其唇部区域的红外热成像图
像数据和微 光图像数据;
将提取的红外热成像图像数据和微光图像数据及对应的文本送入到双CNN ‑ResNet‑
LSTM‑Bi‑LSTM‑RNN‑LM网络中进行 学习, 其中,
提取的红外热成像图像数据和微 光图像数据为输入数据, 对应的文本为输出 数据。
4.根据权利要求3所述的一种基于红外微光望远镜的多源融合唇语识别方法, 其特征
在于,
所述双CNN ‑ResNet‑LSTM‑Bi‑LSTM‑RNN‑LM网络, 包括两个CNN ‑ResNet‑LSTM网络, 一个
Bi‑LSTM网络, 一个RNN ‑LM网络; 两个CNN ‑ResNet‑LSTM网络输出部分分别 与Bi‑LSTM输入层
连接; Bi‑LSTM输出层与RN N‑LM输入层连接;
其中, 两个CNN ‑ResNet‑LSTM网络分别用于对红外热成像图像数据和微光图像数据分
别进行特征提取, 得到基于红外热成像图像的特征和基于微光图像的特征; Bi ‑LSTM用于对
基于红外热成像图像的特征和基于微光图像的特征进行融合, 得到多源融合唇部图像特权 利 要 求 书 1/4 页
2
CN 114821781 A
2征; RNN‑LM对融合后的多源融合唇部图像特征进行文本学习和匹配, 通过集束搜索得到最
大概率的输出文本 。
5.根据权利要求4所述的一种基于红外微光望远镜的多源融合唇语识别方法, 其特征
在于,
所述两个CNN ‑ResNet‑LSTM分别对 红外热成像图像数据和微光图像数据分别进行特征
提取包括:
使用CNN对红外热成像图像数据进行空间特征提取; 所述CNN由1个3D卷积层、 1个最大
池化层堆叠组成;
所述CNN卷积层对输入特 征做矩阵元素乘法求和并叠加偏差量, 如式(5)所示:
池化层如式6所示:
使用ResNet对目标红外热成像图像空间特 征进行数据降维;
所述ResNet网络共有三个残差单元后加自适应平均池化层, 第一个残差单元采用三对
64卷积核的卷积神经网络; 第二个残差单元采用四对128卷积核的卷积神经网络; 第三个残
差单元采用六对25 6卷积核的卷积神经网络;
残差单元如式7所示:
xl+1=h(xl)+F(xl,Wl) (7)
其中, xl表示残差模块中第l层的输入, Wl是第l层的神经网络权重系数, F是第l层的输
出函数, h(xl)=xl表示恒等映射, xl+1表示残差模块中第l+1层的输入;
使用LSTM增加红外热成像图像数据降维后空间特征的时序 特征, 得到基于红外热成像
图像的特 征;
所述LSTM的遗忘门输入 为逻辑单元输出层的输出值ht‑1和本层输入的序列数据xt, 如式
8所示:
ft=σ(Wf·[ht‑1,xt]+bf) (8)
其中, σ 表示激活函数sigmoid, bf是遗忘门偏置量, Wf是遗忘门的权值。 ht‑1为上一逻辑
单元输出层的输出值, xt为本层输入的序列数据, 前序特征 图经过输出门层的输出值和 当
前序列特 征图共同作为输入, ft即为当前遗 忘门层的输出;
LSTM的输入门包含两个部分, 第一部分使用sigmoid作为激活函数, 输 出为it, 第二部分
使用tanh作为激活函数, 输出如式9所示:
it=σ(Wi·[ht‑1,xt]+bi) (9)
其中, σ 表示激活函数sigmoid, bi是输入门偏置量, Wi是输入门的权值。 ht‑1为上一逻辑
单元输出层的输出值, xt为本层输入的序列数据, it即为当前输入门层的输出;
LSTM输入门的第二部分作为本层状态更新, 如式10所示:
权 利 要 求 书 2/4 页
3
CN 114821781 A
3
专利 一种基于红外微光望远镜的多源融合唇语识别方法和系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:34:01上传分享