(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210753795.8
(22)申请日 2022.06.30
(65)同一申请的已公布的文献号
申请公布号 CN 114821488 A
(43)申请公布日 2022.07.29
(73)专利权人 华东交通大 学
地址 330000 江西省南昌市经济技 术开发
区双港东大街808号
(72)发明人 余鹰 蔡震 钱进 汤洪 朱志亮
(74)专利代理 机构 南昌旭瑞知识产权代理事务
所(普通合伙) 36150
专利代理师 彭琰
(51)Int.Cl.
G06V 20/52(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/26(2022.01)
G06T 7/00(2017.01)(56)对比文件
Shufang L i et al. .Cross-modal
collaborative representati on and multi-
level supervisi on for cro wd counti ng.
《Signal, Ima ge and Video Proces sing》
.2022,
Haihan Tang et al. .TAFNet: A Thre e-
Stream Adaptive Fusi on Network for RGB-T
Crowd Counti ng. 《arXiv》 .202 2,
Shuo-Diao Yang et al. .DECCNet: Depth
Enhanced Cro wd Counti ng. 《2019 IE EE/CVF
Internati onal Conference o n Computer
Vision Workshop (IC CVW)》 .2020,
Shihui Zhang et al. .A cross-modal
fusion based ap proach with scale-aware
deep representati on for RGB-D cro wd
counting and density estimati on. 《Expert
Systems With Applications》 .2021,
审查员 姜蝶
(54)发明名称
基于多模态网络的人群计数方法、 系统及计
算机设备
(57)摘要
本发明提出一种基于多模态网络的人群计
数方法、 系统及计算机设备, 该方法包括: 将各种
模态下的人群图像均分割成预设份数的待训练
图像, 对各种模态下的待训练图像进行预编码;
将相同待训练图像中对应的多种第一特征向量
进行映射融合, 得到第二特征向量; 根据位置信
息和像素信息将不同模态下表示同一区域的待
训练图像进行特征分离及融合, 得到多种第三特
征向量, 以根据第三特征向量对初始人群计数模
型训练, 得到最终人群计数模型; 获取双模态下
分别对应的待识别图像, 并将待识别图像输入到
最终人群计数模 型中。 本发明提出的基于多模态
网络的人群计数方法, 能够更好地应用于夜间或
人群拥挤等复杂环境的人群计数, 得到更准确的人群预测数量。
权利要求书3页 说明书10页 附图4页
CN 114821488 B
2022.11.01
CN 114821488 B
1.一种基于多模态网络的人群 计数方法, 其特 征在于, 所述方法包括:
获取两种 模态下的人群图像, 并将各种模态下的人群图像均分割成预设份数的待训练
图像, 对各种模态下的待训练图像进行预编码, 以将预编码后的向量输入到transformer
中, 经过四个特征编码器进行特征提取, 以得到与每份待训练图像对应的多种第一特征向
量, 其中第二个特 征提取器与第四个特 征提取器采取跳跃 连接;
将相同待训练图像中对应的多种第 一特征向量进行映射融合, 以得到与每一待训练图
像对应的第二特征向量, 所述第二特征向量均包括对应待训练图像中的像素信息以及与所
述像素信息对应的位置信息;
根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特
征分离及融合, 得到多种第三特征向量, 以根据所述第三特征向量对基于transformer构建
的初始人群 计数模型训练, 得到最终人群 计数模型;
获取双模态下分别对应的待识别图像, 并将所述待识别图像输入到所述最终人群计数
模型中, 得到预测人群数量;
所述第三特征向量包括输入阶段对应的初始输入特征、 分离 融合阶段对应的分离特征
以及输出阶段对应的输出特征, 根据输出阶段对应的输出特征进行卷积操作, 得到融合特
征卷积图, 并根据所述融合特征卷积图对所述初始人群计数模型进行回归训练, 当得到的
loss值趋于稳定, 得到最终人群 计数模型, 其中:
根据以下公式获取 所述初始输入特 征:
其中, Fs0表示第一次训练时的输出阶段对应的初始输入特征, FR表示第一种模态下的
第二特征向量, FT表示第二种模态下的第二 特征向量, FS (t)表示第t次训练的初始输入特征,
FS (t‑1)表示第 (t ‑1) 次训练的初始输入特 征;
根据以下公式获取 所述分离特 征:
其中, Fr表示第一种模态下的第二特征向量与初始输入特征的区别特征, Ft表示第二种
模态下的第二特征向量与初始输入特征的区别特征, F ´S (t)表示第t次训练下经过前向传 播
后的初始输入特 征;
根据以下公式获取 所述输出 特征:
其中, Fout表示输出特征, bR表示第一种模态 下的第二特征向量的注意力权重, bT表示第
二种模态下的第二特 征向量的注意力权 重, 所述注意力权 重通过自适应训练得到;
根据以下公式对所述输出 特征进行卷积操作, 以得到融合特 征图:
其中, F表示融合当前卷积操作对应的融合特征图, Sigmoid ( ·) 表示对卷积后的输出
特征作非线性激活的函数, co nv1*1 (·) 表示以卷积核为1*1的尺寸对输出 特征进行卷积。
2.根据权利要求1所述的基于多模态网络的人群计数方法, 其特征在于, 所述获取两种权 利 要 求 书 1/3 页
2
CN 114821488 B
2模态下的人群图像, 并将各种模态下 的人群图像均分割成预设份数 的待训练图像, 对各种
模态下的待训练图像进行预编 码, 以得到与每份待训练图像对应的多种第一特征向量的步
骤包括:
若第一种模态下的人群图像为RGB图像, 则将每一通道下的所述RGB图像切割成第一预
设份数的待训练图像, 所述RGB图像包括 三通道;
将各个通道下的所有待训练图像与第 一预设个数的卷积核进行卷积, 并根据第 一卷积
结果进行向量拉伸, 以得到RGB特 征向量。
3.根据权利要求2所述的基于多模态网络的人群计数方法, 其特征在于, 所述获取两种
模态下的人群图像, 并将各种模态下 的人群图像均分割成预设份数 的待训练图像, 对各种
模态下的待训练图像进行预编 码, 以得到与每份待训练图像对应的多种第一特征向量的步
骤还包括:
若第二种模态下的人群图像为热力图像或深度图像, 则将单通道下的热力图像或深度
图像切割成第二预设份数的待训练图像;
将获得的第 二预设份数的待训练图像与第 二预设个数的卷积核做卷积, 并根据第 二卷
积结果进行向量拉伸, 得到热力特征向量或深度特征向量, 所述热力特征向量或所述深度
特征向量均 与所述RGB特 征向量的数量相等。
4.根据权利要求3所述的基于多模态网络的人群计数方法, 其特征在于, 所述将相同待
训练图像中对应的多种第一特征向量进行映射融合, 以得到与每一待训练图像对应的第二
特征向量的步骤 包括:
将同一待训练图像在不同阶段下得到的所述第 一特征向量进行连接, 并对连接后的第
一特征向量进行多层感知, 以根据多层感知结果对连接后的第一特征向量进行编码, 得到
所述第二特 征向量, 所述第一特 征向量与所述第二特 征向量的维度相等。
5.根据权利要求1所述的基于多模态网络的人群计数方法, 其特征在于, 根据以下公式
获取所述融合特 征图在本次卷积 操作中的损失值:
其中, Ldensity表示当前卷积操作得到的融合特征图的损失值, N表示的是一次训练图片
的总数量, Fipre表示第i张图片的预测的特征图结果(i= 1, 2,…, N), FiGT为第i张训练图片的
真实密度图。
6.一种基于多模态网络的人群计数系统, 其特征在于, 所述基于多模态网络的人群计
数系统包括:
前端特征提取模块, 用于获取两种模态下的人群图像, 并将各种模态下的人群图像均
分割成预设份数 的待训练图像, 对各种模态下 的待训练图像进行预编码, 以将预编码后的
向量输入到transformer中, 经过四个特征编码器进行特征提取, 以得到与每份待训练图像
对应的多种第一特 征向量, 其中第二个特 征提取器与第四个特 征提取器采取跳跃 连接;
上下文感知模块, 用于将相同待训练图像中对应的多种第一特征向量进行映射融合,
以得到与每一待训练图像对应的第二特征向量, 所述第二特征向量均包括对应待训练图像
中的像素信息以及与所述像素信息对应的位置信息;
自适应特征融合模块, 用于根据所述位置信 息和所述像素信 息将不同模态下表示同一权 利 要 求 书 2/3 页
3
CN
专利 基于多模态网络的人群计数方法、系统及计算机设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:35上传分享