专利 基于多模态网络的人群计数方法、系统及计算机设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210753795.8 (22)申请日 2022.06.30 (65)同一申请的已公布的文献号申请公布号 CN 114821488 A (43)申请公布日 2022.07.29 (73)专利权人华东交通大学地址 330000 江西省南昌市经济技术开发区双港东大街808号 (72)发明人余鹰　蔡震　钱进　汤洪　朱志亮　 (74)专利代理机构南昌旭瑞知识产权代理事务所(普通合伙) 36150 专利代理师彭琰 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/26(2022.01) G06T 7/00(2017.01)(56)对比文件 Shufang L i et al. .Cross-modal collaborative representati on and multi- level supervisi on for cro wd counti ng. 《Signal, Ima ge and Video Proces sing》 .2022, Haihan Tang et al. .TAFNet: A Thre e- Stream Adaptive Fusi on Network for RGB-T Crowd Counti ng. 《arXiv》 .202 2, Shuo-Diao Yang et al. .DECCNet: Depth Enhanced Cro wd Counti ng. 《2019 IE EE/CVF Internati onal Conference o n Computer Vision Workshop (IC CVW)》 .2020, Shihui Zhang et al. .A cross-modal fusion based ap proach with scale-aware deep representati on for RGB-D cro wd counting and density estimati on. 《Expert Systems With Applications》 .2021, 审查员姜蝶 (54)发明名称基于多模态网络的人群计数方法、系统及计算机设备 (57)摘要本发明提出一种基于多模态网络的人群计数方法、系统及计算机设备，该方法包括：将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码；将相同待训练图像中对应的多种第一特征向量进行映射融合，得到第二特征向量；根据位置信息和像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据第三特征向量对初始人群计数模型训练，得到最终人群计数模型；获取双模态下分别对应的待识别图像，并将待识别图像输入到最终人群计数模型中。本发明提出的基于多模态网络的人群计数方法，能够更好地应用于夜间或人群拥挤等复杂环境的人群计数，得到更准确的人群预测数量。权利要求书3页说明书10页附图4页 CN 114821488 B 2022.11.01 CN 114821488 B 1.一种基于多模态网络的人群计数方法，其特征在于，所述方法包括：获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以将预编码后的向量输入到transformer 中，经过四个特征编码器进行特征提取，以得到与每份待训练图像对应的多种第一特征向量，其中第二个特征提取器与第四个特征提取器采取跳跃连接；将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量，所述第二特征向量均包括对应待训练图像中的像素信息以及与所述像素信息对应的位置信息；根据所述位置信息和所述像素信息将不同模态下表示同一区域的待训练图像进行特征分离及融合，得到多种第三特征向量，以根据所述第三特征向量对基于transformer构建的初始人群计数模型训练，得到最终人群计数模型；获取双模态下分别对应的待识别图像，并将所述待识别图像输入到所述最终人群计数模型中，得到预测人群数量；所述第三特征向量包括输入阶段对应的初始输入特征、分离融合阶段对应的分离特征以及输出阶段对应的输出特征，根据输出阶段对应的输出特征进行卷积操作，得到融合特征卷积图，并根据所述融合特征卷积图对所述初始人群计数模型进行回归训练，当得到的 loss值趋于稳定，得到最终人群计数模型，其中：根据以下公式获取所述初始输入特征：其中， Fs0表示第一次训练时的输出阶段对应的初始输入特征， FR表示第一种模态下的第二特征向量， FT表示第二种模态下的第二特征向量， FS （t）表示第t次训练的初始输入特征， FS （t‑1）表示第（t ‑1）次训练的初始输入特征；根据以下公式获取所述分离特征：其中， Fr表示第一种模态下的第二特征向量与初始输入特征的区别特征， Ft表示第二种模态下的第二特征向量与初始输入特征的区别特征， F ´S （t）表示第t次训练下经过前向传播后的初始输入特征；根据以下公式获取所述输出特征：其中， Fout表示输出特征， bR表示第一种模态下的第二特征向量的注意力权重， bT表示第二种模态下的第二特征向量的注意力权重，所述注意力权重通过自适应训练得到；根据以下公式对所述输出特征进行卷积操作，以得到融合特征图：其中， F表示融合当前卷积操作对应的融合特征图， Sigmoid （ ·）表示对卷积后的输出特征作非线性激活的函数， co nv1*1 （·）表示以卷积核为1*1的尺寸对输出特征进行卷积。 2.根据权利要求1所述的基于多模态网络的人群计数方法，其特征在于，所述获取两种权　利　要　求　书 1/3 页 2 CN 114821488 B 2模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量的步骤包括：若第一种模态下的人群图像为RGB图像，则将每一通道下的所述RGB图像切割成第一预设份数的待训练图像，所述RGB图像包括三通道；将各个通道下的所有待训练图像与第一预设个数的卷积核进行卷积，并根据第一卷积结果进行向量拉伸，以得到RGB特征向量。 3.根据权利要求2所述的基于多模态网络的人群计数方法，其特征在于，所述获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以得到与每份待训练图像对应的多种第一特征向量的步骤还包括：若第二种模态下的人群图像为热力图像或深度图像，则将单通道下的热力图像或深度图像切割成第二预设份数的待训练图像；将获得的第二预设份数的待训练图像与第二预设个数的卷积核做卷积，并根据第二卷积结果进行向量拉伸，得到热力特征向量或深度特征向量，所述热力特征向量或所述深度特征向量均与所述RGB特征向量的数量相等。 4.根据权利要求3所述的基于多模态网络的人群计数方法，其特征在于，所述将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量的步骤包括：将同一待训练图像在不同阶段下得到的所述第一特征向量进行连接，并对连接后的第一特征向量进行多层感知，以根据多层感知结果对连接后的第一特征向量进行编码，得到所述第二特征向量，所述第一特征向量与所述第二特征向量的维度相等。 5.根据权利要求1所述的基于多模态网络的人群计数方法，其特征在于，根据以下公式获取所述融合特征图在本次卷积操作中的损失值：其中， Ldensity表示当前卷积操作得到的融合特征图的损失值， N表示的是一次训练图片的总数量， Fipre表示第i张图片的预测的特征图结果(i= 1， 2，…， N)， FiGT为第i张训练图片的真实密度图。 6.一种基于多模态网络的人群计数系统，其特征在于，所述基于多模态网络的人群计数系统包括：前端特征提取模块，用于获取两种模态下的人群图像，并将各种模态下的人群图像均分割成预设份数的待训练图像，对各种模态下的待训练图像进行预编码，以将预编码后的向量输入到transformer中，经过四个特征编码器进行特征提取，以得到与每份待训练图像对应的多种第一特征向量，其中第二个特征提取器与第四个特征提取器采取跳跃连接；上下文感知模块，用于将相同待训练图像中对应的多种第一特征向量进行映射融合，以得到与每一待训练图像对应的第二特征向量，所述第二特征向量均包括对应待训练图像中的像素信息以及与所述像素信息对应的位置信息；自适应特征融合模块，用于根据所述位置信息和所述像素信息将不同模态下表示同一权　利　要　求　书 2/3 页 3 CN

专利 基于多模态网络的人群计数方法、系统及计算机设备

专利基于多模态网络的人群计数方法、系统及计算机设备