专利 一种行人重识别模型训练的方法、装置和设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210181439.3 (22)申请日 2022.02.25 (71)申请人江南大学地址 214122 江苏省无锡市滨湖区蠡湖大道1800号 (72)发明人蒋敏　马磊　孔军　 (74)专利代理机构苏州市中南伟业知识产权代理事务所(普通合伙) 32257 专利代理师冯瑞 (51)Int.Cl. G06V 10/62(2022.01) G06V 40/10(2022.01) G06V 20/30(2022.01) G06V 10/42(2022.01) G06V 10/762(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种行人重识别模型训练的方法、装置和设备 (57)摘要本发明公开了一种行人重识别模型训练的方法、装置、设备以及计算机可读存储介质，包括：基于两个卷积神经网络构建两个行人重识别网络模型；将目标域图像集输入每个行人重识别网络模型中，利用卷积神经网络和Transformer 提取中间特征；利用全局子值池化模块对中间特征进行处理，输出最终特征值，并进行聚类分析，得到硬伪标签；构建每个行人重识别网络模型的时序平均模型，将目标域图像集输入每个时序平均模型中，得到软伪标签；利用软硬伪标签代优化行人重识别网络模型，选取目标行人重识别网络模型。本发明通过Transformer和全局子值池化模块获得高质量的特征信息，通过聚类得到更高质量的伪标签，大幅提高模型性能，提高行人重识别的准确度。权利要求书3页说明书12页附图6页 CN 114663685 A 2022.06.24 CN 114663685 A 1.一种行人重识别模型训练方法，其特征在于，包括：基于预训练的两个神经网络构建第一行人重识别网络模型和第二行人重识别网络模型，每个行人重识别网络模型包括卷积神经网络、 Transformer模块和全局子值池化模块；将目标域图像集分别输入所述第一行人重识别网络模型和第二行人重识别网络模型中，利用所述每个行人重识别网络模型中的所述卷积神经网络进行处理，利用所述 Transformer模块提取全局信息，得到中间特征；将所述中间特征输入所述全局子值池化模块中，利用所述全局子值池化模块进行池化处理，输出最终特征值，并进行聚类分析，得到所述每个行人重识别网络模型的硬伪标签；构建所述每个行人重识别网络模型的时序平均模型，将所述目标域图像集分别输入每个时序平均模型中，得到所述每个时序平均模型软伪标签；利用所述硬伪标签和所述软伪标签对所述第一行人重识别网络模型和第二行人重识别网络模型进行协同训练；选取两个时序平均模型中mAP精度值大的模型作为目标行人重识别网络模型。 2.如权利要求1所述的方法，其特征在于，所述利用所述每个行人重识别网络模型中的所述卷积神经网络进行处理，利用所述Transformer模块提取全局信息，得到中间特征包括：将所述目标域图像集输入所述每个行人重识别网络模型中，利用所述卷积神经网络进行处理，并进行空间维度展平得到特征f，将所述特征f附上cls标记得到特征fcls，并对所述特征fcls进行位置编码得到特征fcp；将所述特征fcp输入所述Transformer模块中，利用所述Transformer模块进行处理并进行转置和维度扩展，得到所述中间特征F。 3.如权利要求2所述的方法，其特征在于，所述将所述中间特征输入所述全局子值池化模块中，利用所述全局子值池化模块进行池化处理，输出最终特征值，并进行聚类分析，得到所述每个行人重识别网络模型的硬伪标签包括：将所述中间特征F输入所述全局子值池化模块中，提取所述全局子值池化模块任一通道的特征Fc，将所述特征Fc中的n个值进行降序排序，选取其中最大的k个值，进行加权求和得到中间特征重复上述步骤得到所述全局子值池化模块中所有通道的中间特征将所述所有通道的中间特征进行拼接得到所述最终特征利用所述最终特征进行聚类，生成所述硬伪标签；其中 ∑pi≡1， 1≤k≤n。 4.如权利要求1所述的方法，其特征在于，所述Transformer模块衍生于vision transformer模型中的模块结构。 5.如权利要求1所述的方法，其特征在于，所述构建所述每个行人重识别网络模型的时序平均模型，将所述目标域图像集分别输入每个时序平均模型中，得到所述每个时序平均模型软伪标签包括：根据E(T)[Θ]＝α E(T‑1)[Θ]+(1‑α )Θ分别构建第一时序平均模型和第二时序平均模型；将所述目标域图像集分别输入所述第一时序平均模型和所述第二时序平均模型中进权　利　要　求　书 1/3 页 2 CN 114663685 A 2行分类，得到第一软伪标签和第二软伪标签；其中， Θ为行人重识别网络模型的参数， E[Θ]为时序平均模型的参数， T为整个目标域阶段的迭代次数且E(0)[Θ]＝Θ， α 为范围在[0， 1)之间的超参数。 6.如权利要求1所述的方法，其特征在于，所述利用所述硬伪标签和所述软伪标签对所述第一行人重识别网络模型和第二行人重识别网络模型进行协同训练包括： S61：利用所述第一行人重识别网络模型的软硬伪标签与所述第二行人重识别网络模型的预测结果计算损失，优化所述第一行人重识别网络模型； S62：利用所述第二行人重识别网络模型的软硬伪标签与所述第一行人重识别网络模型的预测结果计算损失，优化所述第二行人重识别网络模型； S63：重复步骤S61和步骤S62，直至达到预设训练阈值； S64：判断所述第一时序平均模型和所述第二时序平均模型的mAP精度值，选取时序平均模型mAP精度高的模型作为所述目标行人重识别网络模型。 7.一种行人重识别模型训练装置，其特征在于，包括：构建模型模块，用于基于预训练的两个神经网络构建第一行人重识别网络模型和第二行人重识别网络模型，每个行人重识别网络模型包括卷积神经网络、 Transformer模块和全局子值池化模块；提取特征模块，用于将目标域图像集分别输入所述第一行人重识别网络模型和第二行人重识别网络模型中，利用所述每个行人重识别网络模型中的所述卷积神经网络进行处理，利用所述Transformer模块提取全局信息，得到中间特征；计算模块，用于将所述中间特征输入所述全局子值池化模块中，利用所述全局子值池化模块进行池化处理，输出最终特征值，并进行聚类分析，得到所述每个行人重识别网络模型的硬伪标签；生成软标签模块，用于构建所述每个行人重识别网络模型的时序平均模型，将所述目标域图像集分别输入每个时序平均模型中，得到所述每个时序平均模型软伪标签；训练优化模块，用于利用所述硬伪标签和所述软伪标签对所述第一行人重识别网络模型和第二行人重识别网络模型进行协同训练；筛选模块，用于选取两个时序平均模型中mAP精度值大的模型作为目标行人重识别网络模型。 8.如权利要求7 所述的装置，其特征在于，所述提取特征模块包括：处理单元，用于将所述目标域图像集输入所述每个行人重识别网络模型中，利用所述卷积神经网络进行处理，并进行空间维度展平得到特征f，将所述特征f附上cls标记得到特征fcls，并对所述特征fcls进行位置编码得到特征fcp；转换单元，用于将所述特征fcp输入所述Tr ansformer模块中，利用所述Tr ansformer模块进行处理并进行转置和维度扩展，得到所述中间特征F。 9.一种行人重识别模型训练的设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述一种行人重识别模型训练方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机权　利　要　求　书 2/3 页 3 CN 114663685 A 3

专利 一种行人重识别模型训练的方法、装置和设备

专利一种行人重识别模型训练的方法、装置和设备