专利 一种基于多尺度邻接交互特征的行人重识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210526758.3 (22)申请日 2022.05.13 (71)申请人杭州像素元科技有限公司地址 310000 浙江省杭州市滨江区长河街道建业路511号华创大厦13层1308- 1309室(自主申报) (72)发明人产思贤　戚梦赞　吴周检　 (74)专利代理机构北京奥肯律师事务所 1 1881 专利代理师王娜 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/46(2022.01)G06V 10/44(2022.01) G06V 10/42(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多尺度邻接交互特征的行人重识别方法 (57)摘要本发明公开了一种基于多尺度邻接交互特征的行人重识别方法，它涉及图像识别技术领域。获取采集的视频文件，裁剪目标图像，配对同一目标，将ResNet50作为主干网络，获取初始多尺度特征；将目标特征从第三层开始依次使用 SOA；将各层的目标特征输入到Bottleneck提取局部信息，对齐空间大小；将特征图输入到 Transformer网络，得到全局特征；将局部特征和全局特征按照特征维度联合，并将联合特征切片，经同尺度特征交互和跨尺度特征交互操作得目标的多尺度邻接特征表示，最后通过损失函数训练得到行人重识别模型。本发明提高行人重识别的鲁棒性，有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题。权利要求书3页说明书7页附图3页 CN 114973317 A 2022.08.30 CN 114973317 A 1.一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，其步骤为： (1)获取采集的视频文件，将其中包含人的目标图像裁剪出来，将不同摄像头的同一目标配对；考虑到ResNet50的强大特征表示，将ResNet50作为主干网络，同一目标的多张图片输入主干网络来获取初始多尺度特征； (2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础，从第三层开始依次使用SOA，利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果； (3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力，利用最大池化方式对齐空间大小； (4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到 Transformer网络，得到全局特征； (5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特征按照特征维度联合起来； (6)将上述步骤得到的联合特征进行切片，然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作，得到目标的多尺度邻接特征表示； (7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型。 2.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的步骤(1)的具体方法为：涉及网络的主干由ResNet50构建，其中ResNet50最后一层的stride设置为1；在输入ResNet50之前，将重新定义所有图像尺寸为256 ×128，同时进行数据增强操作(随机裁剪、水平翻转和随机删除)；设定batchsize为64，其中共16个不同的人，每个人4张不同的照片。 3.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的步骤(2)对于Resnet50的第l层，提取到特征图其中Cl、 Hl、 Wl分别表示通道数、特征图高度、特征图宽度；首先，介绍同一尺度内特征聚合方案，启发于SOA 利用上下文信息提高感受野，对于ResNet50中的第l层，利用SOA模块对第l层特征对齐： Xl ＝SOA(Xl)。 4.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的步骤(3)利用Bottleneck提取局部信息同时增强特征学习能力，利用最大池化的方式对齐空间大小： Xj＝MaxPooling(Bottleneck(Xj)) 其中， Bot tleneck是ResNet中的模块；然后，利用堆叠的方式融合不同尺度的特征： F＝Concat(X1， X2，…Xn) 其中， F∈Rc×h×w， 5.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的步骤(4)中通过步骤(3)中得到空间对齐特征F后，输入到Transformer中进行全局特征的提取；根据Vision Transformer中的设计方式，聚合不同尺度的特征信息；给定一个上述特征图F，将其切成(R， R)大小的图像块，得到N＝(h ×w)/R2个图像块；将每个块通过权　利　要　求　书 1/3 页 2 CN 114973317 A 2线性投影到D维向量上，同时将可学习参数class token嵌入以提取全局特征信息；得到向量序列Z∈RL×D，其中L＝N+1，也将可学习位置参数加入向量序列Z中；标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP)；一共设计d个Transformer 层，对于第l层的输入： F(l)＝Transformer(Fl‑1) 其中Transformer模块中， F0由公式F＝Concat(X1， X2，…Xn)得到， Fd∈Rc′ ×N；根据公式F (l)＝Transformer(Fl‑1)，由class token得到全局特征信息fgl∈Rc′ ×1，同时获得全局特征图 Xgl∈Rc′ ×h×w；然后，利用堆叠的方式合并CNN提取的特征X5(由公式Xl＝SOA(Xl)得出)和 Transformer得到的特征Xgl，得到其中cf＝C5+c′。 6.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的步骤(6)中涉及基于切片的联合交互特征提取：该联合特征提取模块共分为同尺度特征交互子模块和跨尺度特征相关子模块，两者均建立在切片的基础上；切片方案 DIVISION(1， 2， ...N)＝{D1， D2， ...DN}，其中Di表示将特征图片 Xf水平切成同等大小的i块，分别用{Di， 1， Di， 2， ...Di， j}表示。 7.根据权利要求6所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的基于切片的联合交互特征提取针对同尺度特征交互，定义一种切片方案Dd，获得到d 块大小相同的特征图，分别用{Dd， 1， Dd， 2， ...Dd， d}表示；首先，对于每个小块Dd， j进行最大池化操作，得到考虑到人体身体结构中，相邻块特征能够提取到更好的肢体信息：对于相邻两块特征{D ’d， j‑1， D’d， j}，采取最大池化的方式将其合并，被表示为MaxPooling(D ’d， j‑1， D’d， j)；对所有相邻两块都进行上述操作，通过张量形状变换后得到对于每一种切片方案，使用全连接层提取同尺度特征其中d表示切片的数量。 8.根据权利要求6所述的一种基于多尺度邻接交互特征的行人重识别方法，其特征在于，所述的基于切片的联合交互特征提取针对跨尺度特征交互，考虑到不同身体部位的大小比例不同，关联不同尺度的肢体信息，设计一种基于建图的交叉注意力模块：首先，建立一张图G＝(V， E)，将所有切片方案DIVISION(1， 2...N)得到的块vij作为节点集合V，点权定义为对于边集合E，如果两个节点(Vi1j1， Vi2j2)的边界框 (Bi1j1， Bi2j2)交集不为空则建边，即在softmax的基础上，引用一种基于图的节点特征聚合方式：其中， Nei(Vi)表示节点Vi的相邻节点集合， W表示权重矩阵；综上，基于建图的交叉注意力被描述为：其中，表示正则化项， Query， Key和Value都从向量序列D ’使用不同的线性变换矩阵权　利　要　求　书 2/3 页 3 CN 114973317 A 3

专利 一种基于多尺度邻接交互特征的行人重识别方法

专利一种基于多尺度邻接交互特征的行人重识别方法