(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210526758.3
(22)申请日 2022.05.13
(71)申请人 杭州像素 元科技有限公司
地址 310000 浙江省杭州市滨江区长河街
道建业路511号华创大厦13层1308-
1309室(自主申报)
(72)发明人 产思贤 戚梦赞 吴周检
(74)专利代理 机构 北京奥肯律师事务所 1 1881
专利代理师 王娜
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06V 10/46(2022.01)G06V 10/44(2022.01)
G06V 10/42(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于多尺度邻接交互特征的行人重识
别方法
(57)摘要
本发明公开了一种基于多尺度邻接交互特
征的行人重识别方法, 它涉及图像识别技术领
域。 获取采集的视频文件, 裁剪目标图像, 配对同
一目标, 将ResNet50作为主干网络, 获取初始多
尺度特征; 将目标特征从第三层开始依次使用
SOA; 将各层的目标特征输入到Bottleneck提取
局部信息, 对齐空间大小; 将特征图输入到
Transformer网络, 得到全局特征; 将局部特征和
全局特征按照特征维度联合, 并将联合特征切
片, 经同尺度特征交互和跨尺度特征交互操作得
目标的多尺度邻接特征表示, 最后通过损失函数
训练得到 行人重识别模型。 本发 明提高行人重识
别的鲁棒性, 有效抑制目标被密集地划分而导致
得语义信息模糊和背景干 扰问题。
权利要求书3页 说明书7页 附图3页
CN 114973317 A
2022.08.30
CN 114973317 A
1.一种基于多尺度邻接交 互特征的行人重识别方法, 其特 征在于, 其 步骤为:
(1)获取采集的视频文件, 将其中包含人的目标图像裁剪出来, 将不同摄像头的同一目
标配对; 考虑到ResNet50的强大特征表 示, 将ResNet50作为主干网络, 同一目标的多张图片
输入主干网络来获取初始多尺度特 征;
(2)将主干网络生成的第三层、 第四层和第五层目标特征提取作为多尺度 特征的基础,
从第三层开始依次使用SOA, 利用上下文信息来提高感受野的同时达到同一尺度内特征聚
合的效果;
(3)将第三层、 第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时
增强特征表示能力, 利用最大池化方式对齐空间大小;
(4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到
Transformer网络, 得到全局特 征;
(5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特
征按照特 征维度联合 起来;
(6)将上述步骤得到的联合特征进行切片, 然后经过同尺度特征交互和跨尺度特征交
互这两种特 征交互操作, 得到目标的多尺度邻接特 征表示;
(7)最后通过损失函数训练得到基于多尺度邻接交 互特征的行人重识别模型。
2.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法, 其特征在
于, 所述的步骤(1)的具体方法为: 涉及网络的主干由ResNet50构建, 其中ResNet50最后一
层的stride设置为1; 在输入ResNet50之前, 将重新定义所有图像尺寸为256 ×128, 同时进
行数据增强操作(随机裁剪、 水平翻转和随机删除); 设定batchsize为64, 其中共16个不同
的人, 每个人4张不同的照片。
3.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法, 其特征在
于, 所述的步骤(2)对于Resnet50的第l层, 提取到特征图
其中Cl、 Hl、 Wl分
别表示通道数、 特征图高度、 特征图宽度; 首先, 介绍同一尺度内特征聚合方案, 启发于SOA
利用上下文信息提高感受野, 对于ResNet50中的第l层, 利用SOA模块对第l层特征对齐: Xl
=SOA(Xl)。
4.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法, 其特征在
于, 所述的步骤(3)利用Bottleneck提取局部信息同时增强特征学习能力, 利用最大池化的
方式对齐空间大小:
Xj=MaxPooling(Bottleneck(Xj))
其中, Bot tleneck是ResNet中的模块;
然后, 利用堆叠的方式 融合不同尺度的特 征:
F=Concat(X1, X2,…Xn)
其中, F∈Rc×h×w,
5.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法, 其特征在
于, 所述的步骤(4)中通过步骤(3)中得到空间对齐特征F后, 输入到Transformer中进行全
局特征的提取; 根据Vision Transformer中的设计方式, 聚合不同尺度的特征信息; 给定一
个上述特征图F, 将其切成(R, R)大小的图像块, 得到N=(h ×w)/R2个图像块; 将每个块通过权 利 要 求 书 1/3 页
2
CN 114973317 A
2线性投影到D维向量上, 同时将可学习参数class token嵌入以提取全局特征信息; 得到向
量序列Z∈RL×D, 其中L=N+1, 也将可学习位置参 数加入向量序列Z中; 标准的Transformer层
包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP); 一共设计d个Transformer
层, 对于第l层的输入:
F(l)=Transformer(Fl‑1)
其中Transformer模块中, F0由公式F=Concat(X1, X2,…Xn)得到, Fd∈Rc′ ×N; 根据公式F
(l)=Transformer(Fl‑1), 由class token得到全局特征信息fgl∈Rc′ ×1, 同时获得全局特征图
Xgl∈Rc′ ×h×w; 然后, 利用堆叠的方式合并CNN提取的特征X5(由公式Xl=SOA(Xl)得出)和
Transformer得到的特 征Xgl, 得到
其中cf=C5+c′。
6.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法, 其特征在
于, 所述的步骤(6)中涉及基于切片的联合交互特征提取: 该联合特征提取模块共分为同尺
度特征交互子模块和跨尺度特征相关子模块, 两者均建立在切片的基础上; 切片方案
DIVISION(1, 2, ...N)={D1, D2, ...DN}, 其中Di表示将特征图片 Xf水平切成同等大小的i块,
分别用{Di, 1, Di, 2, ...Di, j}表示。
7.根据权利要求6所述的一种基于多尺度邻接交互特征的行人重识别方法, 其特征在
于, 所述的基于切片的联合交互特征提取针对同尺度特征交互, 定义一种切片方案Dd, 获得到d
块大小相同的特征图, 分别用{Dd, 1, Dd, 2, ...Dd, d}表示; 首先, 对于每个小块Dd, j进行最大池化操
作, 得到
考虑到人体身体结构中, 相邻块特征能够提取到更好的肢体信息:
对于相邻两块特征{D ’d, j‑1, D’d, j}, 采取最大池化的方式将其合并, 被表示为MaxPooling(D ’d, j‑1,
D’d, j); 对所有相邻两块都进行上述操作, 通过张量形状变换后得到
对于每
一种切片方案, 使用全连接层提取同尺度特 征
其中d表示切片的数量。
8.根据权利要求6所述的一种基于多尺度邻接交互特征的行人重识别方法, 其特征在
于, 所述的基于切片的联合交互特征提取针对跨尺度特征交互, 考虑到不同身体部位的大
小比例不同, 关联不同尺度的肢体信息, 设计一种基于建图的交叉注意力模块: 首先, 建立
一张图G=(V, E), 将所有切片方案DIVISION(1, 2...N)得到的块vij作为节点集合V, 点权定
义为
对于边集合E, 如果两个节点(Vi1j1, Vi2j2)的边界框
(Bi1j1, Bi2j2)交集不为空则建边, 即
在softmax的基础上, 引用一种基于图
的节点特 征聚合方式:
其中, Nei(Vi)表示节点Vi的相邻节点集合, W表示权重矩阵; 综上, 基于建图的交叉注意
力被描述 为:
其中,
表示正则化项, Query, Key和Value都从向量序列D ’使用不同的线性变换矩阵权 利 要 求 书 2/3 页
3
CN 114973317 A
3
专利 一种基于多尺度邻接交互特征的行人重识别方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:43上传分享