专利 基于时空交互注意力机制的行人多目标跟踪计算方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210506694.0 (22)申请日 2022.05.07 (71)申请人南昌航空大学地址 330063 江西省南昌市丰和南大道696 号 (72)发明人陈震　邓可郁　张聪炫　葛利跃　李凌　胡卫明　李兵　 (74)专利代理机构南昌市平凡知识产权代理事务所 36122 专利代理师张文杰 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) (54)发明名称基于时空交互注意力机制的行人多目标跟踪计算方法 (57)摘要一种基于时空交互注意力机制的行人多目标跟踪计算方法，输入图像序列中连续的两帧图像，将图像序列中的第一帧图像输入到多层融合特征提取网络，获得融合特征图，对提取到的第一帧的特征图同时输入检测分支和Re ‑ID分支，分别用于检测对象和提取Re ‑ID特征，获得并保存第一帧的初始轨迹和第二帧的预测轨迹位置，获得第二帧的检测框和Re ‑ID特征，使用卡尔曼滤波将第二帧的预测轨迹位置与第二帧的检测框进行数据关联，从而获得最后的跟踪结果。利用不同通道之间有效信息的交互融合,对高层特征进行优化增强,得到更加鲁棒的全局特征，显著提高遮挡和强光照区域行人多目标跟踪的准确性和鲁棒性。权利要求书2页说明书5页附图4页 CN 114998780 A 2022.09.02 CN 114998780 A 1.基于时空交互注意力机制的行人多目标跟踪计算方法，其步骤如下： 1)输入图像序列中连续的两帧图像； 2)将图像序列中的第一帧图像输入到多层融合特征提取网络，获得融合特征图； 3)对提取到的第一帧的特征图同时输入检测分支和Re ‑ID分支，分别用于检测对象和提取Re‑ID特征； 4)在检测分支，输入的特征图分别通过3 ×3卷积与1 ×1卷积层生成热图、物体中心偏移量和边界盒的大小：热图负责估计物体中心的位置，尺寸为物体中心偏移量目的是更精确地定位对象，尺寸为边界盒的大小负责估计每个位置的目标盒子的高度和宽度，尺寸为上述中， C为特征图的通道数， H,W分别为特征图的高和宽； 5)在Re‑ID分支，将第一帧的特征图作为时空交互注意力机制的输入，依次经过通道交互注意力机制与空间注意力； 6)将输入到通道交互注意力机制中，利用不同通道之间有效信息的交互融合捕获更有效的Re ‑ID特征，计算方法如下：式(1)中，将先通过全局平均池化AvgPool获得聚合特征其次利用组卷积dk×k的方式确定交互的覆盖范围，从而得到通道权重，然后使用 σ 激活函数Sigmoid约束权重值到(0,1)之间，最后表示元素级乘法。其中组卷积k的大小与通道C关系如下： C＝φ(k) (2) 式(2)根据类比的原理，一维卷积大小k与通道数C存在正比的关系，因此在k和C之间可能存在一种映射φ。由于通道数C通常被设置为2的幂， φ(k)又可变换为： C＝φ(k)＝2(γ*k‑b) (3) 式(3)中使用最简单的线性映射 φ(k)＝γ*k ‑b， γ和b为自定义常数。因此根据通道数 C可计算出自适应一维卷积大小：式(4)中|t|odd表示为最接近t的奇数。随后经过映射ψ后，高维通道具有更长范围的交互作用，而低维通道通过使用非线性映射进行更短范围的交互作用。 7)经过通道交互注意力机制获得的特征图输入到空间注意力机制中，以获得图像不同空间位置中的信息部分，计算方法如下：式中AvgPool( ·)和MaxPool( ·)分别表示平均池化和最大池化操作，使用两个池化操作来聚合一个特征映射的信道信息，生成两个二维映射和 f7×7表权　利　要　求　书 1/2 页 2 CN 114998780 A 2示卷积核为7 ×7的卷积操作， σ 为激活函数Sigmo id，表示元素级乘法； 8)对时空交互注意力机制的输出使用1×1卷积得到行人重识别特征从而提取每个以(x,y)为中心点的对象的128维特征； 9)将步骤4得到的检测框与步骤8得到的Re ‑ID特征使用卡尔曼滤波进行数据关联和预测，获得并保存第一帧的初始轨迹和第二帧的预测轨迹位置； 10)第二帧图像输入多层融合特征提取网络，重复步骤3)～8)，获得第二帧的检测框和 Re‑ID特征，使用卡尔曼滤波将第二帧的预测轨迹位置与第二帧的检测框进行数据关联； 11)利用匈牙利算法匹配关联结果，从而获得最后的跟踪结果。权　利　要　求　书 2/2 页 3 CN 114998780 A 3

专利 基于时空交互注意力机制的行人多目标跟踪计算方法

专利基于时空交互注意力机制的行人多目标跟踪计算方法