基于改进Fairmot框架的多目标跟踪
多目标跟踪最初源于雷达技术的研究。在军事上,数据关联算法利用目标的位置和运动信息进行轨迹和观测目标的匹配。近年来,随着我国视频监控和无人驾驶行业的飞速发展,基于视频的多目标跟踪技术显得尤为重要。多目标跟踪根据初始化的方式划分为基于检测跟踪的流程和基于人工初始化的跟踪流程。由于基于人工初始化的跟踪无法处理轨迹的生成和消亡,因此基于检测的跟踪为当前的主流方式。基于检测的跟踪包括目标检测和数据关联,两者功能相互独立,但却在关系上紧密联系,良好的检测器能为数据关联提供较好的观测结果。
早期的目标检测主要依靠人工设计的特征训练支持向量机进行分类。2005年,Dala[
数据关联负责将目标的轨迹与观测目标进行匹配。数据关联算法分为确定性优化算法和概率推断算法。确定性优化算法将其建模成优化问题,通过优化算法解决匹配问题。二分图匹配模型[
端到端的多目标跟踪框架近些年飞速发展,将目标检测和数据关联都用神经网络来处理,使得网络的训练效率得到提升。DAN[
2 Fairmot基本框架
Fairmot框架的目标检测部分包括主干网络、目标检测分支和行人重识别分支。数据关联部分采用DeepSort[
2.1 主干网络
Fairmot框架采用改进后深度聚合网络作为特征提取网络,该特征提取网络采用可变形卷积适应不同尺度目标。通过不同层级的跳级连接进行语义信息和空间信息融合,使深度聚合网络以目标尺度、分辨率为关注点。
2.2 目标检测分支
目标中心预测分支负责对目标位置和目标框的尺寸进行回归预测,如
图1 Fairmot框架
Fig.1 Fairmot framework
(1) |
热图分支中心点的估计的损失函数:
(2) |
式中为视频帧中目标对象的个数,为标准差,为目标中心点的估计值,、为预定义参数。
视频帧经过主干网络会产生下采样4倍的特征图,当目标的中心点预测结果映射回原图时会产生4个像素的误差,因此通过中心点预测偏移量弥补误差。视频中目标的尺寸为,真实标签中心点的偏移量为,则预测的目标尺寸和中心点偏移量表示为和,框回归和中心点偏移分支的损失函数为:
(3) |
2.3 行人重识别分支
行人重识别分支通过提取的特征向量区分视频中的不同目标。利用128个通道的的卷积核在特征图上提取目标的表观特征,在目标中心处提取的表观特征为。通过分类损失学习表观特征,假设视频帧的真实目标框,目标在热图分支预测的中心点位置为,在特征图上提取表观特征向量,且将该表观特征映射成[0,1]的概率分布向量,将真实标签进行独热编码,训练时的损失函数为:
(4) |
式中为目标类别个数。总体的损失函数:
(5) |
(6) |
式中和是学习参数。
2.4 数据关联
数据关联部分采用DeepSort框架。如
图2 数据关联框架
Fig.2 Data association framework
匹配的轨迹集合作为观测结果进行卡尔曼滤波更新,经过IOU匹配得到的未匹检测框集合。如果连续3帧都匹配上轨迹,则认为是新的轨迹,然后进行卡尔曼滤波更新。最终的未匹配集合依据状态来判断该轨迹是否消亡。卡尔曼滤波更新得到的轨迹若为确认态则送入级联匹配,否则送入IOU匹配。
2.5 卡尔曼滤波
卡尔曼滤波主要分为两个阶段,分别为预测和更新阶段。卡尔曼滤波的预测阶段负责对目标状态均值和协方差进行预测,如
(7) |
(8) |
(9) |
其中为观测值,为观测矩阵,为观测噪声,该噪声是均值为0、协方差为的高斯噪声。更新阶段负责通过观测值反馈调节预测阶段的估计值,如式(
(10) |
(11) |
(12) |
(13) |
(14) |
各协方差的初始状态设置为:
(15) |
3 基于Fairmot的改进
针对Fairmot框架的主干网络产生的高维信息缺乏维度之间的信息交互问题,采用三重注意力机制,提高对目标中心点的定位能力和特征提取能力;且由于行人重识别分支的Softmax损失函数优化缺乏灵活性,采用Cirlce Loss根据当前的状态选择优化程度,使其提取更为精确的身份嵌入向量。
3.1 三重注意力机制
针对深度聚合网络后端高维信息缺乏维度间信息交互的问题,通过三重注意力机制[
(16) |
图3 三重注意力机制
Fig.3 Triplet attention mechanism
第一条分支将输入的特征图(CHW)以为轴进行逆时针旋转90°得到(W×H×C)的特征图,首先通过Z-Pool单元得到(2×H×C),再利用的标准卷积层、批归一化层和Sigmoid激活函数层产生(1×H×C)的注意力掩模,然后通过残差连接与(W×H×C)的特征图元素相乘得到通道维度与空间高维度的注意力热图,再将特征图进行顺时针旋转90°得到(C×H×W),第二条分支与其类似。第三条分支只需捕捉空间维度的信息,无需旋转,得到空间注意力效果图。最后通过将3条分支的注意力热图进行平均得到最终的注意力效果图。
3.2 Circle Loss
深度学习的目标是将类内特征的相似度最大化,类间特征的相似度最小化,因此Circle Loss[
(17) |
式中为类内相似性得分,为类间相似性得分,为缩放系数,是相似性分类间隔。如果为第个非目标类别的权重向量,样本表示为,将,代入
(18) |
该损失函数对和优化梯度相等,反向传播时的惩罚项是一样的,因此不利于寻找最优点,优化方式缺乏灵活性。Cirlce Loss 提供一个能够灵活优化目标的损失函数,其公式如
(19) |
式中、为非负权值。此时优化目标为,若相似性得分距最优点较远,则通过较大的梯度进行梯度下降。自适应更新的权重如
(20) |
式中和为的最优点。
4 实验结果与分析
4.1 实验环境与数据集
实验运行环境为Ubuntu 16.04操作系统,GPU型号为:2块NVIDIA GeForce GTX 1080TI(11G显存),基于Pytorch 1.3深度学习框架。采用的数据集为MOT数据集,MOT数据集分为MOT15、MOT16和MOT17,该数据集包含了静止或者移动拍摄、低中高角度拍摄以及黑夜等复杂的环境。实验首先在CrowedHuman数据集进行预训练,然后通过MOT16的训练集进行训练,在MOT15的训练集进行消融实验。对比实验在MOT15的训练集训练,通过MOT15测试集测试。实验超参数设置如
实验超参数 | 未改进ReID Loss的实验 | 改进ReID Loss的实验 |
---|---|---|
优化器 | Adam | Adam |
动量参数 | 0.9 | 0.9 |
Batchsize | 6 | 6 |
初始学习率 | 1e-4 | 1e-4 |
训练轮数 | 45 | 70 |
指标 | 含义 |
---|---|
MOTA | 跟踪精度,衡量目标轨迹的保持程度 |
MOTP | 衡量检测器的定位性能 |
IDF1 | 衡量跟踪器身份维持能力 |
MT | 整个视频中超过80%的时间被正确跟踪的轨迹个数 |
ML | 整个视频中不超过20%时间被正确跟踪的轨迹个数 |
IDS | 目标身份的切换次数 |
FM | 轨迹碎片的个数 |
4.2 消融实验
对Fairmot模型、采用注意力机制的Fairmot(Fairmot+A)模型和采用Circle Loss和注意力机制的Fairmot(Fairmot+A+CL)模型进行实验,结果如
模型 | MOTA↑/% | IDF1↑/% | MOTP↑/% | MT↑ | ML↓ | IDS↓ | FM↓ | Recall↑/% | Prec↑/% |
---|---|---|---|---|---|---|---|---|---|
Fairmot | 59.6 | 67.7 | 77.1 | 171 | 172 | 255 | 1 439 | 70.7 | 70.7 |
Fairmot+A | 60.7 | 66.5 | 76.8 | 173 | 177 | 209 | 1 436 | 71 | 87.2 |
Fairmot+A+CL | 62.9 | 64.3 | 77.5 | 255 | 123 | 232 | 1 173 | 78 | 84.3 |
采用三重注意力机制后,MOTA得到了1.1%的提升,且身份切换次数明显降低。注意力机制能够提供更可靠的目标检测,从而提升跟踪精度。Fairmot+A+CL在采用Circle Loss后相比原模型在MOTA上提升3.3%,且在MOTP、MT、ML、FM等指标上明显优于原模型。但Fairmot+A+CL模型与Fairmot+A模型相比,IDS指标上升许多,可能采用Circle Loss之后对多任务学习目标检测分支的性能产生影响,产生漏检或虚检现象,使改进后的模型身份切换指标上升。
图4 3种模型在MOT15训练集上的测试结果
Fig.4 Test results of the three models on the MOT15 training set
4.3 对比实验
如
模型 | MOTA↑/% | IDF1↑/% | MT↑ | ML↓ | IDS↓ |
---|---|---|---|---|---|
DMT[ | 44.5 | 49.2 | 250 | 159 | 684 |
MDP-Subcnn[ | 47.5 | 55.7 | 216 | 134 | 628 |
TRID[ | 55.7 | 61 | 293 | 105 | 351 |
Fairmot | 60.6 | 64.7 | 343 | 79 | 591 |
Fairmot+A+CL | 62.0 | 65.1 | 358 | 88 | 523 |
如
图5 5种模型在MOT15测试集上的对比效果图
Fig.5 Comparison of the five models on the MOT15 test set
图6 轨迹跟踪功能展示
Fig.6 Display of trajectory tracking function
5 结论
本文对Fairmot框架提出两种改进措施,首先利用三重注意力机制提高对高维信息的维度交互能力,产生精确定位;然后通过Circle Loss损失函数优化行人重识别分支,使其根据当前距最优点的距离选择优化目标和程度,提取更精确的表观特征。实验结果表明,本文所提模型明显优于其他模型,在MOT15测试集上的跟踪精度为62%,IDF1提升至65.1%,身份切换降低68次。但是对于长时间遮挡的目标,本文方法会发生身份切换,产生较多的轨迹碎片,未来将着重研究长时遮挡问题以及模型压缩问题。
下一篇:没有了
- 喜报!《中国博物馆》入选CSSCI扩展版来源期刊(最新CSSCI南大核心期刊目录2025-2026版)!新入选!
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了
- 职称话题| 为什么党校更认可省市级党报?是否有什么说据?还有哪些机构认可党报?