融合自注意力特征嵌入的夜间机场跑道异物入侵检测

作者：何自芬陈光晨王森张印辉郭琳伟来源：《光学精密工程》日期：2022-09-03人气：2306

近年来，航空运输安全越来越受到业内人士关注，机场跑道异物（Foreign Object Debris，FOD）检测成为研究的重点方向。FOD主要指在机场跑道面上的金属器件、碎石块、纸制品、动植物等^［1］外来物质。它们容易损坏飞机轮胎或被发动机吸入的异物有极大可能引发飞机滑偏或发动机停火，因此对航空运输安全方面产生较大隐患。受制于雷达探测技术、光电技术、图像技术的发展，我国许多机场仍然采用人工排查方法消除FOD隐患，效率低、成本高且可靠性较差，难以满足日益频繁的起降需求。因此，研究一种基于图像智能识别FOD的算法，可以降低人工巡检成本，对于航空安全维护具有重要意义。

FOD探测技术包括雷达探测技术和光学成像探测技术。雷达探测技术利用毫米波雷达^［2-6］和激光雷达^［7］实现目标的高精度探测和定位，但雷达探测存在制造和维护成本高昂、异物特征信息较少以及信号处理过程复杂等问题。光学成像探测技术分为基于传统图像处理的探测技术和基于深度学习的探测技术。基于传统图像处理技术的目标检测擅长从目标的颜色特征、几何特征出发，通过图像差分^［8-9］、小波变换与形态学^［10］、改进区域生长算法^［11］和边缘特征提取^［12-13］等方法对含有异物的图像进行处理，提取图像中的异物特征信息再加以识别和分类。传统图像处理技术的实时性较好，但易受到光照、遮挡、缺陷等环境因素的影响，成像结果差异较大，影响目标异物的高精度识别与分类。基于卷积神经网络（Convolutional Neural Network，CNN）的深度学习方法在提取复杂特征时比传统方法具有更高的鲁棒性。目前，深度学习目标检测算法分为两类：区域卷积神经网络^［14］（Region Convolutional Neural Network，R-CNN）、关键点区域卷积神经网络^［15］（Keypoint Region Convolutional Neural Network，Keypoint R-CNN）、快速区域卷积神经网络^［16］（Fast Region Convolutional Neural Network，Fast R-CNN）、Faster R-CNN^［17］等基于特征区域提取和分类器的双阶段算法，以及SSD（Single Shot Multibox Detector）^［18］、YOLO（You only Look Once）系列^［19-26］等基于回归的单阶段算法。

基于CNN的异物检测算法^［27］由改进区域建议网络（Region Proposal Network，RPN）和基于空间变换网络（Spatial Transformer Networks，STN）的CNN分类器两部分构成。改进RPN设计了额外选择方式，以生成数量较少的高质量候选框，引入STN层大幅提高螺钉和石头的识别率。CNN这种侧重于局部特征信息而忽视全局特征信息的检测方法会影响异物的定位精度。双阶段Faster R-CNN异物检测器^［28］在裂缝、石块、金属和塑料4个类别识别率达到71.6%，但RPN需预先获取大量目标感兴趣区域，因此长时间网络推理导致实时性较差。改进YOLOv3的FOD检测算法^［29］采用计算量较低的Darknet-49作为特征提取网络，将检测头数量增加至4个，以实现多尺度特征融合。基于马尔科夫链蒙特卡罗采样的K-means++算法对边界框尺寸进行聚类后将平均精度提高到86.5%。单阶段算法通过网络主干直接对目标特征进行拟合和表征，送入相应分支对目标位置及类别信息进行预测。实时性较强的网络对目标类别及预测框修正次数更少，在小目标检测任务中易因定位不准确等因素而影响检测精度。

目前，FOD检测研究聚焦于白天自然光环境下，缺少针对夜间机场跑道FOD检测相关研究，夜间机场飞机起降频次较低有利于FOD的检测和排除。本文提出一种融合自注意力特征嵌入的高精度夜间机场跑道异物检测算法（Cross Stage Partial Transformer Network，CSPTNet），该算法采用跨阶段局部主干网络（Cross Stage Partial Network，CSPNet）提取目标特征，在CSPNet末端添加Transformer模块，通过特征嵌入和自注意力机制为特征之间增加关联性并提高全局特征信息获取能力；在后处理阶段引入CIoU修正定位损失，提高精度并降低计算量，在自建夜间机场跑道异物检测数据集上进行实验，以验证算法有效性。针对数据集样本异物尺度较小，特征信息缺乏等问题，引入融合自注意力特征嵌入的Transformer瓶颈模块并替换原有瓶颈模块，提高全局特征和局部特征相关性，把主干网络输出的特征图分割成子块扁平化后与位置编码进行特征嵌入，并将图像中像素表示转化成向量表示，最后在高维向量空间中捕捉像素间关系，使得小尺度异物目标上下文信息获得关联，增强了模型的表征能力。采用多头自注意力机制（Multi-Head Self Attention，MHSA），从4层并行缩放点积注意力（Scaled Dot-Product Attention，SA）分支子空间中提取不同分支聚合的特征信息，在逐通道拼接特征信息过程中融合全局特征与局部特征信息，丰富了小尺度异物目标的特征信息，增强模型针对异物目标的拟合能力以提高模型精度。针对夜间环境照度低且目标尺度较小导致轮廓边缘模糊定位困难等问题，在模型后处理阶段引入CIoU损失函数计算目标间相似度，对预测框尺寸和中心位置进行修正优化，以提高模型对异物目标轮廓的定位准确度。

2 融合自注意力特征嵌入的异物入侵检测网络

2.1　CSPTNet网络结构

由于夜间机场跑道场景下具有环境照度低、异物目标尺度小等场景特点，且小目标异物存在难检、错检以及定位困难等问题。为在小样本数据集上完成夜间机场跑道异物入侵的实时准确检测，本文基于YOLOv5检测网络提出一种精度高、泛化能力强的卷积神经网络CSPTNet，网络结构如图1所示。

图1 CTPNet网络结构

Fig.1 CTPNet Network Structure

2.2　Transformer 瓶颈模块

2.2.1　特征嵌入模块

原始YOLOv5模型在瓶颈层处应用标准瓶颈模块^［30］由一个1×1卷积、一个3×3卷积以及跳跃连接构成，其结构如图2所示。具有较强灵活性的1×1卷积层主要用于降低通道数。当膨胀率设置为0.5且输入通道为640时，经过1×1卷积层之后通道数变为320，3×3卷积层可用于特定通道数输出，操作后参数量会大幅减少。

图2 瓶颈结构对比

Fig.2 Comparison of bottleneck structures

由于夜间机场跑道场景下的异物实例具有数量多和目标尺度偏小的特点，在网络结构中使用较多卷积操作会导致目标特征信息大量丢失，不利于中小尺度目标的精确识别。因此，在使用标准瓶颈模块效果较差的情况下，本文应用具备线性映射的Transformer代替标准卷积进行特征筛选。除此之外，Transformer模块对特征图进行位置信息嵌入，保证特征间有效关联，采用Transformer瓶颈模块能够实现位置信息的有效嵌入和全局特征提取^［31］。

特征嵌入模块将主干网络输出的特征图划分成N个P×P×C像素的子块，通过扁平化操作可以将其转换为N个P²C维向量。为了避免模型结构受到子块尺寸的影响，采用线性投影将扁平化子块转换成D维向量，因此输入特征可变换为N×D的D维嵌入特征，然后与位置嵌入求和并输入编码器中。特征嵌入过程如图2所示。

2.2.2　多头自注意力结构

夜间机场跑道异物数据集图像目标体积小、分布散乱，并且易受环境变换（如成像角度、光照阴影等）的影响，导致成像结果较差。因此，在模型骨干网络中引入MHSA^［32］，优化模型的特征提取能力，使卷积神经网络在保持较少时空复杂度的同时，一方面可以增大网络模型对输入图像重要区域的关注度，另一方面能够丰富模型对目标轮廓细节信息的拟合度，从而提高模型在复杂场景下对密集散乱目标的检测精度。

MHSA根据主干网络输出的多尺度特征图通过线性映射计算Q，K和V，对其应用softmax激活函数归一化之后，乘上将输出结果输入多层参数独立的并行SA分支子空间，最后逐通道拼接各分支输出的特征图，通过聚合不同分支特征信息丰富主干网络提取的特征空间。

MHSA允许模型从不同自注意力分支子空间中抽取更加丰富的特征信息，并有效预防过拟合。SA和多头自注意力计算公式如下：

（1）

（2）

（3）

其中：Q表示查询向量，K表示键向量，V表示值向量， $ω (\cdot)$ 表示激活函数 $s o f t m a x (\cdot / \sqrt[]{d_{k}})$ ，Concat表示Pytorch框架中的拼接操作。

在编码过程中，层归一化（Layer Normalization，LN）^［33］针对不同样本计算当前所有神经元的均值和方差。虽然归一化操作过程不受样本批次大小的影响，但是增加了Transformer模块的计算复杂度，使得检测网络训练过程耗时更长。因此，这里应用两个全连接层代替原来的层归一化，由于全连接Linear输入和输出都是形状保持不变的二维张量，因此这种替换方法可以在降低计算复杂度的同时有效地减少样本批次大小的影响。Transformer编码器及MHSA结构如图3所示。

图3 多头自注意力结构

Fig.3 Multi-head self attention structure

2.3　目标定位损失函数优化

本文数据集异物图像多为中小尺度，其像素面积占比量相较整幅图像较小，且多数小目标存在边缘特征模糊、轮廓定位不清晰等问题。图4（a）和图4（b）分别表示为像素尺寸为105×110的中等目标和15×26的小目标预测框（红色）及真实框（蓝色）拟合示意图（彩图见期刊电子版）。假设预测框宽高均与真实框一致，当红框较蓝框沿X轴和Y轴发生10像素偏移，可以计算出中等尺度目标平均交并比^［34］（Intersection over Union，IoU）为0.887，而小尺度目标仅为0.531，可知小目标预测框精确性受定位中心拟合准确性的影响较大。针对上述问题，将YOLOv5网络默认的GIoU^［35］定位损失函数替换为CIoU^［36］定位损失函数，以提高模型对夜间机场跑道异物的定位精确性。

图4 真实框与预测框的拟合结果

Fig.4 Fitting result of real box and prediction box

为改善定位中心对小目标预测框准确性影响较大的情况，CIoU损失通过回归预测框和真实框中心点距离以实现加速收敛，增加了检测框尺度以及宽高比损失，实现了预测框与真实框的有效拟合。CIoU损失的计算公式如下：

（4）

其中： $b^{p t}$ 和 $b^{g t}$ 分别表示预测框面积和真实框面积，c表示真实框和预测框的最大对角线距离， $ρ^{2} (b^{p t}, b^{g t})$ 表示预测框和真实框的中心点距离， $α$ 是权衡参数表示为 $\frac{v}{(1 - I o U) + v}$ ，v是衡量宽高比一致性的参数表示为 $\frac{4}{π^{2}} {(a r c t a n \frac{w^{g t}}{h^{g t}} - a r c t a n \frac{w^{p t}}{h^{p t}})}^{2}$ ， $w^{p t}$ 和 $w^{g t}$ 表示预测框和真实框的宽度， $h^{p t}$ 和 $h^{g t}$ 表示预测框和真实框的高度。

应用CIoU损失可以减小夜间机场跑道异物入侵检测任务中出现的目标定位误差，增强预测框对真实目标框的拟合能力。CIoU损失示意图如图5所示。

图5 CIoU损失示意

Fig.5 CIoU loss of signal

3 实验结果与分析

3.1　实验数据集的建立及分析

根据芝加哥奥黑尔机场跑道实际场景的异物分布情况和深度学习对样本需求的技术特点，设计并构建了夜间机场跑道异物数据集（Night Foreign Object Debris，NFOD）。NFOD以混凝土和沥青路面模拟机场跑道路面，该数据集共包含9种异物：（1）螺母；（2）橡胶块；（3）机械扳手；（4）钉子；（5）捆扎材料；（6）螺丝刀；（7）钳子；（8）树枝和树叶；（9）金属片。

3.1.1　数据集建立

本文采用AGV无人车对模拟夜间真实环境下机场跑道路面进行相关类别异物的图像采集。图像采集设备的工作环境额定最低照度为0.051 lux，其他参数如表1所示。为了保证AGV小车在低照度环境中正常移动，图像传感器正常采集异物图像，为AGV无人车上加装1.2 W LED光源，其作用面积约为2 m²，普通LED灯光通量约为75 lm，利用系数约为0.3，维护系数为0.65。平均光照强度为：

（5）

其中： $Φ$ 表示光源总光通量， $C_{U}$ 表示利用系数， $F_{M}$ 表示维护系数， $S$ 表示区域面积。计算可得： $E_{a v}$ =75 lm×1.2 W×0.3×0.65/2 m²=8.775 lx。由此可知，本文的模拟环境光照强度与夜间机场跑道道面环境相似。

表1 LRCP20680_1080P摄像头参数

Tab.1 Parameters of LRCP20680_1080P camera

参　数	值
传感器规格	高级COMS感光芯片 1/2.7 inch
像元尺寸	3 μm×3 μm
最低工作照度	0.051 lx
速度	30 frame/s
输出分辨率	1 280×720

对AGV小车拍摄的异物图像进行数据筛选后最终确定数据集的图像数量为588幅。使用Labelme对包含9个类的3 230个实例目标进行标注，并转化为PASCAL VOC2017格式标注文件。采用Random库按照9∶1的比例将数据集随机划分训练集和测试集，分别用于训练模型和验证最终模型的泛化能力。机场跑道异物图像示例及标注情况如图6所示。

图6 NFOD数据集图像及标注

Fig.6 NFOD dataset images and annotations

3.1.2　数据集建立

从各类别目标的尺度角度分析NFOD夜间机场跑道异物入侵数据集，数据集中目标宽高尺度分布如图7所示。

图7 目标实例尺度分布

Fig.7 Target instance scale distribution

将目标尺寸大于96×96像素的目标划分为大尺度目标，将32×32~96×96像素之间的目标划分为中等尺度目标，将小于32×32像素的目标划分为小尺度目标。从图8可以看到，目标尺寸主要分布在5×5~80×80之间，因此，NFOD夜间机场跑道异物入侵数据集主要由中小尺度目标构成。

图8 mAP可视化结果

Fig.8 Visualization results of mean average precision

3.2　实验配置

本文使用的操作系统为Ubuntu18.04，CPU为Intel（R） Core（TM） i5-10400F，GPU为NVIDIA RTX 3060（12G）的计算机。深度学习框架为Pytorch1.8.0、Python 版本为3.7、采用CUDA11.2、cuDNN8.0.5加速模型训练。

实验过程中，将输入图像尺寸统一为640×640并将批处理尺寸（Batch_Size）设置为8。在训练阶段设置迭代次数为400Epoch、初始学习率设置为0.001，在前5个Epoch使用Warmup学习率预热的方式从0逐步增加到预先设定的学习率，以提高模型损失的收敛速度，5个Epoch以后使用余弦退火法对学习率进行衰减，以保证模型损失收敛的稳定性，权重衰减率设置为0.000 5。对最后的训练模型精度和推理速度综合比较后选出最优模型。

3.3　评价指标

为验证算法的优越性及有效性，本文选取均值平均精度、模型参数量和每秒检测帧数（帧率）3种评价指标来综合评价算法模型。均值平均准确率^［37］（mean Average Precision，mAP）是指在测试集中对各类目标检测精度的平均值，即有：

（6）

其中： $P_{A d}$ 表示每类的精确率， $D$ 表示数据集中类别数目。

每秒检测帧数是指模型对测试集中对异物图像检测速度的平均值，计算公式如下：

（7）

其中： $F_{T}$ 表示总帧数， $T_{C}$ 表示模型检测总时间。

航空安全对机场跑道异物检测有误报和漏报的要求。若使用高阈值AP@0.95可能会导致异物漏检，而使用低阈值AP@0.5也可能导致异物误报，综合上述情况，使用阈值AP@0.75来衡量模型性能，即IoU阈值大于0.75时的测试AP。

3.4　检测结果与定量分析

3.4.1　CSPTNet消融实验

应用K-means聚类算法对数据集标注的边界框（Bounding Box，BBox）尺寸进行聚类分析，得到具有固定宽高的初始候选框。预置候选框先验参数有助于模型加速收敛并且使模型获得目标尺寸的先验经验，避免模型在训练时盲目寻找目标。初始候选框的框选质量也会影响到模型的检测精度和参数量。由于YOLOv5包含3个检测层，分别对3个检测层的不同类别先验框进行聚类分析。每个锚点框所对应数值为锚点框的尺寸，从尺寸分布来看，重新聚类后的锚点框参数集中在5~90之间，更适合小尺度异物目标。聚类前后3个检测层的初始候选框尺寸情况如表2所示。

表2 检测层的初始候选框尺寸

Tab.2 Initial candidate box size of detect layers

检测层	聚类前	聚类后
20×20	（10， 13），（16，30），（33， 23）	（6， 8），（10，15），（12， 24）
40×40	（30， 61），（62， 45），（59， 119）	（16， 18），（22， 27），（33， 16）
80×80	（116， 90），（156， 198），（373， 326）	（37， 77），（42， 35），（66， 68）

采用K-means聚类算法进行实验，如表3所示，计算最佳候选框尺寸后模型精度达到83.6%，能有效提高模型的检测精度，相较于非最优候选框平均精度mAP提高了0.7%，且图像处理速度也提升了1.4 frame/s，因此验证了初始候选框尺寸先验性对实验结果的积极影响。应用CIoU定位损失函数进行实验分析，由表3和图8（a）的实验结果可知，YOLOv5模型采用CIoU目标定位损失函数后，模型的训练精度相较于GIoU损失函数收敛速度更快，收敛曲线的振荡幅度较小。在测试精度上，CIoU损失对中小目标检测的优化效果较好，在多个小目标类别上精度有较大提升，平均测试精度达到了84.3%，提高了0.7%，验证了应用目标框宽高比作为定位损失惩罚因子的CIoU损失可以提高模型针对低照度场景下小尺度异物目标的定位能力。在添加了融合多头自注意力与特征嵌入的Transformer瓶颈模块进行实验分析，由表3可知，模型精度提升至88.1%，平均精度提高了3.8%，但是由于增加了多个分支子空间提取特征信息，模型的图像处理速度下降了4.5 frame/s。

表3 消融实验结果

Tab.3 Result of ablation experiments

模　型	GIoU	K-means	CIoU	Transformer BottleNeck	Weight /MB	Speed/ （frame·s^-1）	mAP /%
YOLOv5+GIoU	√				14.4	41.8	82.9
YOLOv5+K-means+ GIoU	√	√			14.4	43.2	83.6
YOLOv5+K-means+CIoU		√	√		14.4	42.5	84.3
YOLOv5+K-means+CIoU+TransformerBotteNeck		√	√	√	14.4	38.0	88.1

3.4.2　自注意力分支子空间数量参数优化实验

在YOLOv5-CIoU模型框架基础上，对融合自注意力与特征嵌入的Transformer瓶颈模块参数进行实验，以获得最好的模型效果。对比嵌入位置特征信息后，将特征图输入不同数量的分支子空间对Transformer瓶颈模块抽取长距离特征信息的影响。在MHSA模块中设置1，2，4，8和16个自注意力分支子空间进行实验，实验结果如表4所示。

表4 自注意力分支子空间数量效果对比

Tab.4 Comparison of effect of subspace number of self-attentional branches

Model	Speed/ （frame·s^-1）	Weight /MB	mAP （%）	Plier （%）	Screwdriver （%）	Strapping_tape （%）	Nail （%）	Sheetmetal （%）	Spanner （%）	Branch （%）	Nut （%）	Block_rubber （%）
CSPTNet-1H	41.5	14.4	87.2	91.8	80.7	83.8	81.6	90.8	92.0	75.6	89.3	87.2
CSPTNet-2H	39.4	14.4	87.2	81.7	91.0	85.7	78.5	87.2	90.0	74.4	98.0	98.1
CSPTNet-4H	38.0	14.4	88.1	86.9	93.3	77.7	74.0	95.6	94.4	83.5	96.1	91.5
CSPTNet-8H	28.5	14.4	87.1	82.5	86.0	92.3	83.6	94.0	90.1	66.2	89.9	87.1
CSPTNet-16H	20.6	14.4	84.1	79.6	86.1	81.2	80.4	91.1	94.5	76.6	82.5	84.7

由表4可知，MHSA中分支子空间的数量对网络表征能力有较大影响。从单个分支增加到4个分支，注意力分支子空间的增加使得网络模型能够从更多独立注意力分支子空间中抽取特征信息进行长距离建模，以增强对中小目标的拟合能力，减少了中小尺度目标的特征信息损失，因此异物检测识别率逐渐上升。而由4个分支增加到16个分支的精度变化过程可知，简单增加分支子空间数量会使计算复杂度大幅上升，导致网络性能下降，图像处理速度由41.5 frame/s降低到20.6 frame/s。由于采用了预训练模型的训练模式，模型的权重都为14.4 MB。综合对比实验结果，4个分支的MHSA表现最好，检测精度最高，模型的图像处理速度也较快，因此将CSPTNet-4Head作为本文算法的最终模型。

3.4.3　注意力机制对比实验

本文对比Yolov5框架下不同注意力机制在图像处理速度、权重大小、平均精度以及各类别精度结果，以验证MHSA在特征提取能力上的优势，实验结果如表5所示。其中，压缩激励注意力（Squeeze and Excitation， SE）、协调注意力（Coordinate Attention， CoordAtt）、卷积注意力（Convolutional Block Attention Module， CBAM）、通道注意力（Channel Attention，ChannelAtt）以及有效通道注意力（Effective Channel Attention，ECA）在精度上均有不同程度的下降，SE精度最低，下降了7.8%，ECA精度降低最少，下降了0.6%。以上注意力均基于通道信息建模各通道（特征图）之间的相关性，通过模型训练获取各通道的重要程度，以强化重要特征和抑制非重要特征。但由于异物目标尺度较小，在获取特征信息时高权重通道也包含大量非异物目标的冗余信息，影响模型的检测精度。

表5 注意力机制对比实验结果

Tab.5 Comparative experiment results of attention mechanism

Model	Speed/ （frame·s^-1）	Weight /MB	mAP （%）	Plier （%）	Screwdriver （%）	Strapping_tape （%）	Nail （%）	Sheetmetal （%）	Spanner （%）	Branch （%）	Nut （%）	Block_rubber （%）
SE	40.6	15	76.5	77.1	62.8	70.5	77.5	90.8	85.4	72.2	57.5	94.5
CoordAtt	39.0	14.5	77.6	70.3	74.5	81.6	79.4	89.7	78.6	56.6	76.2	90.6
CBAM	42.0	14.5	79.9	67.1	82.4	80.4	77.4	92.5	86.3	65.8	75.5	91.3
ChannleAtt	45.0	14.5	80.7	66.7	75.7	81.4	84.1	88.5	90.0	71.7	78.9	89.0
ECA	42.7	14.8	83.7	69.1	85.7	83.7	81.4	89.8	87.8	72.6	84.5	98.6
SAM	41.8	14.5	85.4	85.9	86.1	82.5	82.9	85.8	95.1	76.4	82.4	91.5
MHSA	38.0	14.4	88.1	86.9	93.3	77.7	74.0	95.6	94.4	83.5	96.1	91.5

空间注意力（Spatial Attention Module，SAM）在原有精度基础上提高了1.2%，为每个位置生成权重掩膜并加权输出，从而增强感兴趣的特定目标区域并弱化不相关的背景区域。在异物目标尺度较小而背景区域较大的情况下，SAM重点关注存在异物目标的局部区域，因此能够提高异物目标的检测精度。

MHSA的精度最高，达到88.1%，模型文件最小，仅为14.4 MB，虽然图像处理速度最慢，为38 frame/s，但也达到了实时性标准。MHSA通过将原始特征图映射为4个向量分支，减少外部信息依赖，利用特征内部的固有信息进行注意力交互。首先，计算Q和K的相关性权重矩阵系数；其次，通过软操作对权重矩阵进行归一化；最后，再将权重系数叠加到Value上，以实现上下文信息的建模，有效地捕获长距离的特征依赖。在多个独立特征空间获取特征信息之后进行拼接，丰富异物目标的特征信息，保证模型的检测效果。

3.4.4　自注意力特征嵌入瓶颈模块实验

在CSPTNet最终模型基础上对比其他普通瓶颈模块，以验证Transformer特征嵌入和MHSA融合的有效性。本组实验在上述网络模型框架的基础上，添加不同瓶颈模块的模型进行性能对比。对比实验中，应用的瓶颈模块除自注意力特征嵌入瓶颈模块外，还有标准BottleNeck，CSPBottleNeck，GhostBottleNeck，精度对比结果如表6所示。

表6 瓶颈模块效果对比

Tab.6 Effect comparison of bottleneck modules

Model	Speed/（frame·s^-1）	Weight /MB	mAP （%）	Plier （%）	Screwdriver （%）	Strapping_tape （%）	Nail （%）	Sheetmetal （%）	Spanner （%）	Branch （%）	Nut （%）	Block_rubber （%）
YOLOv5-ST	41.2	14.7	82.4	66.4	82.3	77.0	76.1	87.4	90.7	82.9	86.6	92.0
YOLOv5-Ghost	47.5	13.2	83.5	75.3	85.8	82.5	80.5	90.4	91.1	83.7	72.7	89.8
YOLOv5-CSP	43.9	14.6	85.0	90.3	86.7	87.0	78.1	88.9	89.1	70.3	85.4	88.9
CSPTNet	38.0	14.4	88.1	86.9	93.3	77.7	74.0	95.6	94.4	83.5	96.1	91.5

由表6可知，融合自注意力特征嵌入的Transformer瓶颈模块相比于标准BottleNeck、CSPBottleNeck和GhostBottleNeck具备更好的小尺度目标检测性能，权重大小相似，但是检测速度稍差一些。Transformer瓶颈模块通过位置信息嵌入和MHSA提高上下文信息的相关性，获取更加丰富的目标特征信息，提高了模型的定位和检测识别能力。CSPTNet最终的测试精度可达88.1%，与标准瓶颈模块相比，提升了5.7%。不同BottleNeck模块训练精度过程的可视化如图8（c）所示。

3.4.5　不同网络实验结果对比

选择基于单阶段目标检测的YOLOv5，YOLOx，YOLOv3，YOLOv3-tiny，TOOD^［38］和VarifocalNet^［39］算法以及双阶段目标检测的Sparse R-CNN^［40］和Faster R-CNN算法与本文模型进行对比，以客观评价CSPTNet模型对夜间机场跑道异物检测任务的优越性。为保证实验结果的有效性，在同一配置设备上开展实验并使用同一数据集，算法性能对比如表7所示，可视化过程如图8（d）所示。

表7 模型效果对比

Tab.7 Comparison of model effects

Model	Speed/（frame·s^-1）	Weight /MB	mAP （%）	Plier （%）	Screwdriver （%）	Strapping_tape （%）	Nail （%）	Sheetmetal （%）	Spanner （%）	Branch （%）	Nut （%）	Block_rubber （%）
YOLOv3-tiny	49.7	17.4	30.3	40.5	9.0	26.4	22.2	59.3	42.4	0	13.5	59.1
VarifocalNet	14.9	261.4	52.8	70.7	56.7	69.5	2.8	42.8	78.2	75.3	1.4	77.4
Faster R-CNN	19.9	330.6	65.6	88.9	72.0	87.3	20.7	53.7	85.4	80.6	21.7	80.5
Sparse R-CNN	17.2	1300	73.0	85.3	65.7	93.8	47.1	72.8	79.1	79.3	59.2	74.5
TOOD	16.6	255.8	75.1	84.0	81.5	90.0	49.8	62.3	90.9	80.9	60.0	81.8
YOLOx	14.8	71.9	78.69	92.6	81.5	97.5	56.1	87.8	98.0	83.3	23.8	87.6
YOLOv3	39.5	19.4	82.9	59.9	81.3	88.6	71.1	94.5	87.7	75.3	96.5	91.5
YOLOv5	41.8	14.4	82.9	77.8	72.4	82.5	76.6	88.5	89.8	82.3	76.2	99.5
Ours	38.0	14.4	88.1	86.9	93.3	77.7	74	95.6	94.4	83.5	96.1	91.5

由表7可知，CSPTNet在9个异物类别上的平均精度达到88.1%，超过经典检测算法YOLOv3和Faster R-CNN以及最新提出的YOLOx，TOOD和VarifocalNet、Sparse R-CNN算法。本文算法在保持38 frame/s的实时性基础上，相比其他网络大幅降低了模型参数量，并且在多个异物类别上的检测识别准确率达到90%以上。综上所述，夜间机场跑道异物检测任务需要同时权衡模型平均检测精度、检测速度和模型权重，因此CSPTNet模型的鲁棒性更好，更适用于夜间机场跑道异物入侵检测任务。

3.5　检测结果与定性分析

由上述对比实验可知，在NFOD夜间机场跑道异物入侵数据集上，本文提出的算法能够有效提高模型对中小目标的识别精度。与原始YOLOv5模型相比，精度和泛化能力上均有一定程度的提升，并且未增加额外参数量，在引入CIoU损失函数后网络的训练收敛速度和精度也有一定提升。因此，本文提出的改进算法符合预期结果，测试图像如图9所示。

图9检测结果可视化

Fig.9Test result visualization

由图9可以看出，像素面积占比较小的目标边缘特征较为模糊，导致网络对目标的定位误差增大，分类置信度降低。本文针对小目标的改进算法能有效降低模型的漏检率，在定位精确性和分类置信度上均有较大提升。

图10（b）是本文算法输出特征图的可视化结果，相比图10（a）的YOLOv5输出特征图，添加了特征嵌入和MHSA的网络模型在中小尺度目标周围形成更多关注区域，异物目标的空间位置特征和其他特征关联性增强，有利于小尺度目标的检测。

图10 特征图可视化结果

Fig.10 Visualization of characteristic image

4 结论

本文针对夜间机场跑道异物入侵小尺度目标检测需求，提出一种融合自注意力特征嵌入的异物检测模型CSPTNet。通过引入融合自注意力特征嵌入的Transformer瓶颈模块，经过位置信息特征嵌入和MHSA融合不同分支子空间的长距离特征信息建模，强化了模型对中小尺度目标上下文信息获取能力，改善了中小尺度目标的特征信息缺乏的问题。针对小目标像素占比低和边缘特征模糊等问题，引入CIOU损失函数对定位损失进行修正，以提高模型对目标中心定位准确性。经过实验验证，本文算法能有效提高螺钉等9类中小尺度目标的检测精度，mAP平均精度达到88.1%，较原始网络模型提高5.2%，并且CSPTNet的最高检测速度可达38 frame/s，能够满足实时检测要求。实验结果表明，CSPTNet针对夜间场景具有更好的检测效果。

夜间场景下非规则形状小尺度异物的检测难度更高，非规则异物相较规则异物形状特征更丰富，但在低照度环境下边缘形状轮廓信息会受到更多干扰，并且检测过程容易受到CNN几何建模能力限制，影响网络模型的定位准确性。非规则小尺度异物的检测可以从可变形卷积方向考虑，标准卷积中规则格点采样会导致模型难以适应几何形变，而可变形卷积为卷积核中每个采样点位置增加偏移变量，动态调整大小和位置适应不同尺寸和形状的几何形变，实现格点周围的自适应采样。后续研究工作将继续关注机场跑道小尺度异物类别精度的提高，为机场跑道异物智能检测提供更准确的识别和定位信息并减少误报和漏报。

关键字：优秀论文

上一篇：MEMS微压压力传感器的灵敏度优化
下一篇：Res2-Unet深度学习网络的RGB-高光谱图像重建

栏目分类

热门排行

推荐信息

期刊知识

融合自注意力特征嵌入的夜间机场跑道异物入侵检测

2 融合自注意力特征嵌入的异物入侵检测网络

2.1 CSPTNet网络结构

2.2 Transformer 瓶颈模块

2.3 目标定位损失函数优化

3 实验结果与分析

3.1 实验数据集的建立及分析

3.2 实验配置

3.3 评价指标

3.4 检测结果与定量分析

3.5 检测结果与定性分析

4 结 论