融合自注意力特征嵌入的夜间机场跑道异物入侵检测
近年来,航空运输安全越来越受到业内人士关注,机场跑道异物(Foreign Object Debris,FOD)检测成为研究的重点方向。FOD主要指在机场跑道面上的金属器件、碎石块、纸制品、动植物等[
FOD探测技术包括雷达探测技术和光学成像探测技术。雷达探测技术利用毫米波雷达[
基于CNN的异物检测算法[
目前,FOD检测研究聚焦于白天自然光环境下,缺少针对夜间机场跑道FOD检测相关研究,夜间机场飞机起降频次较低有利于FOD的检测和排除。本文提出一种融合自注意力特征嵌入的高精度夜间机场跑道异物检测算法(Cross Stage Partial Transformer Network,CSPTNet),该算法采用跨阶段局部主干网络(Cross Stage Partial Network,CSPNet)提取目标特征,在CSPNet末端添加Transformer模块,通过特征嵌入和自注意力机制为特征之间增加关联性并提高全局特征信息获取能力;在后处理阶段引入CIoU修正定位损失,提高精度并降低计算量,在自建夜间机场跑道异物检测数据集上进行实验,以验证算法有效性。针对数据集样本异物尺度较小,特征信息缺乏等问题,引入融合自注意力特征嵌入的Transformer瓶颈模块并替换原有瓶颈模块,提高全局特征和局部特征相关性,把主干网络输出的特征图分割成子块扁平化后与位置编码进行特征嵌入,并将图像中像素表示转化成向量表示,最后在高维向量空间中捕捉像素间关系,使得小尺度异物目标上下文信息获得关联,增强了模型的表征能力。采用多头自注意力机制(Multi-Head Self Attention,MHSA),从4层并行缩放点积注意力(Scaled Dot-Product Attention,SA)分支子空间中提取不同分支聚合的特征信息,在逐通道拼接特征信息过程中融合全局特征与局部特征信息,丰富了小尺度异物目标的特征信息,增强模型针对异物目标的拟合能力以提高模型精度。针对夜间环境照度低且目标尺度较小导致轮廓边缘模糊定位困难等问题,在模型后处理阶段引入CIoU损失函数计算目标间相似度,对预测框尺寸和中心位置进行修正优化,以提高模型对异物目标轮廓的定位准确度。
2 融合自注意力特征嵌入的异物入侵检测网络
2.1 CSPTNet网络结构
由于夜间机场跑道场景下具有环境照度低、异物目标尺度小等场景特点,且小目标异物存在难检、错检以及定位困难等问题。为在小样本数据集上完成夜间机场跑道异物入侵的实时准确检测,本文基于YOLOv5检测网络提出一种精度高、泛化能力强的卷积神经网络CSPTNet,网络结构如
图1 CTPNet网络结构
Fig.1 CTPNet Network Structure
2.2 Transformer 瓶颈模块
2.2.1 特征嵌入模块
原始YOLOv5模型在瓶颈层处应用标准瓶颈模块[
图2 瓶颈结构对比
Fig.2 Comparison of bottleneck structures
由于夜间机场跑道场景下的异物实例具有数量多和目标尺度偏小的特点,在网络结构中使用较多卷积操作会导致目标特征信息大量丢失,不利于中小尺度目标的精确识别。因此,在使用标准瓶颈模块效果较差的情况下,本文应用具备线性映射的Transformer代替标准卷积进行特征筛选。除此之外,Transformer模块对特征图进行位置信息嵌入,保证特征间有效关联,采用Transformer瓶颈模块能够实现位置信息的有效嵌入和全局特征提取[
特征嵌入模块将主干网络输出的特征图划分成N个P×P×C像素的子块,通过扁平化操作可以将其转换为N个P2C维向量。为了避免模型结构受到子块尺寸的影响,采用线性投影将扁平化子块转换成D维向量,因此输入特征可变换为N×D的D维嵌入特征,然后与位置嵌入求和并输入编码器中。特征嵌入过程如
2.2.2 多头自注意力结构
夜间机场跑道异物数据集图像目标体积小、分布散乱,并且易受环境变换(如成像角度、光照阴影等)的影响,导致成像结果较差。因此,在模型骨干网络中引入MHSA[
MHSA根据主干网络输出的多尺度特征图通过线性映射计算Q,K和V,对其应用softmax激活函数归一化之后,乘上将输出结果输入多层参数独立的并行SA分支子空间,最后逐通道拼接各分支输出的特征图,通过聚合不同分支特征信息丰富主干网络提取的特征空间。
MHSA允许模型从不同自注意力分支子空间中抽取更加丰富的特征信息,并有效预防过拟合。SA和多头自注意力计算公式如下:
(1) |
(2) |
(3) |
其中:Q表示查询向量,K表示键向量,V表示值向量,表示激活函数,Concat表示Pytorch框架中的拼接操作。
在编码过程中,层归一化(Layer Normalization,LN)[
图3 多头自注意力结构
Fig.3 Multi-head self attention structure
2.3 目标定位损失函数优化
本文数据集异物图像多为中小尺度,其像素面积占比量相较整幅图像较小,且多数小目标存在边缘特征模糊、轮廓定位不清晰等问题。
图4 真实框与预测框的拟合结果
Fig.4 Fitting result of real box and prediction box
为改善定位中心对小目标预测框准确性影响较大的情况,CIoU损失通过回归预测框和真实框中心点距离以实现加速收敛,增加了检测框尺度以及宽高比损失,实现了预测框与真实框的有效拟合。CIoU损失的计算公式如下:
(4) |
其中:和分别表示预测框面积和真实框面积,c表示真实框和预测框的最大对角线距离,表示预测框和真实框的中心点距离,是权衡参数表示为,v是衡量宽高比一致性的参数表示为,和表示预测框和真实框的宽度,和表示预测框和真实框的高度。
应用CIoU损失可以减小夜间机场跑道异物入侵检测任务中出现的目标定位误差,增强预测框对真实目标框的拟合能力。CIoU损失示意图如
图5 CIoU损失示意
Fig.5 CIoU loss of signal
3 实验结果与分析
3.1 实验数据集的建立及分析
根据芝加哥奥黑尔机场跑道实际场景的异物分布情况和深度学习对样本需求的技术特点,设计并构建了夜间机场跑道异物数据集(Night Foreign Object Debris,NFOD)。NFOD以混凝土和沥青路面模拟机场跑道路面,该数据集共包含9种异物:(1)螺母;(2)橡胶块;(3)机械扳手;(4)钉子;(5)捆扎材料;(6)螺丝刀;(7)钳子;(8)树枝和树叶;(9)金属片。
3.1.1 数据集建立
本文采用AGV无人车对模拟夜间真实环境下机场跑道路面进行相关类别异物的图像采集。图像采集设备的工作环境额定最低照度为0.051 lux,其他参数如
(5) |
其中:表示光源总光通量,表示利用系数,表示维护系数,表示区域面积。计算可得:=75 lm×1.2 W×0.3×0.65/2 m2=8.775 lx。由此可知,本文的模拟环境光照强度与夜间机场跑道道面环境相似。
参 数 | 值 |
---|---|
传感器规格 | 高级COMS感光芯片 1/2.7 inch |
像元尺寸 | 3 μm×3 μm |
最低工作照度 | 0.051 lx |
速度 | 30 frame/s |
输出分辨率 | 1 280×720 |
对AGV小车拍摄的异物图像进行数据筛选后最终确定数据集的图像数量为588幅。使用Labelme对包含9个类的3 230个实例目标进行标注,并转化为PASCAL VOC2017格式标注文件。采用Random库按照9∶1的比例将数据集随机划分训练集和测试集,分别用于训练模型和验证最终模型的泛化能力。机场跑道异物图像示例及标注情况如
图6 NFOD数据集图像及标注
Fig.6 NFOD dataset images and annotations
3.1.2 数据集建立
从各类别目标的尺度角度分析NFOD夜间机场跑道异物入侵数据集,数据集中目标宽高尺度分布如
图7 目标实例尺度分布
Fig.7 Target instance scale distribution
将目标尺寸大于96×96像素的目标划分为大尺度目标,将32×32~96×96像素之间的目标划分为中等尺度目标,将小于32×32像素的目标划分为小尺度目标。从
图8 mAP可视化结果
Fig.8 Visualization results of mean average precision
3.2 实验配置
本文使用的操作系统为Ubuntu18.04,CPU为Intel(R) Core(TM) i5-10400F,GPU为NVIDIA RTX 3060(12G)的计算机。深度学习框架为Pytorch1.8.0、Python 版本为3.7、采用CUDA11.2、cuDNN8.0.5加速模型训练。
实验过程中,将输入图像尺寸统一为640×640并将批处理尺寸(Batch_Size)设置为8。在训练阶段设置迭代次数为400Epoch、初始学习率设置为0.001,在前5个Epoch使用Warmup学习率预热的方式从0逐步增加到预先设定的学习率,以提高模型损失的收敛速度,5个Epoch以后使用余弦退火法对学习率进行衰减,以保证模型损失收敛的稳定性,权重衰减率设置为0.000 5。对最后的训练模型精度和推理速度综合比较后选出最优模型。
3.3 评价指标
为验证算法的优越性及有效性,本文选取均值平均精度、模型参数量和每秒检测帧数(帧率)3种评价指标来综合评价算法模型。均值平均准确率[
(6) |
其中:表示每类的精确率,表示数据集中类别数目。
每秒检测帧数是指模型对测试集中对异物图像检测速度的平均值,计算公式如下:
(7) |
其中:表示总帧数,表示模型检测总时间。
航空安全对机场跑道异物检测有误报和漏报的要求。若使用高阈值AP@0.95可能会导致异物漏检,而使用低阈值AP@0.5也可能导致异物误报,综合上述情况,使用阈值AP@0.75来衡量模型性能,即IoU阈值大于0.75时的测试AP。
3.4 检测结果与定量分析
3.4.1 CSPTNet消融实验
应用K-means聚类算法对数据集标注的边界框(Bounding Box,BBox)尺寸进行聚类分析,得到具有固定宽高的初始候选框。预置候选框先验参数有助于模型加速收敛并且使模型获得目标尺寸的先验经验,避免模型在训练时盲目寻找目标。初始候选框的框选质量也会影响到模型的检测精度和参数量。由于YOLOv5包含3个检测层,分别对3个检测层的不同类别先验框进行聚类分析。每个锚点框所对应数值为锚点框的尺寸,从尺寸分布来看,重新聚类后的锚点框参数集中在5~90之间,更适合小尺度异物目标。聚类前后3个检测层的初始候选框尺寸情况如
检测层 | 聚类前 | 聚类后 |
---|---|---|
20×20 | (10, 13), (16,30), (33, 23) | (6, 8), (10,15), (12, 24) |
40×40 | (30, 61), (62, 45), (59, 119) | (16, 18), (22, 27), (33, 16) |
80×80 | (116, 90), (156, 198), (373, 326) | (37, 77), (42, 35), (66, 68) |
采用K-means聚类算法进行实验,如
模 型 | GIoU | K-means | CIoU | Transformer BottleNeck | Weight /MB | Speed/ (frame·s-1) | mAP /% |
---|---|---|---|---|---|---|---|
YOLOv5+GIoU | √ | 14.4 | 41.8 | 82.9 | |||
YOLOv5+K-means+ GIoU | √ | √ | 14.4 | 43.2 | 83.6 | ||
YOLOv5+K-means+CIoU | √ | √ | 14.4 | 42.5 | 84.3 | ||
YOLOv5+K-means+CIoU+TransformerBotteNeck | √ | √ | √ | 14.4 | 38.0 | 88.1 |
3.4.2 自注意力分支子空间数量参数优化实验
在YOLOv5-CIoU模型框架基础上,对融合自注意力与特征嵌入的Transformer瓶颈模块参数进行实验,以获得最好的模型效果。对比嵌入位置特征信息后,将特征图输入不同数量的分支子空间对Transformer瓶颈模块抽取长距离特征信息的影响。在MHSA模块中设置1,2,4,8和16个自注意力分支子空间进行实验,实验结果如
Model | Speed/ (frame·s-1) | Weight /MB | mAP (%) | Plier (%) | Screwdriver (%) | Strapping_tape (%) | Nail (%) | Sheetmetal (%) | Spanner (%) | Branch (%) | Nut (%) | Block_rubber (%) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
CSPTNet-1H | 41.5 | 14.4 | 87.2 | 91.8 | 80.7 | 83.8 | 81.6 | 90.8 | 92.0 | 75.6 | 89.3 | 87.2 |
CSPTNet-2H | 39.4 | 14.4 | 87.2 | 81.7 | 91.0 | 85.7 | 78.5 | 87.2 | 90.0 | 74.4 | 98.0 | 98.1 |
CSPTNet-4H | 38.0 | 14.4 | 88.1 | 86.9 | 93.3 | 77.7 | 74.0 | 95.6 | 94.4 | 83.5 | 96.1 | 91.5 |
CSPTNet-8H | 28.5 | 14.4 | 87.1 | 82.5 | 86.0 | 92.3 | 83.6 | 94.0 | 90.1 | 66.2 | 89.9 | 87.1 |
CSPTNet-16H | 20.6 | 14.4 | 84.1 | 79.6 | 86.1 | 81.2 | 80.4 | 91.1 | 94.5 | 76.6 | 82.5 | 84.7 |
由
3.4.3 注意力机制对比实验
本文对比Yolov5框架下不同注意力机制在图像处理速度、权重大小、平均精度以及各类别精度结果,以验证MHSA在特征提取能力上的优势,实验结果如
Model | Speed/ (frame·s-1) | Weight /MB | mAP (%) | Plier (%) | Screwdriver (%) | Strapping_tape (%) | Nail (%) | Sheetmetal (%) | Spanner (%) | Branch (%) | Nut (%) | Block_rubber (%) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
SE | 40.6 | 15 | 76.5 | 77.1 | 62.8 | 70.5 | 77.5 | 90.8 | 85.4 | 72.2 | 57.5 | 94.5 |
CoordAtt | 39.0 | 14.5 | 77.6 | 70.3 | 74.5 | 81.6 | 79.4 | 89.7 | 78.6 | 56.6 | 76.2 | 90.6 |
CBAM | 42.0 | 14.5 | 79.9 | 67.1 | 82.4 | 80.4 | 77.4 | 92.5 | 86.3 | 65.8 | 75.5 | 91.3 |
ChannleAtt | 45.0 | 14.5 | 80.7 | 66.7 | 75.7 | 81.4 | 84.1 | 88.5 | 90.0 | 71.7 | 78.9 | 89.0 |
ECA | 42.7 | 14.8 | 83.7 | 69.1 | 85.7 | 83.7 | 81.4 | 89.8 | 87.8 | 72.6 | 84.5 | 98.6 |
SAM | 41.8 | 14.5 | 85.4 | 85.9 | 86.1 | 82.5 | 82.9 | 85.8 | 95.1 | 76.4 | 82.4 | 91.5 |
MHSA | 38.0 | 14.4 | 88.1 | 86.9 | 93.3 | 77.7 | 74.0 | 95.6 | 94.4 | 83.5 | 96.1 | 91.5 |
空间注意力(Spatial Attention Module,SAM)在原有精度基础上提高了1.2%,为每个位置生成权重掩膜并加权输出,从而增强感兴趣的特定目标区域并弱化不相关的背景区域。在异物目标尺度较小而背景区域较大的情况下,SAM重点关注存在异物目标的局部区域,因此能够提高异物目标的检测精度。
MHSA的精度最高,达到88.1%,模型文件最小,仅为14.4 MB,虽然图像处理速度最慢,为38 frame/s,但也达到了实时性标准。MHSA通过将原始特征图映射为4个向量分支,减少外部信息依赖,利用特征内部的固有信息进行注意力交互。首先,计算Q和K的相关性权重矩阵系数;其次,通过软操作对权重矩阵进行归一化;最后,再将权重系数叠加到Value上,以实现上下文信息的建模,有效地捕获长距离的特征依赖。在多个独立特征空间获取特征信息之后进行拼接,丰富异物目标的特征信息,保证模型的检测效果。
3.4.4 自注意力特征嵌入瓶颈模块实验
在CSPTNet最终模型基础上对比其他普通瓶颈模块,以验证Transformer特征嵌入和MHSA融合的有效性。本组实验在上述网络模型框架的基础上,添加不同瓶颈模块的模型进行性能对比。对比实验中,应用的瓶颈模块除自注意力特征嵌入瓶颈模块外,还有标准BottleNeck,CSPBottleNeck,GhostBottleNeck,精度对比结果如
Model | Speed/(frame·s-1) | Weight /MB | mAP (%) | Plier (%) | Screwdriver (%) | Strapping_tape (%) | Nail (%) | Sheetmetal (%) | Spanner (%) | Branch (%) | Nut (%) | Block_rubber (%) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
YOLOv5-ST | 41.2 | 14.7 | 82.4 | 66.4 | 82.3 | 77.0 | 76.1 | 87.4 | 90.7 | 82.9 | 86.6 | 92.0 |
YOLOv5-Ghost | 47.5 | 13.2 | 83.5 | 75.3 | 85.8 | 82.5 | 80.5 | 90.4 | 91.1 | 83.7 | 72.7 | 89.8 |
YOLOv5-CSP | 43.9 | 14.6 | 85.0 | 90.3 | 86.7 | 87.0 | 78.1 | 88.9 | 89.1 | 70.3 | 85.4 | 88.9 |
CSPTNet | 38.0 | 14.4 | 88.1 | 86.9 | 93.3 | 77.7 | 74.0 | 95.6 | 94.4 | 83.5 | 96.1 | 91.5 |
由
3.4.5 不同网络实验结果对比
选择基于单阶段目标检测的YOLOv5,YOLOx,YOLOv3,YOLOv3-tiny,TOOD[
Model | Speed/(frame·s-1) | Weight /MB | mAP (%) | Plier (%) | Screwdriver (%) | Strapping_tape (%) | Nail (%) | Sheetmetal (%) | Spanner (%) | Branch (%) | Nut (%) | Block_rubber (%) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
YOLOv3-tiny | 49.7 | 17.4 | 30.3 | 40.5 | 9.0 | 26.4 | 22.2 | 59.3 | 42.4 | 0 | 13.5 | 59.1 |
VarifocalNet | 14.9 | 261.4 | 52.8 | 70.7 | 56.7 | 69.5 | 2.8 | 42.8 | 78.2 | 75.3 | 1.4 | 77.4 |
Faster R-CNN | 19.9 | 330.6 | 65.6 | 88.9 | 72.0 | 87.3 | 20.7 | 53.7 | 85.4 | 80.6 | 21.7 | 80.5 |
Sparse R-CNN | 17.2 | 1300 | 73.0 | 85.3 | 65.7 | 93.8 | 47.1 | 72.8 | 79.1 | 79.3 | 59.2 | 74.5 |
TOOD | 16.6 | 255.8 | 75.1 | 84.0 | 81.5 | 90.0 | 49.8 | 62.3 | 90.9 | 80.9 | 60.0 | 81.8 |
YOLOx | 14.8 | 71.9 | 78.69 | 92.6 | 81.5 | 97.5 | 56.1 | 87.8 | 98.0 | 83.3 | 23.8 | 87.6 |
YOLOv3 | 39.5 | 19.4 | 82.9 | 59.9 | 81.3 | 88.6 | 71.1 | 94.5 | 87.7 | 75.3 | 96.5 | 91.5 |
YOLOv5 | 41.8 | 14.4 | 82.9 | 77.8 | 72.4 | 82.5 | 76.6 | 88.5 | 89.8 | 82.3 | 76.2 | 99.5 |
Ours | 38.0 | 14.4 | 88.1 | 86.9 | 93.3 | 77.7 | 74 | 95.6 | 94.4 | 83.5 | 96.1 | 91.5 |
由
3.5 检测结果与定性分析
由上述对比实验可知,在NFOD夜间机场跑道异物入侵数据集上,本文提出的算法能够有效提高模型对中小目标的识别精度。与原始YOLOv5模型相比,精度和泛化能力上均有一定程度的提升,并且未增加额外参数量,在引入CIoU损失函数后网络的训练收敛速度和精度也有一定提升。因此,本文提出的改进算法符合预期结果,测试图像如
图9检测结果可视化
Fig.9Test result visualization
由
图10 特征图可视化结果
Fig.10 Visualization of characteristic image
4 结 论
本文针对夜间机场跑道异物入侵小尺度目标检测需求,提出一种融合自注意力特征嵌入的异物检测模型CSPTNet。通过引入融合自注意力特征嵌入的Transformer瓶颈模块,经过位置信息特征嵌入和MHSA融合不同分支子空间的长距离特征信息建模,强化了模型对中小尺度目标上下文信息获取能力,改善了中小尺度目标的特征信息缺乏的问题。针对小目标像素占比低和边缘特征模糊等问题,引入CIOU损失函数对定位损失进行修正,以提高模型对目标中心定位准确性。经过实验验证,本文算法能有效提高螺钉等9类中小尺度目标的检测精度,mAP平均精度达到88.1%,较原始网络模型提高5.2%,并且CSPTNet的最高检测速度可达38 frame/s,能够满足实时检测要求。实验结果表明,CSPTNet针对夜间场景具有更好的检测效果。
夜间场景下非规则形状小尺度异物的检测难度更高,非规则异物相较规则异物形状特征更丰富,但在低照度环境下边缘形状轮廓信息会受到更多干扰,并且检测过程容易受到CNN几何建模能力限制,影响网络模型的定位准确性。非规则小尺度异物的检测可以从可变形卷积方向考虑,标准卷积中规则格点采样会导致模型难以适应几何形变,而可变形卷积为卷积核中每个采样点位置增加偏移变量,动态调整大小和位置适应不同尺寸和形状的几何形变,实现格点周围的自适应采样。后续研究工作将继续关注机场跑道小尺度异物类别精度的提高,为机场跑道异物智能检测提供更准确的识别和定位信息并减少误报和漏报。
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了
- 职称话题| 为什么党校更认可省市级党报?是否有什么说据?还有哪些机构认可党报?
- 《农业经济》论文投稿解析,难度指数四颗星,附好发选题!