融合细节特征与混合注意力机制的火灾烟雾检测
当前,主流的火灾探测方法仍然依靠传统的传感器来监测特定物理量,如烟雾颗粒、环境温度、相对湿度和辐射光强等。由于火灾燃烧产物的生成和传播需要一定时间,因此,此类探测器可能会产生响应延迟,且难以在大空间建筑和室外环境正常工作[
基于传统计算机视觉算法的视频烟雾检测主要可分为如下几个阶段:图像预处理、疑似区域提取、烟雾特征描述和烟雾识别[
上述视频烟雾检测方法基于人工设计复杂的烟雾特征,人工设计的烟雾特征在很大程度上依赖于设计者的先验知识,具有较强的可解释性但是泛化性很差,仅适用于简单的火灾场景[
卷积神经网络可以获取丰富的图像特征,其中底层特征图包含了图像的纹理、边缘等细节特征,高层特征图则保留了抽象的语义信息[
本文提出了一种基于YOLOv4(You Only Look Once version4)[
2 YOLOv4算法
作为YOLO系列算法的后续版本,YOLOv4算法继承了前代算法的思想,将目标检测任务视作回归问题构建了一个端到端的网络模型,在检测速度和检测精度上均有优异表现。YOLOv4的网络结构如
图1 YOLOv4 网络结构图
Fig.1 Structure of YOLOv4
3 融合细节特征与混合注意力机制的火灾烟雾检测算法
更深层的卷积可提高卷积神经网络的语义表达和特征提取能力,然而高层特征图中关于图像的细节特征将会被削弱,不利于目标的有效定位,而且真实火灾烟雾场景中的复杂背景和遮挡将会对烟雾检测造成干扰。本文通过提取CSPDarknet53特征提取网络生成的5个层级的特征图,将浅层细节特征融合至高层特征图,获得具有丰富多尺度信息的高质量烟雾特征。随后,使用混合注意力机制对融合后特征图在通道域和空间域进行权重重新分配,使得无效背景信息被进一步抑制,提高了烟雾目标区域的特征表达效果,增强了网络特征表达的鲁棒性。
3.1 烟雾细节特征提取与融合
CSPDarknet53特征提取网络由Darknet53网络改进而来,其中包括5个CSPDarknet结构,对应输出5个层级不同尺寸的特征图。YOLOv4算法中提取3个高层的特征图将其输入至PANet中进行融合,最后经过YOLO Head结构得到输出结果。通用的目标检测算法旨在处理多类别的目标检测任务,底层的细节特征如纹理、边缘和轮廓等不足以有效区分不同类目标,因此也较少被直接用于表征目标特征信息。火灾烟雾检测是一种单类别目标检测,图像底层的细节特征有利于区分烟雾目标和图像背景;此外,常见的烟雾场景多样复杂,烟雾的扩散也会造成特征的不明显。为增强烟雾区域特征,设计了一个细节特征融合模块(Detailed Feature Fusion Module, DFF),通过统一特征图的尺寸将底层特征图和高层特征图在通道维度进行拼接,实现了细节特征与语义特征的融合,如
图2 细节特征融合模块
Fig.2 Detailed feature fusion module
细节特征融合模块是由两个特征金字塔(Feature Pyramid Networks)[
(1) |
其中:和分别表示输入特征金字塔底层和高层特征图;和分别表示最大池化运算和双线性插值,下标和表示下采样和上采样中的尺度因子;表示沿通道维度拼接操作,融合过程如
图3 特征融合过程
Fig.3 Process of feature fusion
以实验中设置的输入图片尺寸(416,416,3)为例,CSPDarknet53特征提取网络共生成了5个尺寸分别为(208,208,64),(104,104,128),(52,52,256),(26,26,512),(13,13,1 024)的特征图,分别为scale1,scale2,scale3,scale4,scale5。scale5是CSPDarknet53网络经特征映射输出的最高层特征图,其通道维长度为1 024,具有丰富的语义信息;但是scale5特征图的分辨率较低,其长宽均为13,缺乏足够的细节特征。因此本文选择将scale5特征图同最底层特征图scale1相融合,使用最短路径引入细节特征,以获得更丰富的具有尺度差异的特征表达并尽可能保留原始特征,同理特征图scale2和scale4相融合。具体来看,DFF模块1同时输入特征图scale2和特征图scale4,首先分别对这两个特征图进行两次尺度因子为2的下采样和上采样,经过卷积操作将通道数调整为128,最后在通道维度进行拼接生成了尺寸为(52,52,256)的融合特征图;DFF模块2则对scale1和scale5特征图进行了融合,得到的融合特征图尺寸同DFF模块1。
具体参数设置如
DFF模块1 | DFF模块2 | |
---|---|---|
自底向上支路 | 输入(104,104,128) 最大池化层, s=2 (52,52,128) 卷积层, c=128 (52,52,128) | 输入 (208,208,64) 最大池化层, s=2 (104,104,64) 卷积层, c=128 (104,104,128) 最大池化层, s=2 (52,52,128) 卷积层, c=128 (52,52,128) |
自顶向下支路 | 输入 (26,26,512) 双线性插值, r=2 (52,52,512) 卷积层, c=256 (52,52,256) 卷积层, c=128 (52,52,128) | 输入 (13,13,1 024) 双线性插值, r=2 (26,26,1 024) 卷积层, c=512 (26,26,512) 双线性插值, r=2 (52,52,512) 卷积层, c=256 (52,52,256) 卷积层, c=128 (52,52,128) |
拼接 | 通道维度拼接 (52,52,256) | 通道维度拼接 (52,52,256) |
3.2 基于混合注意力机制的烟雾特征鲁棒性增强
通过细节特征融合可将烟雾图像底层细节特征引入高层特征图,但是通过通道拼接方式得到的特征图可能会带来冗余信息及无关背景信息,因此引入注意力机制对融合特征图进行权重重新分配,以提升烟雾特征的表达效果,增强网络特征表达的鲁棒性。注意力机制通过调整特征图的权重达到抑制无关区域特征和增强目标区域特征的目的,提高了网络的特征表达效果。卷积神经网络中的注意力机制可分为通道注意力机制、空间注意力机制和混合注意力机制3种。通道注意力和空间注意力分别在通道域和空间域对特征图加以权重,混合注意力机制则兼顾这两点。本文在此处采用的CBAM[
图4 CBAM结构图
Fig.4 Diagram of CBAM
通道注意力模块对特征图的空间维度进行压缩获得各通道的注意力权重,不同于此前的注意力机制,此处加入了最大池化以提取各通道间的差异性特征。首先通过对输入特征图进行最大池化和平均池化得到两个通道注意力描述子和,两个注意力描述子依次经过一个共享的多层感知机(Multi Layer Perceptron, MLP)、逐元素相加和Sigmoid激活函数得到最终的通道注意力图,如
(2) |
其中,、分别表示MLP的两层权重,表示Sigmoid激活函数。
空间注意力模块则通过在通道维度利用两种池化方法生成两个相应的空间注意力描述子和,并依次进行卷积和Sigmoid激活函数运算得到最终的空间注意力图,如
(3) |
(4) |
其中,表示逐元素相乘运算。
此外,为了缓解混合注意力机制中特征映射过程造成的特征丢失,避免出现网络退化问题,本文对输入混合注意力机制的特征图通过残差连接方式(Shortcut Connections)[
(5) |
生成最终的残差混合注意力特征图。
CBAM机制的细节特征融合模块(Detailed Feature Fusion module with CBAM, DFF-CBAM)由DFF模块和CBAM模块串联组成,如
图5 引入CBAM的细节特征融合
Fig.5 Detailed feature fusion module with CBAM(DFF-CBAM)
3.3 网络整体结构
本文算法的网络结构如
图6 网络整体结构
Fig.6 Structure of the proposed network
4 实验设计与分析
本文实验的硬件环境为AMD Ryzen9 5900x处理器,32 GB内存,NVIDIA GeForce RTX3090显卡;软件环境为Windows 10操作系统,Pytorch 1.8.1深度学习框架,CUDA 11.1,Python 3.6。
4.1 实验数据集和参数设置
本文实验数据集主要选自实验室拍摄的火灾烟雾视频、公开数据集和互联网图片,通过手工标注为Psacal VOC格式的标签文件。数据集样本共包括不同场景和视角的火灾烟雾图像共9 097张,实验中划分测试集1 000张,训练集8 097张,训练时以0.2的比例随机选取验证集,实验中输入图片大小设置为416416。
训练中采用自适应动量估计(Adaptive Moment Estimation, Adam)优化器,批量大小(Batch Size)设置为16,初始学习率设置为0.001,每个训练周期(Epoch)结束后学习率调整为上一次的0.92倍。
4.2 评价指标
本文采用精确率(Precision)、召回率(Recall)和平均精确率均值(mAP)对模型进行评估,因本文检测目标为单类别目标,故mAP即为平均精确率(AP),公式如下:
(6) |
(7) |
(8) |
4.3 检测结果
本文算法的检测结果示例如
图7 检测结果示例。(a)室内烟雾;(b)室内灯光干扰烟雾;(c)室外小目标烟雾;(d)室外复杂背景烟雾;(e)森林火灾烟雾;(f)夜间火灾烟雾。
Fig.7 Examples of detection results. (a) Indoor smoke;(b) Indoor smoke under light interference;(c) Outdoor small target smoke;(d) Outdoor smoke in complex background;(e) Forest fire smoke;(f) Night fire smoke.
实验中发现,部分室外烟雾目标易受类烟物体干扰,训练集的完备性也对网络训练有较大的影响,因此算法在少数测试样本上的检测结果并未达到预期。典型的未成功检测图像如
图8 未成功检测图像
Fig.8 Image of failed to detection
4.4 消融实验
为充分说明本文算法中设计和改进的模块对火灾烟雾检测效果的影响,设计消融实验以验证各模块的有效性,实验结果如
精确率/% | 召回率/% | 平均精确率/% | 检测速率/(frame·s-1) | |
---|---|---|---|---|
YOLOv4 | 96.16 | 81.59 | 91.91 | 51.9 |
YOLOv4+DFF | 94.52 | 88.79 | 92.87 | 51.2 |
YOLOv4+CBAM | 97.32 | 85.31 | 93.47 | 52.7 |
本文算法 | 97.37 | 91.45 | 96.22 | 50.8 |
消融实验中除YOLOv4算法以外均删去SPP模块。加入DFF模块后,在引入烟雾图像细节特征的同时也带来部分背景无关信息,使得算法精确率相比于YOLOv4算法下降了1.62%,但召回率提升了7.2%。加入CBAM模块后,算法更聚焦于烟雾目标区域,使得精确率相较于YOLOv4算法提升了1.16%,同时召回率也得到了提升。值得注意的是,实验中在删去SPP模块并加入CBAM模块之后,检测速度比原始YOLOv4算法更快,这也表明了CBAM机制在引入较少参数的情况下有效提升了模型性能。
4.5 对比实验
为全面评估本文算法的有效性,设计实验与当前主流的深度学习目标检测算法和基于深度学习的火灾烟雾检测算法进行对比,实验结果如
精确率/% | 召回率/% | 平均精确率/% | 检测速率/(frame·s-1) | |
---|---|---|---|---|
Faster-RCNN | 73.82 | 81.72 | 82.55 | 20.3 |
SSD | 65.31 | 71.46 | 69.89 | 72.8 |
RetinaNet | 91.49 | 79.56 | 89.93 | 52.7 |
YOLOv3 | 89.89 | 79.34 | 86.77 | 67.3 |
EfficientNet[ | 82.91 | 83.71 | 87.66 | 49.5 |
文献[ | 74.82 | 82.21 | 80.31 | 70.5 |
YOLOv4 | 96.16 | 81.59 | 91.91 | 51.9 |
SE-YOLOv4[ | 93.32 | 86.47 | 93.64 | 48.5 |
本文算法 | 97.37 | 91.45 | 96.22 | 50.8 |
实验结果中,本文算法的精确率、召回率和平均精确率均优于对比算法,检测速度相较于改进前的YOLOv4算法略有下降,但优于两阶段目标检测算法。文献[
图9 PR曲线。(a) YOLOv4算法PR曲线;(b) 本文算法PR曲线。
Fig.9 PR curves. (a) PR curve of YOLOv4; (b) PR curve of proposed algorithm.
图10 精确率曲线
Fig.10 Precision curves
图11 召回率曲线
Fig.11 Recall curves
4.6 可视化分析
为了进一步分析本文算法在烟雾图像特征表达上相较YOLOv4算法的优势,设计了特征图可视化对比实验并利用CAM[
图12 特征图可视化
Fig.12 Visualization of feature map
图13 热力图对比
Fig.13 Comparison of heatmaps
5 结论
本文针对火灾烟雾检测中高层特征图的细节特征被削弱且背景干扰较多的问题,基于YOLOv4提出了一种融合细节特征与注意力机制的火灾烟雾检测算法。通过引入细节特征,提高了网络的特征提取和表达能力;利用CBAM机制对融合特征图进行权重重新赋值,得到了更具鲁棒性的特征表达。与YOLOv4算法相比,在保持较高检测速率的同时,本文算法的平均精确率、精确率和召回率分别提高了4.31%,1.21%,9.86%。下一步工作将优化特征融合过程,减少冗余操作并降低模型参数量,设计适用于嵌入式设备的轻量化火灾烟雾检测网络。
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了