基于FVOIRGAN-Detection的车辆检测
目标检测是计算机视觉的基本课题之一,也是自主车辆感知系统的重要组成部分[
在过去的几年中,已经出现了大量通过融合多个传感器信息来解决目标检测问题的方法[
但是这种处理方式,会损失点云重要的三维空间信息。很多三维目标检测提出了运用BEV(Bird Eye View)图的想法。Chen等人[
第一,本文提出了FVOI(Front View Based on Original Information)的点云处理新思路,将点云投影到前视视角,并把原始点云信息的各个维度切片为特征通道,不但保留了点云的原始信息,而且降低了数据量,减小了与可见光图像的对应复杂度。之后通过特征提取网络提取原始点云中有利的信息,得到点云的前视二维特征图,并将其与可见光图像进行融合。
第二,在融合过程中,为了使得融合图像更好地保留可见光图像的纹理信息,本文引进了相对概率的思想[
2 FVOIRGAN-Detection
2.1 CrossGAN-Detection
CrossGAN-Detection运用生成对抗网络[
CrossGAN-Detection网络结构如
图1 CrossGAN-Detection的网络结构
Fig.1 Network architecture of CrossGAN-Detection
为了同时保持可见光图像丰富的纹理信息、空间特征图的空间信息和强度特征图的强度信息,推动融合朝着有利于目标检测的方向发展,引入了生成对抗网络的融合思想并添加一个目标探测器作为鉴别器。鉴别器用于区分融合图像和可见光图像,检测器用于检测融合图像的目标。因此,提出的框架建立了生成器和鉴别器之间的对抗。在对抗过程中,融合图像逐渐获得丰富的图像纹理信息[
(1) |
其中,分别表示输入图像的高度和宽度,表示矩阵Frobenius范数,表示梯度算子,是控制两项之间权衡的正参数。第一项旨在保留强度特征图的反射率信息,第二项旨在保留可见光图像中包含的梯度信息。
在现有方法中,融合仅由检测结果控制。与该框架相比,它缺少一个鉴别器。这种缺乏将导致模型学习的不可控问题。由于融合与检测之间的关系是正反馈的,因此融合过程只受目标检测结果的引导,容易产生偏差。在融合框架中融合了哪些信息以及这些信息是否真的有助于目标检测是值得考虑的两个问题。在加入GAN后,利用鉴别器和内容损失函数将真正有利于目标检测的信息融合到融合图像中,从而为整个网络设置正确的方向,指导学习过程,防止学习过程中的偏差,提高模型的稳定性。
2.2 基于FVOI的点云处理
针对将点云投影到可见光图片方法的信息损失,Liang等[
如
图2 基于FVOI的点云处理网络框架
Fig.2 Network architecture of point cloud processing based on FVOI
如
2.3 相对概率的鉴别器思想
经过对CrossGAN-Detection的分析,很容易得知其利用生成器与鉴别器的对抗对可见光图像的纹理信息进行提取,鉴别器是为了区分可见光图像和融合图像,生成器是为了生成让鉴别器区分不开的融合图像。例如,当鉴别器鉴别一个可见光图像的输出是 时,同时也鉴别融合图像输出概率是 ,那么这时候就可以认为鉴别器已经区分不开可见光图像和融合图像,生成器效果已经达到最优,融合图像已经获得了可见光图像真实的信息。但是根据CrossGAN-Detection 的损失函数来看,生成器在这时候还要继续优化其参数进而生成接近于的融合图像,这就出现了过度优化的问题,的融合图像在鉴别器鉴别下已经非常接近可见光图像,但是真正意义上其已经脱离了 的真实可见光图像。
图3 相对概率工作原理示意图
Fig.3 Schematic diagram of working principle of relative probability
加入相对概率后的鉴别器和生成器损失函数修改为:
(2) |
(3) |
其中:是端到端的函数,在本文方法中,是可见光图像的分布函数,是融合图像的分布函数。在相对概率思想的影响下,可以保证生成器可以最大程度地提取到可见光图像真实的纹理信息,而不是脱离鉴别器的鉴别能力提取到一些伪真实的纹理信息。从而提升整个网络的目标检测能力。
3 实验验证
本文使用平均精度(AP)[
(4) |
(5) |
其中:为第n个recall值,为在recall值为时的precision值。
3.1 实验设计
本实验基于Python 3.6和tensorflow-1.14,使用NVIDIA GTX-2080TI进行训练。在实验中,batchsize大小设置为2,并使用Adam优化算法进行迭代。初始学习率为0.000 1,然后通过余弦退火衰减为0.000 001。在训练过程中,在中随机选择输入图像的大小,并且随机剪切和翻转输入图像以进行数据增强。
3.2 数据集
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国理工学院共同创建。它是世界上最大的自动驾驶场景下的计算机视觉算法评估数据集。该数据集用于评估计算机视觉技术的性能,如车辆环境中的立体图像、光流、视觉里程计、三维目标检测和三维跟踪。KITTI包含从城市、农村和高速公路场景收集的真实图像数据。每个图像中最多有15辆车和30名行人以及不同程度的遮挡和截断。整个数据集由389对立体图像和光流图、39.2 km视觉测距序列和200 K多个3D标记对象的图像组成,以10 Hz的频率采样和同步。标签分为汽车、厢式货车、卡车、行人、行人(坐着)、自行车、有轨电车和杂项。
3.3 消融分析
为了验证本文所提出的两个模块的有效性,将CrossGAN-Detection作为Baseline进行了消融分析。
如
Method | FVOI | Relative | Easy() | Moderate() | Hard() |
---|---|---|---|---|---|
Baseline | 96.66% | 87.15% | 78.46% | ||
+FVOI | 97.04% | 87.21% | 78.52% | ||
+Relative | 97.64% | 87.83% | 79.01% | ||
Ours | 97.67% | 87.86% | 79.03% |
由于以上AP指标都是在的时候测得,为了更好、更全面地验证本文方法的优越性,分析了AP随着变化的曲线图。如
图4 KITTI验证集上的AP与IOU关系
Fig.4 Relationship between AP and IOU on KITTI validation set
3.4 光照条件受限的场景
KITTI数据集主要包括在相当理想的光照和天气条件下捕获的示例。在这种情况下,摄像机图像本身提供了丰富的信息和丰富的识别线索,配合深度图像可以进行准确的车辆检测。因此,通过上述实验,可能很难完全理解充分利用点云的空间信息的好处以及相对概率思想的作用。考虑到这一点,从验证集中提取了14组具有挑战性的场景,特别是显示阴影和强光反射的图像。
如
Method | AP() | |
---|---|---|
val | promote | |
Cross fusion | 86.12% | 0 |
+FVOI | 88.04% | 1.92% |
+relative | 83.55% | -2.57% |
Ours | 88.49% | 2.37% |
如
图5 挑战性场景下目标检测结果对比示例
Fig.5 Comparison example of target detection results in challenging scenes
同时为了证明本文的相对概率的思想可以更好地提取纹理特征,我们利用灰度共生矩阵提取了融合图像的相关性特征值(COR),相关性是纹理特征比较有代表性的一种表达,其度量空间灰度共生矩阵元素在行或列方向上的相似程度,相关值大小反映了图像中局部灰度相关性。
(6) |
其中:为灰度共生矩阵元素坐标,为该坐标的元素值,结果如
Method | COR | ||||
---|---|---|---|---|---|
0° | 45° | 90° | 135° | Mean | |
RGB | 0.074 0 | 0.071 9 | 0.073 1 | 0.072 0 | 0.072 7 |
CrossGAN-Detection | 0.069 1 | 0.067 9 | 0.068 6 | 0.067 9 | 0.068 4 |
Ours | 0.070 7 | 0.069 6 | 0.070 3 | 0.069 5 | 0.070 0 |
3.5 性能对比
为了证明本文的方法优于现有方法,在KITTI的验证分割集上将其与其他先进的融合检测方法进行了比较。
Approach | Easy () | Moderate () | Hard () |
---|---|---|---|
Mono3D[ | 93.89% | 88.67% | 79.68% |
3DOP[ | 93.08% | 88.07% | 79.39% |
M3D-RPN[ | 90.24% | 83.67% | 67.69% |
MV3D[ | 95.01% | 87.59% | 79.90% |
Proposed Method | 97.67% | 87.86% | 79.03% |
4 结 论
本文提出了一种新的多源信息融合检测算法FVOIRGAN-Detection,用于融合摄像机图像和激光雷达点云进行车辆检测。一方面,本文提出了FVOI(Front View Based on Original Information)的点云处理新思路,将点云投影到前视视角,然后通过把原始点云信息的各个维度切片为特征通道,不但保留了点云的原始信息,而且降低了数据量,减小了与可见光图像的对应复杂度。之后通过特征提取网络提取原始点云中有利于目标检测的信息,得到点云的前视二维特征图,并将其与可见光图像进行融合。另一方面,在融合过程中,为了使得融合图像更好地保留可见光图像真实的纹理信息,本文引进了相对概率的思想,用鉴别器鉴别图像相对真实概率取代绝对真实概率,提高融合图像对可见光图像中的纹理信息的复原程度,更好地提高目标检测的效果。
通过性能比较,FVOI的点云处理方法和相对概率的鉴别器思想都对CrossGAN-Detection方法起到了很好的提升作用。在KITTI的验证分割集上,本文方法优于现有方法。本文还考虑了光照条件受限下的场景,进一步证明了该方法的有效性。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了
- 职称话题| 为什么党校更认可省市级党报?是否有什么说据?还有哪些机构认可党报?
- 《农业经济》论文投稿解析,难度指数四颗星,附好发选题!
- 期刊知识:学位论文完成后是否可以拆分成期刊论文发表?
- 号外!出书的人注意啦:近期专著书号有空缺!!
- 汇总!已知这些省份都认可报纸文章(上)