基于人眼视觉规律的注视点分类及其在图像标注中的应用

作者：漆正溢方红萍万中华张瀚源伍世虔来源：《液晶与显示》日期：2023-05-29人气：1422

图像标注广泛应用于计算机视觉领域，如物体检测、识别等［1-4］。传统图像标注通常由标注人员手动绘制目标物体边界框，存在效率低、成本高的问题。据统计，在Mechanical Turk上对ImageNet进行大规模标注时，绘制边界框耗费的时间中位数为25.5 s。此外，还需要对标注人员进行相关培训［5-6］。

生物学研究表明，人类的视觉系统存在选择性注意机制［7］。目前，针对眼动规律与目标识别关系的相关研究结果表明，在任务驱动型眼动过程中，相较于背景，人眼注视点会更多地停留在与任务相关的图像目标中［8-10］。基于上述研究结果，利用人眼在观测标注目标过程中的注视点规律，自动确定目标物体边界框，能有效提高标注效率，降低标注成本［11-12］。DIMITRIOS P等提出的眼动图像标注算法［11］就是此类应用领域的一个经典算法［13］。该方法将目标标注问题建模为一个目标和背景的分类问题。首先提取眼动注视点和背景分别所在的超像素块的相关眼动特征和图像外观［14］、似物性特征［15］等，构建一个支持向量机（Support Vector Machine， SVM）超像素块分类模型，实现标注目标边界框的初定位；然后采用似GrabCut能量模型［14］进行目标边界框精定位。该算法只需使用较少的数据（7%）训练标注模型，标注一幅图片平均仅需2 s。

标定过程中采集的眼动数据中包含标定目标的位置先验线索，利用这些线索能有效提高后续标定精度。但是，首先眼动过程中存在的固有抖动和眨动，使眼动数据中容易引入噪声；另外，眼动图像目标标注这类任务驱动型眼动过程是一个自底向上和自顶而下相互交互的复杂认知过程［11，16］。研究表明，人眼更容易关注动物、人之类的活动目标，也容易停留在显著的非目标对象或背景对象上，因此目前提取和标注任务相关的眼动信息仍然是一个研究难点。目前DIMITRIOS P等提出的眼动图像标注算法利用所有注视点定位标注目标，停留在非目标上的注视点容易引入干扰因素，存在算法精度不高的问题。文献［10，17］采用热力图去除离群点算法提取和识别任务相关的注视点，但是该方法以每一个注视点为中心累加二维高斯函数，通过设置阈值将离群注视点滤除，未能有效地适应注视点通常以线状而非球状呈现这一空间特征，并且高斯函数计算量大、方差难以确定，因此存在运行效率低、阈值设置困难等问题。另外，这些算法主要应用在目标检测领域，文献［10］虽然提到目标标注问题，但是也是以现有图像目标检测结果为基础，辅助眼动数据减少漏标注，与经典的DIMITRIOS P眼动图像标注算法思路不一致。

国内已有针对驾驶过程中的注视序列［18-19］以及人机交互过程中的注视序列［20-21］的研究，但均不能适用于图片标注研究领域。在目标导向、任务驱动的图像标注过程中，人眼视觉由“预注意”和“注意”两个阶段组成［22-23］，被称为人眼视觉的“搜索”和“识别”［16］，前者的凝视点不在目标上，而后者的凝视点在目标上。准确提取眼动识别阶段的注视点是提高眼动图像标注定位精度的关键。鉴于此，本文拟从探索图像目标标注这一任务驱动下的眼动规律入手，设计注视点分类模型。首先研究图像标注过程中眼动注视点在时间、空间维度上的眼动规律，然后结合眼动规律，提出基于参数自适应的DBSCAN（Density-Based Spatial Clustering of Applications with Noise）［24］算法将人眼注视序列中注视点自动分类为视觉搜索和视觉识别两个类别，旨在将提取的眼动识别阶段注视点作为图像标注算法的输入，提高标注精度。

2 搜索和识别两阶段的眼动规律

为了探究隶属于视觉识别和视觉搜索阶段注视点的规律，本文选取2014 DIMITRIOS P数据集［11，25］当中的包含单目标的图片开展眼动规律实验研究。该数据集选取Pascal VOC2012数据集中的10类目标，共6 270幅图片，其中单目标图片共5 104幅图。这10类目标分别为猫/狗、自行车/摩托车、飞机/船、牛/马以及沙发/餐桌。5位受试者眼动标注过程中的眼动数据采用Eyelink 2 000眼动仪采集，采样频率为1 000 Hz。眼动数据格式用F=(xi,yi,t_starti,t_endi)Ni=1表示，其中x,y表示坐标（单位：像素），t_start,t_end分别记录为注视点的开始时间戳和结束时间戳（单位：ms），可通过t_end−t_start计算得到注视点的持续时间。每个目标的标注真值框由数据集提供。图1为摩托车目标图像，5位受试者的眼动注视数据使用不同颜色绘制，目标标注真值框使用绿色标识。

图1 数据集展示

Fig.1 Data set presentation

下载: 原图 | 高精图 | 低精图

针对标注目标i（1≤i≤10），5位受试者标注过程中的眼动注视点集合为Ui。定义实验中视觉搜索和视觉识别两阶段注视点的量化判定标准如下：若注视点落在目标物体i的标注真值框B内，则属于视觉识别阶段注视点集合Ri，反之属于视觉搜索阶段注视点集合Si，即Ui=Ri⋃Si。具体如图2所示。

图2 视觉搜索-识别阶段注视点的量化标准示意图

Fig.2 Visual search and recognition fixations

下载: 原图 | 高精图 | 低精图

针对10类标注目标，从注视点分布占比率、注视持续时间、注视空间聚集度3个角度探索两个视觉阶段的眼动规律。

（1）两阶段注视点分布占比率对比

针对上述10类标注目标，分别计算5位受试者眼动注视点集合Ri、Si中注视点数目占集合Ui中注视点总数目的比例：card(Ri)/card(Ui)、card(Si)/card(Ui)。

从图3所示的计算结果可知，所有标注目标视觉识别阶段的注视点分布占比明显比视觉搜索阶段高，其中8个目标在视觉识别阶段的注视点占比甚至超过70%。说明在标注这类任务驱动的眼动过程中，人类的眼动注视点会明显分布在标注目标附近。

图3 不同标注目标的人眼注视点分布情况

Fig.3 Fixations distribution of different objects

下载: 原图 | 高精图 | 低精图

（2）两阶段注视点持续时间对比

针对标注目标i，将每一幅包含i的图片当中的人眼注视点归类于集合Ri和集合Si，并计算两阶段的注视点持续时间均值。最后分别累加得到集合Ri和集合Si中相应注视点的注视持续时间，研究二者占集合Ui所有注视点的持续时间总和的比例。

从图4可知，在所有类别标注目标过程中，视觉识别阶段注视点的注视持续时间明显大于视觉搜索阶段。标注目标“猫”的视觉识别阶段与其视觉搜索阶段的注视持续时间差异最显著，目标“船”的差异最小，但也有22.8%。所有目标两阶段的持续时间占比差的平均值为58.5%。

图4 不同标注目标的搜索-识别阶段注视点的持续时间占比

Fig.4 Proportion of the duration of fixations in the search-recognition of different targets

下载: 原图 | 高精图 | 低精图

（3）两阶段注视点空间聚集度对比

针对视觉识别和视觉搜索两个阶段，分别按照式（1）和（2）计算标注目标i的眼动注视点集合Ri、Si中的眼动注视点空间位置归一化点密度D(Ri)和D(Si)：

D(Ri)=1Mi∑j=1MiRji/Ujiλji

，（1）

D(Si)=1Mi∑j=1MiSji/Uji1−λji

，（2）

式中：i表示标注目标类别，Mi表示第i类标注目标的图片总数，Rji和Sji分别表示第i类目标中第j幅图片的视觉识别阶段注视点集合和视觉搜索阶段注视点集合，λji表示第i类物体的第j幅图片目标框B的面积与图片面积的比值。

绘制不同类别目标物体的搜索、识别阶段归一化点密度，如图5所示。视觉识别阶段的注视点密度明显高于视觉搜索阶段的注视点密度。

图5 不同标注目标的搜索-识别阶段注视点的归一化点密度

Fig.5 Normalized point density of fixations in the visual search-recognition of different targets

下载: 原图 | 高精图 | 低精图

综合上述实验结果，可分析得出如下眼动规律：

（1）在眼动图像标注这类任务驱动的眼动过程中，眼动注视点会明显落在标注目标上。因此以标注者的眼动注视点位置为线索，能较准确地初步定位标注目标位置。

（2）从眼动注视点的时间维度上看，视觉识别阶段的注视点总的持续时间呈现明显大于视觉搜索阶段的趋势。

（3）从眼动注视点的空间维度上看，视觉识别阶段注视点在目标内部聚集，视觉搜索阶段注视点在标注目标四周稀疏分布。

3 基于眼动规律的眼动注视点分类

实验结果表明：在眼动标注过程中，处于眼动搜索阶段和眼动识别阶段的注视点在空间聚集度和时间持续性两个方面存在明显的差别。因此本文提出基于眼动注视点空间和时间两个维度特征的眼动注视点分类方法。在图6（a）中红色标识的是该图片标注过程中一位受试者的所有注视点。为了有效分类注视点，首先在第一阶段利用视觉识别阶段存在的空间聚集度高的特点，提出基于参数自适应的DBSCAN密度聚类算法，得到k个候选眼动识别阶段注视点集。然后结合识别阶段注视点持续时间长的特性，筛选出注视总时长最长的集合，将其中所包含的注视点分类为眼动识别注视点。算法流程示意图和具体算法如图6和表1所示。

图6 视觉搜索-识别注视点划分流程图。（a）注视序列用红点标识，蓝线相连；（b）、（c）聚类簇由绿色和粉红色点标识；（d）视觉搜索阶段使用红点标识，视觉识别阶段使用黄点标识。

Fig.6 Framework of visual search-recognition fixations classification. （a） Fixation sequence marked with red dots and linked by blue lines；（b），（c） Different clusters marked with green and pink dots individually；（d） Visual search phase and visual recognition phase marked with the red and yellow dots correspondingly.

下载: 原图 | 高精图 | 低精图

表1 视觉搜索-识别注视点划分算法伪代码

Tab.1 Visual search-recognition classification pseudocode

算法：视觉搜索与识别注视点分类算法

输入：图像I，注视序列F=(xi,yi,t_starti,t_endi)Ni=1，参数α,β

输出：视觉识别注视序列R，视觉搜索注视序列S

begin

//获取自适应参数

(W,H)=size(I)

Eps=max(W,H)/α

MinPts=N/β

//DBSCAN划分聚类簇Ck以及离群点集合O

[Ck,O]=DBSCAN(F,Eps,MinPts)

//分类聚类簇，完成划分

if k==0

R=∅

S=F

else if k==1

R=Ck

S=O

else k>1

//Tk表示第k个簇Ck的注视点持续时间之和

k'=argmaxk=1,2,...kTk

R=Ck'

S=F−Ck'

end

下载: 导出CSV

表1算法中，关键的是第一步，即基于空间维度聚集特性的眼动识别阶段注视点候选集的确定。传统的聚类算法如k-means聚类或者高斯混合聚类算法，都是适合球形聚类簇。但是观察发现，眼动识别阶段的注视点簇不一定满足该形状假设。DBSCAN算法［24］是一种基于密度且适应任何形状簇的经典聚类算法，同时只需要迭代一次，具有聚类速度快的特点。但是算法中的两个重要参数邻域半径Eps和邻域密度阈值MinPts的设置对算法的执行效果影响较大。本文结合标注任务特点，通过分析发现了参数的如下特点：

（1）目标标注问题中聚类簇的邻域半径Eps与标注目标的尺寸有较明确的对应关系。观察发现，标注目标尺寸占标注图片总尺寸的比例主要分布在5%~50%左右，因此定义Eps参数取值公式如公式（3）所示：

Eps=max(W,H)α

，（3）

式中：(W,H)表示标注图像I的宽度和高度，α取值可选范围大致在3~7。

（2）邻域密度阈值MinPts与停留在标注目标上的平均注视点数量有关。统计分析发现，数据集中标注目标上的注视点数目占注视点总数比例分布在12.7%~29.3%之间。基于此，定义MinPts参数取值公式如式（4）所示：

MinPts=Nβ

. （4）

其中：N表示当前标注图像I中的注视点总数目，β可取值范围大致在3~10。

图7绘制了α、β取不同值时，眼动注视点分类的查准率指标结果。从图7可知，分类准确率对参数α的敏感程度更高，当α取7、β在3~10之间时，查准率基本稳定在0.65~0.66之间。当β取5时，查准率相对最高。因此，自适应参数设置为α=7,β=5。

图7 参数取值情况

Fig.7 Parameter value situation

下载: 原图 | 高精图 | 低精图

4 实验与分析

本文针对标注过程中的眼动序列，结合眼动规律提出算法将包含的眼动注视点分类到对应的搜索阶段和识别阶段。本节将首先围绕算法分类性能、算法执行效率两个方面开展对比分析，然后验证本文算法对提高眼动图像标注精度的有效性。

实验数据集：2014 DIMITRIOS P公共眼动数据集（10类目标，目标物体占整幅图片比小于30%，单目标图片共1 962幅），训练集和测试集比例为1∶9。

实验硬件环境：第4代Intel Core i5 （3.3 GHz）；8GB内存；256 GB SSD；Matlab R2018b；操作系统为Win10 专业版。

4.1　视觉搜索和识别注视点分类相关实验与分析

4.1.1　眼动注视点分类性能评估

本文提出将受试者眼动序列中的注视点分为视觉搜索和识别两个阶段，这个过程可看作一个二分类问题。因此，采用机器学习常用的查准率P、查全率R和F1度量分数来评估算法的分类性能，其中F1度量计算如式（5）所示：

F1=2×P×RP+R

. （5）

计算热图（Heatmap）算法［17］、基于固定参数的本文算法（DBSCAN）和基于自适应参数的本文算法（Adaptive-DBSCAN）3种方法的查准率P、查全率R和F1度量分数。其中，Heatmap算法使用自适应阈值，设置thr=mean(T)/12，T表示图片内注视点的注视持续时间之和；DBSCAN算法的参数设置为MinPts=2，Eps=65；本文的Adaptive-DBSCAN算法自适应参数设置为α=7,β=5。计算结果如表2所示。

表2 眼动注视点分类结果对比

Tab.2 Comparison of the classification results of eye movement fixation points

方法 P R F1

Heatmap 0.61 0.876 0.71

DBSCAN 0.65 0.74 0.69

Adaptive-DBSCAN 0.65 0.881 0.75

下载: 导出CSV

从表2结果可知，DBSCAN方法相对于Heatmap方法，仅在查准率方面有提升，但却影响了查全率R和F1度量分数。而本文提出的Adaptive-DBSCAN算法在查准率、查全率和F1度量分数均高于Heatmap算法。图8给出了本文算法对标注过程中眼动注视点的分类结果。从图8可以看出当注视序列符合“识别阶段注视序列聚集，搜索阶段注视序列离散”和“视觉识别阶段的注视持续时间比视觉搜索阶段的注视持续时间长”这两条规律时，本文算法性能表现良好。另外，图8（b）绘制了图片中有显著物体的情况，此时只要满足上述的两条规律，算法的输出结果依然较好。

图8 视觉搜索-识别注视序列划分算法的结果。（a）常规情况；（b）含有显著物体的情况。

Fig.8 Results of visual search-recognition classification. （a） Normal situation；（b） Situation containing visual attention objects.

下载: 原图 | 高精图 | 低精图

4.1.2　算法执行效率对比

从表3可知，本文算法的运行速度明显优于Heatmap算法。Heatmap算法是由高斯函数累加，运行速度与注视序列的数量成正比，每一个注视点都需要进行一次二维高斯函数的计算，极大地影响了算法的运行速度。而本文基于空间特征聚类，无需反复进行高斯函数累加，因此运行速度有较大的改善。

表3 算法的整体运行速度

Tab.3 Overall running speed of the algorithm

方法运行时间/s

本文Adaptive-DBSCAN算法 24.16

Heatmap算法 47.21

下载: 导出CSV

4.2　眼动图像标注精度对比

利用眼动数据标注图像的方法的研究目前还处于初级阶段，DIMITRIOS P等［11］提出的眼动图像标注算法是一个非常经典的算法。因此，为了验证本文算法对提高眼动图像标注精度的可行性和有效性，本实验将以该算法为基础对比以下3种方法的图像标注精度：（1）复现的DIMITRIOS P图像标注算法（DIMITRIOS P）；（2）基于热力图过滤离群点的图像标注算法（Heatmap-Annotation）；（3）基于本文方法提取眼动识别阶段注视点的图像标注方法（Ours）。为了比较结果的客观性，这3种方法仅在眼动序列输入的选择上采取不同策略，后续的图像标注过程均保持一致。DIMITRIOS P算法未开源，因此复现该算法的初分割部分作为本文标注算法的基线。其中似物性特征使用BING算法［26］构建。

精度评估指标CorLoc［11，27］的计算公式如式（6）所示：

CorLoc=mn

，（6）

式中：n为预测的物体框总数，m为标注结果与目标真值框重叠率大于0.5目标总数。

针对数据集中的10种标注目标，上述3种方法标注结果的CorLoc精度指标计算结果如表4所示。原始DIMITRIOS P算法基于标注过程中所有的眼动注视点，而实际情况中这些注视点有一部分可能停留在背景或者显著非目标上，因此容易造成标注目标定位不准确的问题。从表4中可以明显看到，10种目标中除了“牛”和本文算法相等、“狗”高于本文算法之外，标注指标均明显低于Heatmap-Annotation或者本文算法。实验结果说明在眼动标注过程中，选择与标注物体相关的眼动注视点进行后续标注目标位置的初定位能提高标注精度，证明了文本研究思路的有效性和可行性。比较Heatmap-Annotation算法和本文算法的标注结果，本文方法7种目标的标注精度明显比Heatmap-Annotation方法高，精度指标的平均值高于Heatmap-Annotation。本文算法相较于DIMITRIOS P算法和Heatmap-Annotation算法分别平均提高了3.34%和1.02%，能更准确地定位标注目标。图9展示了部分目标的标注结果图。

表4 眼动图像标注精度指标CorLoc结果

Tab.4 Eye movement image annotation accuracy index CorLoc results

飞机自行车船猫牛餐桌狗马摩托车沙发均值

DIMITRIOS P 52.5 7.5 16.5 39.7 34.9 23.3 31.0 35.5 30.5 21.3 29.27

Heatmap-Annotation 52.8 29.1 18.7 37.6 30.3 23.3 32.4 28.0 38.0 25.7 31.59

Ours 55.9 21.2 20.3 40.2 34.9 24.7 30.8 38.3 33.3 26.5 32.61

下载: 导出CSV

图9 眼动图像标注算法的输出结果对比图。（a）~（c）飞机标注图；（d）~（f）自行车标注图；（g）沙发标注图。

Fig.9 Comparison of the output results of the eye movement image annotation. （a）~（c） Aeroplane；（d）~（f） Bicycle；（g） Sofa.

下载: 原图 | 高精图 | 低精图

5 结论

眼动图像标注算法以标注序列中的所有人眼注视点为输入实现目标框标注，然而注视点并非都是等权重的，未落在目标物体上的注视点会为标注算法引入目标定位干扰因素，降低算法性能。

鉴于此，本文结合目标标注任务中的眼动特点，提出将注视点分类为视觉搜索和视觉识别两大类，首先探究了两个阶段注视点在时间维度和空间维度上的眼动规律，然后结合眼动规律提出基于参数自适应的DBSCAN算法的注视点分类方法。实验结果表明，该方法能有效提取和标注目标相关的视觉识别注视点，提高目标标注精度，同时算法运行稳定，执行效率高。

目前我们仅考虑利用眼动规律实现两个阶段注视点的分类，对于标注目标大、停留其中的注视点空间聚集度不明显的注视点，分类还不够准确。另外在多目标聚集的情况下，多标注目标注视点的提取也比较困难。针对上述问题，在本文现有Adaptive-DBSCAN算法聚类特征仅为注视点眼动特征的基础上，如何融合注视点所在超像素块图像特征（如纹理、颜色、边缘等），提高大目标、多目标聚集时的图像目标标注精度将是下一步的研究重点。

关键字：论文篇论文发表咨询图像论文

上一篇：基于迭代剪枝VGGNet的火星图像分类
下一篇：结合SML与差分图像的多聚焦图像融合算法

栏目分类

热门排行

推荐信息

期刊知识