优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 其他论文 > 正文

基于空间变换网络的人员行为识别方法

作者:袁帆来源:《武汉大学学报(工学版)》日期:2022-09-29人气:350

通过分析人员行为相关的传感器数据,可提取到抽象高阶的人员行为知识用于人员的行为识别(human activity recognition,HAR),在智能运动、智能家居、医疗健康领域有着较广泛的应用前景12。在智能运动领域,通过识别人员行为进行运动模式或运动量的统计;在智能家居领域,通过识别人员的行为,自动改变家电状态;在医疗健康领域,通过传感器数据对老人的跌倒进行检测等。

随着物联网技术的日趋成熟和传感器网络的普及程度增加,传感器的部署范围越来越大,这意味着可获取的传感器数据种类越来越丰富。这些丰富的传感器数据可以用于人员行为识别,为上述的智能运动等领域提供服务。当前可用于行为识别的传感器大致可以分为3类3:可穿戴传感器、物载传感器和环境传感器。可穿戴传感器是人员可随身携带的传感器,如智能手机、智能手环等;物载传感器是装载于物体上的传感器,如射频标签(radio frequency identification,RFID)等;环境传感器是在人员生活工作环境中安装的传感器,可以对人员的活动进行观测,如WiFi、蓝牙、麦克风等。这3种传感器中,最为普及的是第1类可穿戴传感器,特别是智能手机作为搭载不同传感器的平台,可以提供丰富的传感器数据用于人员行为识别,并且其普及度也最大,而物载传感器和环境传感器需要较大的部署成本,其应用范围较第1类更窄。

在基于第1类传感器的行为识别应用中,由于惯性数据容易获得(通常来说,智能手机和智能手环都内嵌惯性传感器)并且维度较高、内嵌信息丰富,因此基于惯性测量的人员行为识别具有较大的应用前景。根据数据进行人员行为识别后,后续可利用行为信息方便地与智能家居等应用联动,其应用场景十分广泛。传统的识别方法通过特征提取后,再经过机器学习的典型分类器,如决策树(decision tree,DT)、支撑向量机(support vector machine,SVM)等进行识别。这些经典的识别方法通常识别率有限,且强烈依赖于人工提取特征的种类。然而在实际应用中,可用于分类的特征通常难以明显地表达,不存在特定的物理意义,因此往往不能通过人工方法获取。本文研究基于智能手机内嵌的传感器数据的人员行为识别。基于深度学习的方法能够通过训练样本提取到可用于分类的复杂深层次的特征4

典型的基于深度学习的人员行为识别方法通过卷积神经网络(convolutional neural network,CNN)或循环神经网络(recurrent neural network,RNN)进行建模学习。

1)基于CNN网络的方法。文献[5]对比了基于CNN网络方法和经典的机器学习方法的识别率:主成分分析(principal component analysis,PCA)方法、随机森林方法、k近邻方法等,证明了基于CNN网络方法的识别率更高。文献[6]提出了基于多通道的CNN网络行为识别方法,进一步提高了识别率。文献[7]研究了不同样本特征作为输入的情况,并且证明了相同样本特征作为输入的条件下,CNN方法相比于SVM方法有着更高的识别率。

2)基于RNN网络的方法。文献[89]利用RNN模型进行人员行为识别,相比于CNN网络有着更高的识别率。以上方法利用长短时记忆(long-short term memory,LSTM)门控单元作为基本单元实现RNN网络识别,该类型网络具有“记忆”功能,能够对学习到时间序列的前后关系进行分类,相比于CNN网络,其缺点是训练复杂度和难度增加。文献[10]更进一步利用双向长短时记忆(Bi-LSTM)门控单元实现RNN网络,使该神经网络结构不仅能利用当前状态之前的信息,也能利用当前状态后续的信息进行分类,使识别正确率进一步提高,同时也进一步增加了训练的复杂度。

上述深度学习网络中,可以根据带标签的样本,通过卷积层或基于时间的LSTM门控单元学习惯性数据中深层次的特征或时间域相关的特征,用于分类任务。池化层(pooling layer,PL)11通常应用到上述网络中对固定邻域内数据进行总结,获取邻域内数据的一些统计量(如最大池化用邻域内数据的最大值作为该统计量,平均池化利用平均值作为该统计量)。用这些统计量替代原始数据,一方面可降低训练或识别的复杂度,另一方面使网络具备一定的对样本变换的稳定性12。在图像识别领域,样本中存在同类物体的缩放、旋转、平移等变换。由于池化层具有统计量替代原始数据的机理,其邻域固定并且在工作过程中丧失了一定的位置信息13,因此应对样本变化的能力存在较大限制,无法适应输入样本的较大改变。在基于惯性数据的人员行为识别中,相同行为的样本同样可能存在较大变化,如行走行为中快走和慢走的加速度幅值和频率存在巨大变化。样本变化需要对传统网络结构进行改进,从而提高整体的识别率。

本文在传统的卷积神经网络中加入空间变换网络(spatial transformer network,STN)14,使得深度网络对样本的幅度、频率等变化更加稳健。文献[14]提出将空间变换网络用于图像识别领域,在传统网络中加入空间变换单元从而提高识别率。空间变换单元的构成主要包含2个方面:建立基于仿射变换(affine transformation,AT)的参数模型,基于双线性变换(bilinear interpolation)的参数变换。本文根据人员惯性数据的特点,对仿射变换的参数模型进行了改进,使其能够适应惯性数据中同类行为的样本变换,包含时间的平移、频率的变化等。通过开源数据集对本文方法进行了验证,试验结果表明,本文方法相对于传统的深度神经网络的识别率有一定提高,比传统的基于CNN网络、RNN网络方法的识别率分别提高了约5.1%、3.4%。

1 识别方法

本文在传统的卷积神经网络中加入空间变换单元进行行为识别,利用样本中可能出现的现象建立参数模型,如样本中的幅度或能量的改变、频率的改变等等,从而能有效利用样本变化的先验信息,在一定程度上消除已知样本变化对识别率的不利影响。

1.1 空间变换单元

1.1.1 应用背景

在多种图像识别任务中,通常希望识别网络对输入图像的变化有较强的鲁棒性,从而使得网络泛化能力更强。输入图像或样本的变化存在一些已知的先验信息(如图像的缩放、视点的变化、畸变等),这些变化可通过数学模型表示。在传统的卷积神经网络中加入这样的数学模型后,可使网络对输入图像的变化更加稳健,并且达到降低网络复杂度和减少所需训练样本数目的目的。

传统的卷积神经网络中,池化层的存在已经具备了一定的对输入样本变化(或上一层输入变化)的稳健性。池化层的工作原理如图1所示,通过对上一层的某小范围邻域内的数据进行统计(图中是对2×2个像素进行最大值统计)得到新的网络层。

图1  最大池化示意图

Fig.1  Maximum pooling diagram


池化层的运用存在如下缺点:

1)信息缺失。对某邻域的数据进行一定的统计,可能导致神经元大量减少(图1中的神经元减少了75%),从而使信息的利用不足。不当地利用池化层可能导致网络难以收敛,并且由于存在“降采样”,导致物体在图像中的位置信息存在一定的丢失。

2)输入稳健性增益有限。由于池化层的“降采样”模式固定,即统计量和邻域范围固定,仅对小范围的输入变化(或上一层的输入变化)存在稳健性。当网络输入存在剧烈的变化时,池化层的输入也会产生对应的较为剧烈的变化,可能导致网络的识别率下降。

池化层这2个固有缺点需要在传统的卷积神经网络中加入空间变化单元,以提高输入稳健性,进而提高识别率。

1.1.2 单元结构

空间变换单元的结构如图2所示,包含参数生成网络、像素生成器和采样器。

图2  空间变换单元的结构

Fig.2  Spatial transformer element structure


1)参数生成网络通常可用简单的层数较浅的卷积神经网络。文献[15]中的网络是一个5层的卷积神经网络,该网络的输出对应输入变换参数。

2)像素生成器可利用参数生成网络得到的参数对输入产生相应的变换。在图像领域,该变换通常是仿射变换,其变换数学模型如下:



(1)

式中:为输入像素的坐标;为输出像素的坐标;为仿射变换包含的6个参数,这6个参数表示图像的缩放、旋转、平移、线性畸变等变化。文献[16]中详细论述了不同参数对应的不同变换。

3)采样器的目的是得到整数像素坐标的值。式(1)中输出的坐标可能是小数,可以通过双线性插值得到整数像素坐标的值(利用附近的4个像素点的坐标值),该变化如下:



(2)

其中



(3)


(4)

式中:为整数像素坐标对应的像素值;分别为附近4个像素点对应的像素值。

文献[14]中具体描述了空间变换单元结构。在不同的图像数据集的分类任务中,加入空间变换单元后相比于基于卷积神经网络的基准方法,其识别率得到明显提高。

1.2 利用空间变换单元进行人员行为识别

与图像领域的空间变换单元应用背景相似,在人员行为识别领域中,仍然存在一些输入数据的变化,如信号的能量或幅度的变化、采样频率的变化(由于测量器件的不完美导致)等,这些变化能够影响神经网络的稳健性和识别率,同样需要对传统的卷积神经网络的结构进行相应的变化,加入空间变化单元。由于人员行为识别所用的数据与图像领域特点不同,空间变换单元的结构也需要进行相应的变化。

1.2.1 改进的仿射变换模版

本文所用样本由手机上的惯性传感器采集得到,包含线性加速度(三轴)、加速度(三轴)、角速度(三轴)共9轴传感器数据。单个输入样本的维度为9×128,其中128为时间采样点个数,9为传感器数据的总自由度。空间变换单元对输入的91×28的样本数据进行处理,从而进行参数变换。在人员行为识别中,不能用上文所述的原始仿射变换。此处的9轴传感器数据可以看做是相互独立的输入,其代表了不同种类的物理观测量或者不同正交轴的观测量,而原始仿射变换中的旋转等变换可能改变不同轴的相关性。

本文对仿射变换的模版进行了修改,如下式所示:



(5)

式中:a、c为缩放相关参数;b为平移相关参数。本文仅考虑单个维度的平移和缩放变换,所以可将传统的仿射变换按照式(5)进行改写后,再利用该变换模版可实现传感器单轴数据的缩放、平移变换,从而提供样本中单轴数据的时间平移和频率变化稳健性,消除了经典仿射变换中的旋转效应带来的多轴数据相关性改变的问题,同时也减少了需要的参数数量,减小了传统空间变换单元中的复杂度。

1.2.2 人员行为识别网络结构

本文所用的人员行为识别网络如图3所示,包含空间变换单元(上)和识别网络(下)2部分。从图3可见,空间变换单元的本质是对原始的传感器数据进行预处理,再输入至对应的识别网络中。

图3  人员行为识别网络总体结构

Fig.3  The overall structure of the human activity recognition network


空间变换网络的功能如下:从输入中获取变换参数,并对输入进行参数变换,得到变换后的输出。识别网络的功能是对预处理后的样本进行识别,得到该样本所属的类别。

空间变换单元主要有2个功能:1)获取空间变换的参数,较小规模的卷积神经网络通过回归的方式学习到空间变换参数,与经典的仿射变换参数模式不同,本文所用的空间变换参数仅包含3个参数,分别为ab、c;2)利用3个参数对输入的样本数据进行空间变换,可对单轴的传感器数据进行时间的平移和频率的变换,但是不影响多轴数据之间的相关性。其中空间变换单元的子结构如图4所示,包含2层二维卷积层、2层全联接层,这些层都利用线性整流函数(rectified linear unit,ReLU)作为激活函数,该激活函数可表示为


relu(x)=max(0,x)(6)

式中:x表示上一层神经网络的输出,最后一层为线性全联接层,输出为希望得到的空间变换参数(a、b、c)。该函数的引入可大大增强神经网络对非线性关系的拟合能力。该网络可以看做是1个回归网络,从样本数据中通过回归的方式得到空间变换的参数,该参数可以控制输入样本中单轴的平移和频率变换。得到参数后,通过式(5)对输入样本进行对应的变换。

图4  基于空间变换的人员行为识别网络结构

Fig.4  The spacial transformer based human activity recognition network structure


经过空间变换网络后,样本获得了一定的输入变换稳健性,将这些样本再通过一定的卷积网络可以得到人员行为类别,该网络如图5所示,包含2层卷积层(带relu激活函数)、2层线性全联接层(带relu激活函数)、Softmax层。经过Softmax层后,输出为该样本属于不同类的概率矢量,由该概率矢量与经过独热编码后的标签矢量可以得到交叉熵代价函数



(7)

式中:为经过Softmax层得到的概率矢量;为独热编码后的标签矢量;i为对应矢量维度的索引。

图5  人员行为识别空间变换子网络(回归网络)结构

Fig.5  Structure of human activity recognition spatial transformer sub-network(regression network)


概率矢量与独热编码后的标签矢量,相同之处是两者都为6维矢量(维度与行为识别的标签类别数目相同),不同之处在于标签矢量中对应的某维(类)的值为1,其余维度为0,而概率矢量是样本经过神经网络前向计算后得到的该样本属于不同类别的概率,其不同维度的和值为1。交叉熵反映了真实类别和识别类别之间的差别,在本文方法中,将式(7)设置为训练神经网络的代价函数。本文所用的数据集中包含6种不同的行为:平地行走、上楼行走、下楼行走、站立、坐下和平躺。

2 试验分析

2.1 训练数据及测试数据

为能方便地与其他人员行为识别方法进行横向对比,本文试验采用了公开的数据集17,该数据集由加州大学尔湾分校(University of California Irvine,UCI)提供。该数据集从不同年龄段(19~48岁)的人群中录取,通过放在腰部的智能手机(三星银河系列2)上的惯性传感器采集人员不同行为的数据,包含了线性加速度(三轴)、加速度(三轴)、角速度(三轴)共9轴的数据,为真实对应物理量在时间上的采样,采样率为50 Hz。这些数据事先经过了降噪处理,按照128采样点(2.56 s)为一批形成样本。由于是连续的采样数据,根据时间窗生成样本时,存在时间上的重叠(50%)。因此最终的样本数据的维度为9×128,其中9为传感器数据的自由度,128为采样点的数目。样本的标签(即人员的行为类别)包含6类:平地行走、上楼行走、下楼行走、站立、坐下和平躺。为能利用这些标签进行神经网络的训练和测试,本文对这些标签进行了6维的独热编码。本文随机将这些带标签的样本划分成训练数据集和测试集,其中训练集占70%,测试集占30%。图6为该数据集中的2个样本,每个样本对应128个时间采样点,不同颜色表示不同传感器轴获取的数据。

图6  传感器原始数据

Fig.6  Raw sensor data


2.2 纵向对比试验结果

本文中的深度学习网络框架为开源的Tensorflow框架,该框架既存在成熟的高阶深度网络层,也可以方便地编写定制的网络层进行研究。在进行网络训练的过程中,本文采用经典的交叉熵代价函数和Adam优化器。由于数据量较大,在进行网络训练时,将训练样本随机划分为1 000个样本的小批次进行训练。

图7为本文方法(图3)和传统的基于卷积神经网络方法(图5)的测试集在不同训练次数下的识别率对比曲线。由图7可见,本文方法识别率提升更快、网络收敛更快,在训练循环次数超过200 000次时,本文方法识别率约为95.8%,传统的卷积网络的识别率约为90.7%,本文方法平均识别率相比于传统方法提高了约5.1%。本文方法对原始数据进行预处理后,再输入的数据形式更加标准,因此可以加快训练的速度,并且本文方法最后的识别率也较纯卷积网络的方法更高,识别率提高了约5.1%。

图7  本文所用网络结构与经典的卷积网络结构对测试集识别率曲线对比

Fig.7  The recognition rate curve comparison between the proposed method and classical CNN based method


2.3 横向对比试验结果

本文对比了2种方法及本文方法的基本参数设置(包含每一层的参数设置和总的参数数目),如表1所示(relu层、池化层、Softmax层不引入新参数,未在该表中列出)。表1中:“Conv-40,3×8”表示该层为卷积层,其通道数目为40,卷积核的大小为3×8,“Conv-20,4×8”意义相同;Linear-32表示线性层,32为线性层的神经元数目;LSTM-32表示长短时记忆门控层,32为隐藏特征数目;Fc-6表示全连接层,6为输出的维度,Fc‒128、Fc‒256、Fc‒3意义相同。RNN方法利用了基于LSTM的门控单元组成网络,具体包含1层线性层(隐藏神经元数目为32个)、2层LSTM门控单元层(每一层中隐藏特征的数目设置为32)、2层全连接层。CNN网络中包含2层卷积层、2层全连接层。由于空间变换子网络的引入,导致本文方法中的层数变多,表1中空间变换子网络的参数在第1层。综上可见,本文提出的基于空间变换网络方法中需要训练的参数数目最多,相比于经典的CNN网络,多出的部分为空间变换子网络的参数。而基于RNN网络的方法中,由于LSTM门控单元共享相同的训练参数,因此待训练的参数总数较少。

表 1  试验中不同网络结构参数
Table 1  Different network architecture parameters in the experiment
方法参数设置参数总数
第1层第2层第3层第4层第5层
CNN网络Conv-40,4×8Conv-40,4×8Fc-256Fc-6-5.2×106
RNN网络Linear-32LSTM-32LSTM-32Fc-256Fc-61.8×105
本文

Conv-20,4×8

Conv-20,4×8

Fc-128

Fc-3

Conv-40,4×8Conv-40,4×8Fc-256Fc-67.1×106

在Tensorflow的框架下,利用2片Navidia GTX1080Ti进行训练。表2为本文方法分别与传统的基于卷积神经网络方法和基于循环神经网络方法的识别率及网络收敛时间对比。由表2可见,本文方法识别率相比于CNN、RNN方法的识别率分别提高了约5.1%和3.4%,但网络训练的收敛时间却降低了2.4%和30.8%。本文方法、CNN和RNN方法的训练时间分别约为898、920和1 298 s。综上可见,本文方法能有效适应相同类别不同样本的一些变化,从而提高识别率、加快网络的训练速度。

表2  不同网络识别率及训练收敛时间对比
Table 2  Comparisons of recognition rates and converge time between different networks
方法识别率/%训练收敛时间/s
本文95.8898
经典RNN92.41 298
经典CNN90.7920

3 结论

基于传感器数据的人员行为识别在智能运动、智能家居、医疗健康领域有着较广泛的应用前景,特别是由于智能手机的普及及数据的丰富性,基于智能手机传感器数据的人员行为识别成为当前研究的热点问题。基于深度学习的人员行为识别方法由于可以提取出数据中蕴含的高层次特征,相比于传统的机器学习方法有更好的分类效果,然而,实际获取的数据中,存在一些数据样本的已知变化,如时间的平移、频率的变化等。本文在传统的卷积神经网络中加入了特殊的空间变换单元,对输入的样本数据进行建模,使得深度网络对输入变化的适应性更强。由开源数据集的试验结果表明,本文方法由于更好地利用了先验的数据变换信息,能加快收敛速度,其网络训练收敛的时间相比传统的CNN方法快约2.4%,相比传统的RNN方法快约30.8%。本文方法网络的识别率相比传统的CNN网络提高了约5.1%,相比传统的RNN网络提高了约3.4%。本文方法最终的正确识别率达到了95.8%,能够满足许多场景下的人员行为分类应用要求。


关键字:优秀论文

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言