基于空间变换网络的人员行为识别方法
通过分析人员行为相关的传感器数据,可提取到抽象高阶的人员行为知识用于人员的行为识别(human activity recognition,HAR),在智能运动、智能家居、医疗健康领域有着较广泛的应用前景[
随着物联网技术的日趋成熟和传感器网络的普及程度增加,传感器的部署范围越来越大,这意味着可获取的传感器数据种类越来越丰富。这些丰富的传感器数据可以用于人员行为识别,为上述的智能运动等领域提供服务。当前可用于行为识别的传感器大致可以分为3类[
在基于第1类传感器的行为识别应用中,由于惯性数据容易获得(通常来说,智能手机和智能手环都内嵌惯性传感器)并且维度较高、内嵌信息丰富,因此基于惯性测量的人员行为识别具有较大的应用前景。根据数据进行人员行为识别后,后续可利用行为信息方便地与智能家居等应用联动,其应用场景十分广泛。传统的识别方法通过特征提取后,再经过机器学习的典型分类器,如决策树(decision tree,DT)、支撑向量机(support vector machine,SVM)等进行识别。这些经典的识别方法通常识别率有限,且强烈依赖于人工提取特征的种类。然而在实际应用中,可用于分类的特征通常难以明显地表达,不存在特定的物理意义,因此往往不能通过人工方法获取。本文研究基于智能手机内嵌的传感器数据的人员行为识别。基于深度学习的方法能够通过训练样本提取到可用于分类的复杂深层次的特征[
典型的基于深度学习的人员行为识别方法通过卷积神经网络(convolutional neural network,CNN)或循环神经网络(recurrent neural network,RNN)进行建模学习。
1)基于CNN网络的方法。文献[
2)基于RNN网络的方法。文献[
上述深度学习网络中,可以根据带标签的样本,通过卷积层或基于时间的LSTM门控单元学习惯性数据中深层次的特征或时间域相关的特征,用于分类任务。池化层(pooling layer,PL)[
本文在传统的卷积神经网络中加入空间变换网络(spatial transformer network,STN)[
1 识别方法
本文在传统的卷积神经网络中加入空间变换单元进行行为识别,利用样本中可能出现的现象建立参数模型,如样本中的幅度或能量的改变、频率的改变等等,从而能有效利用样本变化的先验信息,在一定程度上消除已知样本变化对识别率的不利影响。
1.1 空间变换单元
1.1.1 应用背景
在多种图像识别任务中,通常希望识别网络对输入图像的变化有较强的鲁棒性,从而使得网络泛化能力更强。输入图像或样本的变化存在一些已知的先验信息(如图像的缩放、视点的变化、畸变等),这些变化可通过数学模型表示。在传统的卷积神经网络中加入这样的数学模型后,可使网络对输入图像的变化更加稳健,并且达到降低网络复杂度和减少所需训练样本数目的目的。
传统的卷积神经网络中,池化层的存在已经具备了一定的对输入样本变化(或上一层输入变化)的稳健性。池化层的工作原理如
图1 最大池化示意图
Fig.1 Maximum pooling diagram
池化层的运用存在如下缺点:
1)信息缺失。对某邻域的数据进行一定的统计,可能导致神经元大量减少(
2)输入稳健性增益有限。由于池化层的“降采样”模式固定,即统计量和邻域范围固定,仅对小范围的输入变化(或上一层的输入变化)存在稳健性。当网络输入存在剧烈的变化时,池化层的输入也会产生对应的较为剧烈的变化,可能导致网络的识别率下降。
池化层这2个固有缺点需要在传统的卷积神经网络中加入空间变化单元,以提高输入稳健性,进而提高识别率。
1.1.2 单元结构
空间变换单元的结构如
图2 空间变换单元的结构
Fig.2 Spatial transformer element structure
1)参数生成网络通常可用简单的层数较浅的卷积神经网络。文献[
2)像素生成器可利用参数生成网络得到的参数对输入产生相应的变换。在图像领域,该变换通常是仿射变换,其变换数学模型如下:
(1) |
式中:为输入像素的坐标;为输出像素的坐标;为仿射变换包含的6个参数,这6个参数表示图像的缩放、旋转、平移、线性畸变等变化。文献[
3)采样器的目的是得到整数像素坐标的值。
(2) |
其中
(3) |
(4) |
式中:为整数像素坐标对应的像素值;、、和分别为附近4个像素点、、和对应的像素值。
文献[
1.2 利用空间变换单元进行人员行为识别
与图像领域的空间变换单元应用背景相似,在人员行为识别领域中,仍然存在一些输入数据的变化,如信号的能量或幅度的变化、采样频率的变化(由于测量器件的不完美导致)等,这些变化能够影响神经网络的稳健性和识别率,同样需要对传统的卷积神经网络的结构进行相应的变化,加入空间变化单元。由于人员行为识别所用的数据与图像领域特点不同,空间变换单元的结构也需要进行相应的变化。
1.2.1 改进的仿射变换模版
本文所用样本由手机上的惯性传感器采集得到,包含线性加速度(三轴)、加速度(三轴)、角速度(三轴)共9轴传感器数据。单个输入样本的维度为9×128,其中128为时间采样点个数,9为传感器数据的总自由度。空间变换单元对输入的91×28的样本数据进行处理,从而进行参数变换。在人员行为识别中,不能用上文所述的原始仿射变换。此处的9轴传感器数据可以看做是相互独立的输入,其代表了不同种类的物理观测量或者不同正交轴的观测量,而原始仿射变换中的旋转等变换可能改变不同轴的相关性。
本文对仿射变换的模版进行了修改,如下式所示:
(5) |
式中:a、c为缩放相关参数;b为平移相关参数。本文仅考虑单个维度的平移和缩放变换,所以可将传统的仿射变换按照
1.2.2 人员行为识别网络结构
本文所用的人员行为识别网络如
图3 人员行为识别网络总体结构
Fig.3 The overall structure of the human activity recognition network
空间变换网络的功能如下:从输入中获取变换参数,并对输入进行参数变换,得到变换后的输出。识别网络的功能是对预处理后的样本进行识别,得到该样本所属的类别。
空间变换单元主要有2个功能:1)获取空间变换的参数,较小规模的卷积神经网络通过回归的方式学习到空间变换参数,与经典的仿射变换参数模式不同,本文所用的空间变换参数仅包含3个参数,分别为a、b、c;2)利用3个参数对输入的样本数据进行空间变换,可对单轴的传感器数据进行时间的平移和频率的变换,但是不影响多轴数据之间的相关性。其中空间变换单元的子结构如
relu(x)=max(0,x) | (6) |
式中:x表示上一层神经网络的输出,最后一层为线性全联接层,输出为希望得到的空间变换参数(a、b、c)。该函数的引入可大大增强神经网络对非线性关系的拟合能力。该网络可以看做是1个回归网络,从样本数据中通过回归的方式得到空间变换的参数,该参数可以控制输入样本中单轴的平移和频率变换。得到参数后,通过
图4 基于空间变换的人员行为识别网络结构
Fig.4 The spacial transformer based human activity recognition network structure
经过空间变换网络后,样本获得了一定的输入变换稳健性,将这些样本再通过一定的卷积网络可以得到人员行为类别,该网络如
(7) |
式中:为经过Softmax层得到的概率矢量;为独热编码后的标签矢量;i为对应矢量维度的索引。
图5 人员行为识别空间变换子网络(回归网络)结构
Fig.5 Structure of human activity recognition spatial transformer sub-network(regression network)
概率矢量与独热编码后的标签矢量,相同之处是两者都为6维矢量(维度与行为识别的标签类别数目相同),不同之处在于标签矢量中对应的某维(类)的值为1,其余维度为0,而概率矢量是样本经过神经网络前向计算后得到的该样本属于不同类别的概率,其不同维度的和值为1。交叉熵反映了真实类别和识别类别之间的差别,在本文方法中,将
2 试验分析
2.1 训练数据及测试数据
为能方便地与其他人员行为识别方法进行横向对比,本文试验采用了公开的数据集[
图6 传感器原始数据
Fig.6 Raw sensor data
2.2 纵向对比试验结果
本文中的深度学习网络框架为开源的Tensorflow框架,该框架既存在成熟的高阶深度网络层,也可以方便地编写定制的网络层进行研究。在进行网络训练的过程中,本文采用经典的交叉熵代价函数和Adam优化器。由于数据量较大,在进行网络训练时,将训练样本随机划分为1 000个样本的小批次进行训练。
图7 本文所用网络结构与经典的卷积网络结构对测试集识别率曲线对比
Fig.7 The recognition rate curve comparison between the proposed method and classical CNN based method
2.3 横向对比试验结果
本文对比了2种方法及本文方法的基本参数设置(包含每一层的参数设置和总的参数数目),如
方法 | 参数设置 | 参数总数 | ||||
---|---|---|---|---|---|---|
第1层 | 第2层 | 第3层 | 第4层 | 第5层 | ||
CNN网络 | Conv-40,4×8 | Conv-40,4×8 | Fc-256 | Fc-6 | - | 5.2×106 |
RNN网络 | Linear-32 | LSTM-32 | LSTM-32 | Fc-256 | Fc-6 | 1.8×105 |
本文 | Conv-20,4×8 Conv-20,4×8 Fc-128 Fc-3 | Conv-40,4×8 | Conv-40,4×8 | Fc-256 | Fc-6 | 7.1×106 |
在Tensorflow的框架下,利用2片Navidia GTX1080Ti进行训练。
方法 | 识别率/% | 训练收敛时间/s |
---|---|---|
本文 | 95.8 | 898 |
经典RNN | 92.4 | 1 298 |
经典CNN | 90.7 | 920 |
3 结论
基于传感器数据的人员行为识别在智能运动、智能家居、医疗健康领域有着较广泛的应用前景,特别是由于智能手机的普及及数据的丰富性,基于智能手机传感器数据的人员行为识别成为当前研究的热点问题。基于深度学习的人员行为识别方法由于可以提取出数据中蕴含的高层次特征,相比于传统的机器学习方法有更好的分类效果,然而,实际获取的数据中,存在一些数据样本的已知变化,如时间的平移、频率的变化等。本文在传统的卷积神经网络中加入了特殊的空间变换单元,对输入的样本数据进行建模,使得深度网络对输入变化的适应性更强。由开源数据集的试验结果表明,本文方法由于更好地利用了先验的数据变换信息,能加快收敛速度,其网络训练收敛的时间相比传统的CNN方法快约2.4%,相比传统的RNN方法快约30.8%。本文方法网络的识别率相比传统的CNN网络提高了约5.1%,相比传统的RNN网络提高了约3.4%。本文方法最终的正确识别率达到了95.8%,能够满足许多场景下的人员行为分类应用要求。
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了