随着当今社会的快速发展,物联网技术已经成为推动智慧生活至关重要的组成部分。物联网技术被广泛应用于各种领域,包括:智慧医疗[1-2]、智慧图书馆[3]、设备油液泄漏监测[4]、机械振动检测[5-7]、智能家居[8-9]、动作识别[10]等。其中,手势识别[11-12]作为人机交互的热点性问题,其难度在于识别精准度低、实时性差,改进现有的手势识别技术已成为推进人机交互的关键性因素。
射频识别(radio frequency identification,RFID)技术在物联网感知[13-14]中的应用逐步增加。射频识别技术主要是通过分析射频中的无线信号特征,使其实现身份验证和动作识别的效果。因为RFID技术具有标签成本低廉、系统部署简单、应用范围广等优点,被应用于身份验证[15]、身体监控[16]、手势识别[17-19]等多种方面。
当前基于射频技术的识别方法多数要求用户携带可穿戴设备,如:可穿戴标签[20],可穿戴式手环[22]等。实验过程中,携带可穿戴设备可以捕捉到精准的实验数据,可基本实现手势的识别与复刻。但由于使用过程中,用户必须携带特定设备,但部分配件会使用户产生运动幅度受控、束缚感较强等不良影响,致使用户体验感降低。因此,该类系统部署的普适性不强,难以大范围推广。
无论是在日常生活,还是在健身、游戏等娱乐性项目中,都不能处于完全空旷的位置,因而外界过多的干扰,会产生杂乱的多径效应影响。传统的处理方法是对受多径效应影响的信号进行去噪和滤波处理。另外,为了实现高精度识别,传统方法需要部署标签阵列或采用可穿戴设备。如何在降低部署复杂度和标签数量的情况下实现手势细粒度识别是个不小的挑战。
为此,本文提出一种基于卷积神经网络的RFID单标签非接触手势识别系统,通过利用多径效应优势,增大手势细粒度识别的分辨率,从而实现精准的手势识别。由于标签相位信号是连续的且符合时间序列特征,因此,本文提出利用用户手势与障碍物之间的信号受多径效应影响,通过动态时间规整算法(dynamic time warping,DTW)[22]对标签相位信号进行快速处理,实现粗粒度的手势识别;又将符合时间序列的相位信号通过马尔可夫变迁场转变为标签相位特征图像,通过改进后的卷积神经网络进行训练及测试,从而实现细粒度的手势识别。系统实现需要解决如下技术挑战:
1) 如何利用商用阅读器提供的有限信息,实现单标签非接触是手势识别。商用阅读器提取的标签特征信号有限,包括:接收信号强度(RSSI),相位信息(Phase),多普勒频移值(Doppler).
2) 如何高效处理和分析数据,实现不同用户手势的快速识别,精准辨别不同的手势动作。不同用户的手势形状、手势幅度、手势角度、手势持续时间都有所不同,使手势识别的难度增加。并且,同一用户的手势之间也存在差异。手势之间的差异对标签信号的反射与折射产生较大影响,针对信号变化如何实现信号的捕捉,并完成精准的手势识别。
3) 如何实现高精度的快速识别,并完成信息输出。采用现有的卷积神经网络模型框架对标签相位特征图像识别。因其模型复杂、网络深度较深、模型训练总参数过多,导致模型训练时间较长,尤其是全连接层参数过重。这些因素都不利于在非接触情况下,实现用户手势的快速识别。
为了解决以上挑战,本文提出一种基于改进AlexNet卷积神经网络的单标签非接触用户手势识别系统:
1) 为了系统的普适性强且用户无束缚感,采用商用RFID阅读器,单标签和单天线部署实验场景。该系统利用单标签、单天线、人为加入干扰物并采用非接触式的部署方式实现细粒度手势识别,分析从发射端到接收端受多径效应影响的标签信号特征,从而完成数据获取;
2) 为了实现不同用户间的手势识别,从不同人之间存在的不同中寻找相同点,增强系统的普适性。对获取到的标签相位信号进行预处理,利用DTW算法实现与先验指纹库的动态匹配,完成粗粒度的手势识别;
3) 为了达到实验预期的高精度识别效果,利用马尔可夫变迁场对标签相位信号生成特征图像,采用改进的IM-AlexNet卷积神经网络实现细粒度手势快速识别,使用改进后的IM-AlexNet卷积神经网络构建训练模型仅需要少量参数进行训练,由此使得实验部署及训练变得更为简便,为精准的手势识别奠定基础。
由于RFID在时间序列上的相位值是连续的,可将对标签相位信号分析处理的问题抽象为基于时间序列的信号处理。对比传统的方法适用于多标签或多天线场景下,为了实现较为精准的手势识别,系统需要消除随机的多径效应影响,对获取的数据集进行消噪处理。为了降低系统部署复杂程度,使实验操作更为简便,本系统采用单标签和单天线场景部署,在阅读器天线上端加入障碍物,致使标签多径效应更为明显且集中,从而提高手势识别的精度。该系统首先对受多径效应影响的标签特征信号使用离散小波变换,对获取的数据集进行预处理;之后利用动态时间规整算法对用户手势粗粒度动态匹配;对符合时间序列的标签相位信息利用马尔可夫变迁场生成特征图像;最后利用改进的卷积神经网络对标签特征图像进行分类,实现用户手势的细粒度识别。
手势识别系统架构如图1所示,该架构主要由数据提取模块、数据预处理模块、特征信息分析模块和手势识别模块4个部分共同构成。其中,手势识别模块又分为粗粒度识别模块和细粒度识别模块。
图1 系统结构流程图
Fig.1 Flow chart of system structure
数据提取模块:主要是在原有的实验场景下添加不影响用户手势操作的障碍物,增强单标签信号的多径效应,阅读器接收到标签的信号波变化更为明显;其次,对受多径效应影响的信号进行分析,主要分析直射波和反射波对原始信号的影响,为后续数据预处理和分析打好基础。
数据预处理模块:系统利用离散小波变换分析,对原始数据进行降噪和平滑处理,促使基于动态时间规整下的粗粒度识别匹配更为精准。
特征信息处理模块:系统利用马尔可夫变迁场将预处理后的标签相位一维时间序列数据转化为二维图像,从而得到可用于分类的标签特征图像。
手势识别模块:系统采取动态时间规整对时间序列上的信号进行分割,通过持续的动态匹配,从而完成粗粒度识别;利用改进的神经网络算法,对马尔可夫变迁场生成的特征图像进行训练、实验及测评,最终实现精准的细粒度识别。
本文分别对商用阅读器接收到的3个标签特征信号进行分析(RSSI,Phase,Doppler Shift).RSSI信号变化敏感,易受到外界环境干扰,不适用于多径环境下的信号特征分析;多普勒频移信号主要由位移值决定,位移值只有在标签相对运动时才有明显变化。如公式(1)-(3)所示,本实验中标签和阅读器天线几乎不存在相对位移,当标签与阅读器天线的相对移动速度几乎为0时,多普勒频移不会产生较为明显的变化,因此不适用于该系统的手势识别信号分析;相位信号是从某一个状态点到另一个状态变化的度量值,且呈现周期性变化。因此,相位信息是属于一维时间序列上的连续信号,本文对标签相位信号进一步分析处理,将问题抽象为基于时间序列的信号处理。
射频信号的多径效应是指在不同传播路径下,相同信号从发射端到接收端所产生的信号波动。一般地,信号波动是指信号在多种外界干扰的影响下产生的信号差异。在射频识别过程中,射频信号的传播方式主要包括反射、散射、折射、衍射、吸收、自由空间路径损耗等多种变化,最终使得阅读器天线接收到的信号能量出现增强、衰减等现象。
多径效应通过影响手势动作与障碍物之间接收信号的强度,产生小尺度效应,大多数小尺度效应又由各直射波和反射波叠加形成,产生信号波动,最终使得相位读取与发送端发送的信号存在差异。本系统利用多径效应影响,促使非接触式手势识别系统的准确率有更大的提升。在不影响用户执行手势动作的情况下,加入透明容器,从透明容器投影的三视图进行分析,同时从主视图、左视图、俯视图角度分析多径效应对标签信号影响,将标签多种信号波叠加,使其更好地去感知手势细粒度特征值,为下一步实验奠定基础。信号的发射过程中产生变化,其表达式为:
S(t)=Re{u(t)ei2πfat} .
(1)
S(t)=Re{u(t)}cos(2πfat)-Im{u(t)}sin(2πfat) .
(2)
ei(2πfa(t-τn))+ΦDn(t).
(3)
其中:Cn(t)是指不同路径信号幅度时变衰减,由路径损耗和阴影衰落确定;τn(t)表示不同传输路径的信号传输过程中的时延,表示传输时延,表示不同路径的多谱勒相移,由用户执行手势动作,引起标签信号变化。
在信号从标签到达阅读器天线的过程中,信号波会发生不同程度的折射与反射,产生信号波动,导致发送端与接收端的信号幅值存在差异。本文将具体分析折射波与反射波对信号传播的影响。信号波的反射角偏转过程如图2所示,(a)为主视图的反射效果,(b)为右视图的反射效果。当反射过程中的偏转角反射波的斜率与反射夹角成比例,设反射波与容器壁的夹角为β,反射波与桌面或阅读器天线的夹角γ,通过分析入射波的偏转角,计算接收端接收到的反射波,随后分析不同手势对入射波的影响,最终估算每种手势对应的反射波。左视图与主视图原理相似。对应自由端点的入射波为:
图2 反射图
Fig.2 Reflection diagram
k<n.
(4)
k1=sinβ.
(5)
k2=sinγ.
(6)
当端点为x=l时,反射波为:
y2=Acos[ωt-k(2l-x)] .
(7)
通过对上述公式的分析,能够得出入射波与反射波之间的关系及标签相位信号经容器反射的信号特点。当标签的反射信号波经过手后会发生不同幅度的偏转,大部分发生偏转后的信号波返回接收端(天线),少部分发生反射后的信号波不会返回到接收端;反之,没有经过手这一介质,不发生反射的信号波原样发送到接收端(天线)。由此,可以推断出当发送端发出的部分信号波发生偏转后不会被接收端接收到,我们通过分析每种手势的不同信号变化,来粗略推断每种手势对应的信号波的特征值范围。
图3是信号波发生折射的示意图,(a)为主视图折射效果图,(b)为左视图折射效果图,(c)为折射角的关系示意图。通过分析折射过程,估算当信号波经过手、空气两次偏转后产生的信号衰减。设法线与接收端的信号波的夹角为i,信号在传播过程中发生两次信号偏转与法线的夹角分别为θ1、θ2,通过分析信号的折射率、相对折射率、相对折射率差及有效折射率,可以计算出信号波因折射产生的衰减变化,来判别信号波是否发生偏转,并计算信号波传递过程中的损耗,推断信号波是否发生二次偏转;最后通过计算可得出接收到的信号波的特征,来分辨6种手势分别对应的信号波,方便下一步的信号处理。 折射率的计算公式:
图3 折射图
Fig.3 Refraction diagram
(8)
(9)
相对折射率:
(10)
相对折射率差:
(11)
当信号波经过人手传播过程中,主要经历手和空气两种介质,在标况下人手的折射率约为0.5,空气的折射率约为1.000 229,由此可计算得到在实验过程中,信号的相对折射率差约为37.5%.
neff为有效折射率,k0为真空波数,在不同介质中,波数=真空波数×折射率。
(12)
k=k0n1.
(13)
(14)
每一信号经过手这一介质后,都会发生不同程度的偏转,标签相位信号发生变化,选取俯视图分析手的水平面,信号波在手的相对平面射影关系如图4所示。映射到与手相对的水平面存在多对一的关系,由于每一个手指对应的映射不同,将每一根手指与α对应,分别为α1对应大拇指,α2对应食指……α5对应小拇指, 映射到水平面的波与信号波存在的关系如图4所示。
图4 俯视图
Fig.4 Top view
本文通过对多径效应从容器投影主、左、俯视图分别分析,利用多径效应的影响,促使每种手势对应的数据特征值范围更为明显。将反射信号与折射信号叠加后,计算出从发送端到接收端信号波发生反射、折射后信号波的损耗,从而大致判断每种手势对应的特征值。总的来说,利用入射角计算反射角,判断经过反射后的信号是否被正常接收;后通过相对折射率等一系列公式,区分部分经历过二次偏转的信号波与从未经历过偏转的信号波。利用有效折射率融入到信号波中,当信号经过用户手部影响发生偏转,通过计算有效折射率分析信号波到天线过程中的衰减,得到天线接收到信号有效波。最终将反射后的信号与折射后的信号进行叠加,利用叠加产生的干扰,计算出6种不同手势分别对应的信号波特征值范围,为后续信号处理提供较为精准的特征变量的范围,进一步提高识别准确率。
时间序列数据具有高维特性,是指按发生先后顺序排列的时序数据。在同一个时间序列中,通过捕捉不同时刻不断变化的标签相位信号,完成样本采集。在采集过程中,使用采样频率为60条/s的阅读器完成数据获取。为了确保系统结果的实时性,本文采样过程中,以60条为一组,每250组构成一种手势的数据集,完成标签相位信号获取。最终形成的指纹库是由6种手势所对应的数据集构成。后在粗粒度识别中筛选出最佳的1 200组数据进行后续训练。剩余的数据以8∶2的比例进行随机划分,随机获取的960组数据为训练样本,随机获取的240组为测试样本。具体采样过程见下文指纹库的建立。
如何选择和获取时间序列上的特征是对时间序列分析的重要问题。本文选用离散小波变换对分析后的标签相位信号进行去噪、滤波处理,通过测试选取最佳的阈值及其相关系数,实现更好的信号去噪处理效果。对时间序列上的数据集进行滤波处理,提取到最佳范围内的特征值。由于代表消失矩的数字越大,小波滤波器的长度越长,小波滤波器越长,处理后的数据越光滑。图5分别表示用户6种手势使用离散小波去噪前后的局部对比图。本文选用Daubechies 5(多贝西极限相位小波)模型进行降噪处理。
图5 离散小波变换的效果图(6种手势)
Fig.5 Effect of discrete wavelet transform (six gestures)
具体的利用离散小波Daubechies 5(多贝西极限相位小波)模型进行去噪、滤波分析,对符合时间序列的相位信号进行去噪、滤波处理,生成以时间序列为基础的N种Q序列建立起标准手势数据库;实际测试时,用户随机摆放的手势所对应的相位信号经过预处理生成以时间序列为基础的单个序列C.
系统将单个序列C与N种序列Q进行特征匹配,对单个序列C与N种序列Q进行分割,通过持续的动态匹配完成粗粒度手势识别。
将单个序列C和序列Q中的第k个序列按某个固定间隔划分为时间片段Cj、Qi,两个时间序列的任意时间片段Cj、Qi进行动态匹配,动态匹配时计算两个时间片段Cj、Qi之间的欧氏距离,每个序列Q和序列C都计算得到若干个欧式距离,将每个序列Q和序列C对应的若干个欧式距离之和进行比较,选择最短欧式距离之和,并判断是否位于预期范围。若在预期范围内,则序列C和最短欧式距离之和对应序列Q的部分时间片段完全重合,则匹配成功输出结果;若不在预期范围内,再改变固定间隔,将序列Q和序列C的时间片段进行收缩或延伸,每改变一次固定间隔,计算一次欧氏距离,直到计算的欧式距离之和位于预期范围内,此时序列C和最短欧式距离之和对应序列Q的部分时间片段完全重合,匹配成功输出结果,从而完成粗粒度的手势识别工作。
欧式距离的最佳路径表示时间片段Cj、Qi之间的相似度,距离越小,则证明相似度越高。本系统采用DTW算法达到用户手势的粗粒度识别的效果。图6表示用户未知手势与系统存储手势无法匹配的情形。
图6 DTW处理的效果图(匹配不成功)
Fig.6 Effect diagram of DTW treatment (mismatch)
若系统匹配不成功会自动跳转到下一时间序列分段上,直至匹配成功。由于本文建立的指纹库都是以60条为一组,因此在动态匹配过程中,人为设定每个分段为20条数据进行跳转。具体来说,就是动态识别过程中获取的新数据,与整个指纹库进行动态匹配,匹配不成功,正在获取的初始数据与指纹库中向后的跳转20条进行匹配,反复匹配,最终筛选出指纹库中最佳的1 200组数据。
如图7所示,测试手势分别为手势0,手势1,手势2,手势3,手势4,手势5与数据库中的部分数据匹配相似,当匹配结果相同则输出结果,完成粗粒度的手势识别。
图7 DTW处理的效果图(6种手势)
Fig.7 Effect of DTW treatment (six gestures)
为了确保细粒度识别的准确性,本文先对获取到的指纹库进行粗粒度识别,获取粗粒度识别匹配最佳数据集,后续进行特征图像生成,完成卷积神经网络模型的训练。
目前,基于时间序列上的分类方法主要分为两类:一类是基于隐马尔可夫模型(hidden markov model,HMM)的算法,一类是基于动态时间归整(dynamic time warping,DTW)的算法。由于阅读器接收到的相位信号属于符合时间序列的数据集,且在时间序列上相位信号时刻的值没有必然联系,此种特性符合隐马尔可夫的性质。由于以时间序列为基础的隐马尔可夫分类算法比直接使用隐马尔可夫模型的分类算法准确率更高,对比传统的隐马尔可夫模型中的转移矩阵对序列上的时间并不敏感这一特点,本文选用马尔可夫变迁场,将时间序列上的一维数组转换为二维特征图像。如图8所示,这6个手势0、手势1、手势2、手势3、手势4、手势5依次对应a、b、c、d、e、f六幅图像。步骤如下:
图8 马尔可夫变迁场生成的特征图像(6种手势)
Fig.8 Feature images generated by Markov transition field (six gestures)
1) 时间序列上的数据划分为n个数据段。
X={x1,x2,…,xn} .
(15)
2) 构建马尔可夫转移矩阵wi,j,矩阵范围[D,D],其中wi,j由dj中的紧邻数据的频率决定di中的数据,其算法如下:
(16)
3) 构建马尔可夫变迁场M,矩阵尺寸为[V,V],其中wi,j的值为W[di,dj]
(17)
从图8中可以看出利用马尔可夫变迁场生成的相位特征图像,仅以肉眼并不能很直观分辨出6种图像分别代表的各种手势特征。为了更有效地提取图像中的细微特征,利用卷积神经网络(CNN)训练模型。传统的机器学习在图像处理领域一直有较为优异的表现。实验过程中分别对传统机器学习SVM、神经网络模型DensNet、 GoogleNet、VggNet、AlexNet五种模型进行测评,最终得出AlexNet模型无论是从精准度、还是测试耗时都明显强于SVM、DensNet、GoogleNet、VggNet模型。因此,本文选取AlexNet进行改进,最终得到IM-AlexNet模型。
如图9所示传统的AlexNet为8层结构,分别为5个卷积层,3个全连接层。AlexNet的特点是使用ReLU函数、添加LRN(local response normalization) 局部响应归一化、利用重叠池化。
图9 AlexNet模型
Fig.9 AlexNet
AlexNet采用的是随机梯度下降方法对数据处理,初始图像为227×227×3彩色图像,参数个数为227×227×3个,卷积核数量为96,每一卷积层都会经历池化运算,池化运算尺度为3×3,运算步长为2。在反向传播过程中,每一个卷积核都对应一个偏差值。例如:第一层96个卷积核应对应上层输入的96个偏差值。卷积层会按照卷积核大小消耗参数,从而使得下一层接收到的参数减少,如第一层卷积核的大小为11×11×3,则消耗的参数个数为(11×11×3+1)×96=34 944(+1表示多一个截距项)经历过5个卷积层后,进入全连接层采用与池化后的像素值相同的滤波器进行处理。采用滤波器的系数只与一个池化后的像素值相乘,与卷积层每个系数与多个池化后的像素值相乘不同,所以称其为全连接层。最终初始图像经历5个卷积层的局部特征提取,后又经历3个全连接层将局部特征结合构成全局特征,最终在Softmax层实现了1 000种分类的效果。
本文对AlexNet模型进行修改,将原有的227×227×3的像素层修改为250×250×3.本文对利用马尔可夫变迁场生成的标签特征图片预处理,生成250×250×3的像素层,从而符合卷积层数据输入的要求,避免因图像像素的问题而使训练模型出现误差。如图10所示,IM-AlexNet的配置如下。
图10 IM-Alex net网络架构图
Fig.10 IM-Alex NET network architecture diagram
卷积层:共分为卷积、ReLU、池化、归一化4个步骤。
Conv1:输入是250×250×3,使用32个11×11×3的卷积核,得到的FeatureMap为122×122×32;ReLU:将Conv1输出的FeatureMap输入到ReLU函数中;Max pool:使用3×3步长为2的池化单元,输出为60×60×32.
Conv2:输入是122×122×32,使用128个5×5×3的卷积核,得到的FeatureMap为60×60×128;ReLU:将Conv1输出的FeatureMap输入到ReLU函数中;Max pool:使用3×3步长为2的池化单元,输出为29×29×128.
Conv3:输入是60×60×128,使用256个3×3×1的卷积核,得到的FeatureMap为29×29×256;ReLU:将Conv1输出的eatureMap输入到ReLU函数中;没有池化层;
Conv4:输入是29×29×256,使用256个3×3×1的卷积核,得到的FeatureMap为14×14×256;ReLU:将Conv1输出的FeatureMap输入到ReLU函数中;Max pool:使用3×3步长为2的池化单元,输出为6×6×256;
全连接层:分为全连接、ReLU 、Dropout三个步骤。
FC 9216:输入为6×6×256,该层有9 216个卷积核,每个卷积核的大小为6×6×256.由于待处理特征图的尺寸与卷积核的尺寸相同,即卷积核中的每个偏差值只与特征图尺寸的一个像素值相乘,卷积后的像素层尺寸为9 216×1×1,即有9 216个神经元;ReLU:通过ReLU激活函数这9 216个运算结果将生成9 216个值;Dropout:抑制过拟合的出现,随机不激活某些神经元或者是断开某些神经元的连接;
FC 256:输入值为256的向量; ReLU:通过ReLU激活函数这256个运算结果生成256个值;Dropout:抑制过拟合的出现,随机地不激活某些神经元或者是断开某些神经元的连接;
输出层:第七层FC 256输出的256个数据与第八层的6个神经元进行全连接,经过训练后输出6个float型的值,从而得到预测结果。
图11为改进后的IM-AlexNet网络框架图,修改后的IM-AlexNet将卷积层的数量减少,将原有的5个卷积层减少为4个。与传统的AlexNet模型相比,改进后的神经网络模型训练参数减少、复杂度降低、网络结构更为简单,从而缩短模型训练的时间,并实现快速精准预测,且更不易出现过拟合现象,同时提高模型的收敛速度,增强其网络泛化能力。改进后的模型测试过程中耗时缩短,从而更大程度上保证用户细粒度识别的实时性。
图11 IM-AlexNet模型
Fig.11 IM-AlexNet
硬件设置:选用ImpinJ Speedway R420阅读器,工作频段设定在920.625~924.625 MHz之间,系统采用EPC Gen2标准协议。选取一个0.6 m×0.6 m的实验桌作为阅读器天线背面的放置面,选取一个0.15 m×0.15 m的透明容器中,容器仅有三个相互垂直面构成,用于增强标签多径效应。实验设置:标签个数为1,天线数量为1,处理器Intel(R) Core(TM) i7-10700K CPU@3.80 GHz,RAM 32.0 GB,NVIDIA GeForce RTX 3080,场景部署如图12所示。实验过程中,为提高实验的精准度,将阅读器天线放置于透明容器的正下方,标签放置于容器顶部的正中心点位置。
图12 实验部署图
Fig.12 Experimental deployment diagram
软件设置:用ImpinJ LLRP协议使处理器与阅读器通信,在ImpinJ Reader提供的软件开发工具包(SDK)进行开发。其中Java的集成开发环境(IDE)采用JetBrains IntelliJ IDEA. Python的集成开发环境(IDE)采用 JetBrains PyCharm.首先利用Java编译器对协议进行改进,实现自动化数据提取,利用Python编译器调用其第三方库PyWave和DTW,完成信号平滑去噪处理及动态手势识别。同时,为了让用户操作更加便捷,体验感更佳,采用Java Fx编写生成客户端,用户仅需点击客户端页面上的相关按钮,软件将会自动读取和调用相关代码,完成手势识别工作,并将结果在客户端界面显示。
为了增加系统的普适性,选取10名志愿者进行数据采集和指纹库建立,男女比例设置为1∶1.在数据采集过程中,志愿者分别做出手势0、手势1、手势2、手势3、手势4、手势5等6种不同的手势,如图13所示,志愿者重复执行每种手势,选取数据,收集动作数据,汇总构成小规模数据集,对数据进行预处理后建立指纹库。
图13 六种设定手势
Fig.13 Six set gestures
为了实现少量数据集就能实现精准的手势识别目的,建立指纹库提出如下两种方案。
方案一:每个手势每人重复做25组,对数据进行连续获取,将每组数据分别与库中存在的数据进行匹配,筛选匹配结果相似度最高的20组。筛选过程中,新读取的数据与库中原有数据集进行匹配,匹配过程中,两者相似的时段越多,则认为匹配相似度越高。
方案二:每个手势每人重复做25组,对数据进行连续获取,将每组数据分别比对,采用循环匹配的方法,对每组数据进行分段匹配。
通过实验结果的比对,方案一的准确率略低于方案二的准确率。具体表现为,依据方案一建立的指纹库,并不能作为训练依托,训练后测试精度仅达到93%,而方案二的测试精度已达到96%以上。因此,选用方案二的方法建立指纹库。
在建立指纹库的过程中,按照实验要求,志愿者的手与阅读器天线、标签保持相对平行,标签与手的距离维持在5 cm,每名志愿者将每个手势重复做25组,且不间断的进行获取、匹配,避免耗时过长导致志愿者的动作出现不规范等问题,从而影响读取效果,产生实验误差。
在数据获取过程中,采取数据成功获取后自动存取,且自动分割成每60条为一组的数据获取方法,当获取的数据达到预期值就会停止并提醒下一个动作的转换。为了实验效果更精准,转换成功后,须人为点击数据获取界面,重新开始新一轮的标签相位信号获取。最终完成标准指纹库的建立。
为了评估本系统的实用性与适用性,从以下5个方面进行实验,分别从用户手势高度、标签因素、环境因素、多用户影响和改进的网络模型准确率方面对系统性能综合测评。该模型的训练集统一为依方案二获取的经动态匹配后挑选出的1200组数据作为训练集,而每一类测试集都由300组数据进行构成。
为了评估用户手势高度对系统识别精度的影响,将用户手掌与标签的距离调至5 cm和10 cm,在两种代表性距离下分别对6种手势测试20次,对每种手势的数据集分别处理,后放入深度学习模型进行测试。测试过程中,为减少因数据提取产生的实验误差,按照要求使手到阅读器天线的距离分别保持在5 cm或10 cm的高度,且手部与标签天线相互平行的情况下进行数据采集。从如图14中可以看出,当标签和用户手势距离为5 cm时,用户6种手势识别的准确度能达到96.5%以上,当标签和手的距离为10 cm时,6种手势的识别准确率波动较大,但准确率也稳定在95.5%以上。
图14 手势高度影响
Fig.14 Influence of gesture height
3.3.1准确率&标签影响
标签位置因素:实验过程中,将一个3个面互相垂直的透明容器放置在阅读器天线的正上方,用于增强单标签信号夺取过程中的多径效应。为了得出实验的标签部署的最佳位置,将标签分别放置在透明容器正上方、正前方、侧面进行数据获取,将数据按要求处理后,分析各种放置情况下的识别准确率。由图15可知,当标签位于透明容器正上方时手势识别效果最佳,最高准确率可达97.12%;当标签位于容器侧面时测试结果最差,平均准确率只有68.24%的;当标签位于容器正前方时,准确率在75%上下浮动。因此,为了用户手势识别的高准确率,采用阅读器天线位于容器正下方放置,标签放置在容器的顶部的正中心点与阅读器天线正对,用户在标签和阅读器天线之间做动作,方便手势识别的开展。
图15 标签位置影响
Fig.15 Influence of tag position
标签朝向因素:为了测评标签朝向不同对识别精度是否会产生影响,实验定义标签正面与阅读器天线相对称为正向,标签背面与阅读器天线相对称为反向。分别对标签正向和反向进行实验测试20组,选取了6种手势的平均精度绘图,如图16所示。可以看出标签朝向对实验识别有较为明显的影响,当标签与阅读器天线正向相对时,手势识别精准度始终维持在95%以上;当标签与阅读器天线反向相对时,手势识别的精准度仅维持在85%~90%之间。由此可以得出结论,在标签反向放置不同时,精准度会有所下降。若识别过程中,精度不理想时,可以通过调整标签的正反向,来提高识别的准确率。
图16 标签朝向影响
Fig.16 Influence of tag orientation
标签类型因素:为判断该系统是否可广泛推广于各类标签进行使用,选取3种较为常见的无源标签实验测试,型号分别为E41-B、9662、H47,分别读取每个手势各20组进行测评。6种手势的准确率如图17所示。标签型号为H47时的平均准确率可达到96.76%;当标签型号为E41-B时,准确率可达85%以上;当标签为型号为9662时,效果最差,平均准确率仅有75.28%.由此可知,当系统采用单标签和单天线场景布置时,采用超高频无源标签E和H系列能使系统维持较高的识别准确率。
图17 标签种类影响
Fig.17 Influence of tag type
标签角度因素:为了测评标签的放置角度发生偏差是否会影响手势识别的结果,将标签所处的0°设为初始位置,分别对与初始位置相差30°、45°、60°、90°的标签相位信号提取。从图18中可以看出,标签角度为0°、30°、45°、60°基本都稳定在96%以上的识别准确率,标签角度为90°时,用户手势识别平均准确率下降到85.25%,且波动较大。由此可推断标签与初始位置的角度不同,会导致标签相位信号受多径效应影响不同。在实验部署标签位置摆放时,尽量与初始位置的夹角小于90°,使其保持较高的识别准确率。
图18 标签初始夹角不同
Fig.18 Different initial included angles of tags
3.3.2准确率&环境影响
为了探索实验环境对准确率的影响,分别对空旷、较为空旷、较为封闭的3种实验场所进行实验及测评。实验结果如图19所示,当实验在走廊中进行,外界的多径干扰小,对实验中人为添加的多径效应的影响少,测试效果最好,准确率可达96.5%以上;当实验在卧室中进行,干扰物增加,使得受多径效应影响的特征值折射与反射信号波的叠加结果出现偏差,使得特征值信号发生不可忽略的变化,导致实验结果中的每个手势的平均准确率都有所降低,但也始终维持在95.28%以上;由于实验在办公室中进行,会有各种设备对特征值产生干扰,如办公桌、WiFi路由器、来回进出的人等不可避免的因素,都会使提取到的数据与原始数据有较为显著的差异,从而导致特征值信号发生变化,导致测试的精准度有所降低。从图19中的深蓝色标识可以看出,位于办公室中的实验效果最差,但实验的平均准确率也稳定在94%以上。由此可得,该系统在各种场所都可以进行部署和推广。
图19 不同实验场所
Fig.19 Different experimental sites
3.3.3准确率&多用户影响
实验另外选取12名志愿者,6名男士,6名女士,以此证明实验的可用性。12名志愿者按照实验要求分别采集了0、1、2、3、4、5各10组数据。按照指纹库数据的读取标准,让志愿者在测量过程中,尽量保持手与标签、阅读器天线之间相互平行,从而减少因人为因素而造成的误差。将12名志愿者测取到的数据集放入训练好的指纹库中进行测试,测试结果如图20所示,除第九名测试者外,所有测试者的测试率平均准确率都稳定在95%以上。由于在获取数据集前,第九名志愿者在参加剧烈的体育运动过程中,动作不当,造成手指出现明显肿胀等一系列问题,从而导致个别手势的测试结果上下浮动较大,但准确率也稳定在92%以上。由此可以证明该系统适用于手部出现轻微创伤,或过度肿胀的人群,以及不同性别的人进行精准的手势识别。
图20 12名志愿者手势识别的精度
Fig.20 Gesture recognition accuracy of 12 volunteers
3.3.4模型识别准确率
为了证明改进后的IM-AlexNet模型的可行性及准确率更优于其他分类模型的,本文分别选取五种常见的分类模型与改进模型进行比对,分类算法包括如下所示:
1) 利用机器学习经典模型SVM,对已经处理过的图像进行训练,得到实验结果;
2) 利用神经网络训练,对已经处理过的图像进行训练,从而建立神经网络模型;
如表1所示,从两种方案的实验结果可以得出神经网络的准确率远高于机器学习的准确率,且耗时短。因此,本文采用神经网络系统进行指纹库的建立,分别对DensNet、VGG16、AlexNet等4种模型进行训练及测试,得出AlexNet模型效果最佳,后对AlexNet 进行改进,形成IM-AlexNet模型。将原始图像的像素值转化为250×250×3,进行分类训练,最终得出IM-AlexNet效果最佳,已达到 96.76 %的准确率,耗时仅需0.2 s.
表1 手势识别的准确率及耗时
Table 1 Accuracy and time consuming of gesture recognition
ClassifierIdentification accuracy/%Time cost/msSVM90.248 000DensNet85.693 200GoogleNet88.751 500VggNet91.422 700AlexNet92.74500IM-AlexNet96.76200
为了进一步验证改进的卷积神经网络模型对用户手势的识别能力和误识别情况,引入了多分类混淆矩阵对用户手势识别细致量化分析。如图21所示,混淆矩阵较全面反映了不同用户手势的正确率和误判率,用户手势识别的正确率能稳定在94%以上,改进的卷积神经网络模型对用户手势识别具有较强的识别能力和较高的识别准确率。
图21 六种手势的准确率
Fig.21 Accuracy of six gestures
本文提出了一种基于改进卷积神经网络AlexNet的深度学习模型,用于解决手势识别过程中精度不高且实时性不强等问题。该模型将原有的卷积层数量缩减,得到在保证正确率高的同时,减少网络参数,降低训练时间,从根本上提高系统实时处理速度,实现高效且精准手势识别。在实验过程中,通过人为添加障碍物,使单标签、单天线间的信号多径效应增强,利用多径效应来增加手势识别细粒度感知特性;将受干扰后的信号利用离散小波变换对相位信号进行去噪处理,使用动态时间规整实现粗粒度的手势识别;利用马尔可夫变迁场将时间序列上的特征值转化为图像,利用改进后的深度学习模型进行训练与测试。本文提出基于改进卷积神经网络的单标签非接触手势识别系统的准确率已达到96.76%.实验结果表明,该系统具有较高的准确率及鲁棒性。
[1] 李雯娟,陈睿.基于物联网技术的智慧医疗系统及其建设策略研究[J].激光杂志,2014(5):56-58.
LI W J,CHEN R.Research on intelligent medical system based on internet of things technology and its construction strategy[J].Laser Journal,2014(5):56-58.
[2] 黄辰,潘永才,李可维,等.基于传感器聚类数据挖掘的物联网智慧医疗模型设计[J].传感器与微系统,2014,33(4):76-79.
HUANG C,PAN Y C,LI K W,et al.Intelligent healthcare model design for internet of things based on sensor clustering data mining[J].Transducer &Microsystems,2014,33(4):76-79.
[3] 饶权.全国智慧图书馆体系:开启图书馆智慧化转型新篇章[J].中国图书馆学报,2021,47(1):4-14.
RAO Q.National smart library system:opening a new chapter of smart library transformation[J].Journal of Library Science and Technology,2013,21,47(1):4-14.
[4] HE Y,ZHENG Y,JIN M,et al.Red:rfid-based eccentricity detection for high-speed rotating machinery[J].IEEE Transactions on Mobile Computing,2019.
[5] LI P,AN Z,YANG L,et al.Towards physical-layer vibration sensing with rfids[C]∥IEEE INFOCOM 2019-IEEE Conference on Computer Communications.IEEE,2019:892-900.
[6] YANG P,FENG Y,XIONG J,et al.RF-Ear:contactless multi-device vibration sensing and identification using COTS RFID[C]∥IEEE INFOCOM 2020-IEEE Conference on Computer Communications.IEEE,2020:297-306.
[7] GUO J,WANG T,HE Y,et al.Twinleak:rfid-based liquid leakage detection in industrial environments[C]∥IEEE INFOCOM 2019-IEEE Conference on Computer Communications.IEEE,2019:883-891.
[8] 赵磊.基于小波变换的智能家居通信异常数据的检测系统设计[J].现代电子技术,2021,44(2):140-143.
ZHAO L.Design of detection system for abnormal data of intelligent home communication based on wavelet transform[J].Modern Electronic Technique,2021,44(2):140-143.
[9] 梁明远,陈强,张崇琪,等.基于树莓派的智能家居系统设计与实现[J].传感器与微系统,2021,40(2):105-107,112.
LIANG M Y,CHEN Q,ZHANG C Q,et al.Design and implementation of smart home system based on raspberry PI[J].Transducer &Microsystem,2021,40(2):105-107,112.
[10] JIANG C,HE Y,YANG S,et al.3d-omnitrack:3d tracking with cots rfid systems[C]∥2019 18th ACM/IEEE International Conference on Information Processing in Sensor Networks (IPSN).IEEE,2019:25-36.
[11] 吴常铖,曹青青,费飞,等.基于数据手套和神经网络的数字手势识别方法[J].东南大学学报(自然科学版),2020,50(3):563-569.
WU C C,CAO Q Q,FEI F,et al.Digital gesture recognition method based on data glove and neural network[J].Journal of Southeast University (Natural Science Edition),20,50(3):563-569.
[12] 缪永伟,李佳颖,刘家宗,等.融合关节旋转特征和指尖距离特征的手势识别[J].计算机学报,2020,43(1):78-92.
MIAO Y W,LI J Y,LIU J Z,et al.Gesture recognition based on joint rotation feature and fingertip distance feature[J].Chinese Journal of Computer,2020,43(1):78-92.
[13] LIU J,QIU Y,YIN K,et al.RILS:RFID indoor localization system using mobile readers[J].International Journal of Distributed Sensor Networks,2018,14(4):1550147718771288.
[14] XU H,YUAN C,LI P,et al.Design and implementation of action recognition system based on RFID sensor[C]∥2017 13th International Conference on Natural Computation,Fuzzy Systems and Knowledge Discovery (ICNC-FSKD).IEEE,2017:3021-3025.
[15] LI J,WANG C,LI A,et al.RF-rhythm:secure and usable two-factor RFID authentication[C]∥IEEE INFOCOM 2020-IEEE Conference on Computer Communications.IEEE,2020:2194-2203.
[16] 王楚豫.基于RFID标签阵列的跨域感知技术研究[D].南京:南京大学,2018.
WANG C Y.Research on cross-domain sensing technology based on RFID tag array[D].Nanjing University,2018.
[17] BU Y,XIE L,GONG Y,et al.RF-dial:rigid motion tracking and touch gesture detection for interaction via RFID tags[J].IEEE Transactions on Mobile Computing,2020.
[18] WANG X,KOU X,WANG Z,et al.Gesture recognition system based on RFID[C]∥International Conference on Mobile Ad-Hoc and Sensor Networks.Singapore,Springer,2017:413-425.
[19] ZHANG S,YANG C,KUI X,et al.Reactor:real-time and accurate contactless gesture recognition with RFID[C]∥2019 16th Annual IEEE International Conference on Sensing,Communication,and Networking (SECON).IEEE,2019:1-9.
[20] 卢善勇,陆翔,邓云.一种可穿戴的UHF RFID标签弯折天线设计[J].电子器件,2017,40(5):1083-1087.
LU S Y,LU X,DENG Y.Design of a wearable bendable antenna for UHF RFID tags[J].Electronic Devices,2017,40(5):1083-1087.
[21] 苏艳苹.基于无线射频识别技术的人类活动检测[J].科技通报,2012,28(8):134-136.
SU Y P.Human activity detection based on radio frequency identification technology[J].Bulletin of Science and Technology,2012,28(8):134-136.
[22] CHOI H,KIM E,KIM T.A DTW gesture recognition system based on gesture orientation histogram,The 18th IEEE International Symposium on Consumer Electronics (ISCE 2014),2014.doi:10.1109/ISCE.2014.6884448.
ZHU Biaokai,DENG Wenwen,SONG Jie,et al.Research on RFID single tag contactless gesture recognition based on improved convolutional neural network[J].Journal of Taiyuan University of Technology,2023,54(3):534-547.