Wi-Fi驱动的无感知跨域手势识别：轻松读懂阅读笔记新方法

最编程 2024-07-25 11:14:11

...

摘要

为了推进领域无关的感知，一个在较低的信号级别的领域无关的特征是关键。提出Widar3.0，主要为了在较低的信号级别推导和估计手势的速度分布。开发了一个只需一次训练但是可以适应不同数据领域的模型。

1 引言

目前存在的方法的问题在于，每次换一个领域（domain）都需要在数据获取和模型重训练上做出额外的工作。
一个有前景但是有挑战性的方法就是开发只需在一个领域下训练一次，就能在任何地方使用的模型。我们的工作的关键想法在于将泛化能力向下移动到较低的信号水平，而不是在较高的模型层面。具体来说，是从原始领域相关的信号中，提取领域无关的特征，这些特征只反映手势本身。在此基础上，建立一个可解释的跨领域识别模型。
主要面临三个技术上的挑战：

过去使用的信号特征（比如振幅、相位、多普勒频移（DFS）），以及他们的统计数据（最大、最小、平均、分布参数），都是领域相关的这意味着即使是相同的手势，它们的值也会随着不同的位置、方向和环境而变化。
由于无线电信号只有几个连接，很难描述人类的手势和动作。例如，单个手势的动态轮廓仍然有数百个变量，这使得动态轮廓的估计成为一个高度欠定的问题。
第三，跨域泛化通常需要复杂的学习模型(例如，更深的网络、更多的参数、更复杂的网络结构和更复杂的损失函数)，这些模型会减慢甚至阻碍训练，过度消耗训练数据，使模型更难以解释。

Widar和Widar2.0跟踪人体粗糙的运动状态，例如位置和速度，并且把人当成是一个点。而Widar3.0要识别复杂的手势以及多个身体部位。Widar3.0的关键组件是领域无关特征body-coordinate velocity profile(BVP)，描述了不同速度下的能量分布。我们观察到，不管在怎样的领域下，每种手势在身体坐标系中都有其独特的速度分布。为了估算BVP，我们从几个显著的速度分量中估算BVP，并进一步使用压缩感知技术来获得准确的估算。在此基础上，我们设计了一个学习模型来捕捉手势的时空特征并最终进行手势分类。我们在COTS Wi-Fi设备上实现了Widar3.0。
核心贡献有三点：

我们提出了一种新的领域无关的特征，BVP，捕捉人体姿态的身体坐标速度剖面在较低的信号水平。
在BVP特征基础上开发了一个one-fits-all模型以及一个充分利用BVP时空特征的学习模型。
准确率高。并且是第一个 zero-effort cross-domain gesture recognition via Wi-Fi

2 MOTIVATION

粗糙特征不能跨域。大多数识别方法从CSI提取粗糙的统计（波形）或物理特征（DFS、AoA,ToF）。然而由于人的不同位置和方向，以及多路径环境，同一个手势的特征可能有很大不同，影响识别。
用于粗跟踪的跨域运动特性。无设备跟踪方法在信号的物理特征和人体的运动状态之间建立定量关系，跨环境启用位置和速度测量。然而这些方法把人体看成一个点，而不足以识别包含多个肢体的复杂的手势。图3显示了一个简单拍手的光谱图，它包含两个主要的DFS成分，由两只手和几个次要成分组成。
在这里插入图片描述
跨域学习方法中潜在的特征。跨域学习方法中，例如迁移学习和对抗学习都潜在地从数据样本中产生特征。但是，这些工作需要额外的工作，从目标域收集数据样本，并在每次添加新的目标域时对分类器进行重新训练。

3 WIDAR3.0概述

在这里插入图片描述
Widar3.0是一个跨域的手势识别系统，使用现成的Wi-Fi设备。如图5所示，监控区域周围部署了多个无线链接。在接收端接收到用户在监控区域内产生的无线信号，并对其CSI测量进行记录和预处理，以消除幅值噪声和相位偏移。
Widar3.0有两个主要模块：BVP生成模块和手势识别模块。
一旦接收到处理好地CSI series，Widar3.0将其划分成小的片段，并且通过BVP生成模块对每个CSI片段生成BVP。Widar3.0先产生三个中间结果：DFS谱以及人的方向和位置信息。DFS谱是通过对CSI series的时频分析来评估的。方向和位置信息是由运动跟踪方法来计算的。在此基础上，Widar3.0应用提出的基于压缩感知的优化方法来估计每个CSI段的BVP。然后输出BVP系列，用于后续的手势识别。
手势识别模块使用了深度学习网络。使用BVP series作为输入，Widar3.0对每个BVP和整个系列进行规范化，以删除实例和人员的无关变量。然后规范化后的BVP series被输入到时空DNN中。首先DNN使用卷积层提取在每个BVP中的高层次的空间特征。然后采用递归层对BVPs间的互特征进行时间建模。最后，DNN的输出指示用户执行的手势的类型。原则上，Widar3.0实现了零功跨域手势识别，只需要一次DNN网络训练，但可以直接适应尽可能多的新域。

BODY-COORDINATE VELOCITY PROFILE

直观地看，人类活动在涉及的所有身体部位都有独特的速度分布，可以作为活动指标。在人所反映的信号的所有参数(即ToF、AoA、DFS和衰减)中，DFS最能体现速度分布的信息。不幸的是，DFS还与人的位置和方向高度相关。

4.1CSI的多普勒表示

现成的Wi-Fi设备描绘的CSI描述了在室内环境中数据包到达时间 $t$ 和子载波频率 $f$ 时的多径效应：
在这里插入图片描述
其中 $L$ 是路径数， $a_l$ 和 $\tau_l$ 是第 $l$ 条路径的复数衰减和传播延迟。 $ϵ （ f ， t ）$ 是由时序对准偏移，采样频率偏移和载波频率偏移引起的相位误差。
通过用相应的DFS表示多径信号的相位，可以将CSI变换为：
在这里插入图片描述
其中其中常数 $H_s$ 是DFS为零的所有静态信号（例如LoS信号）的总和， $P_d$ 是DFS为非零的动态信号的集合（例如目标反射的信号）。
通过在同一Wi-Fi NIC上计算两个天线的CSI的共轭乘法，并滤除带外噪声和准静态偏移，可以去除随机偏移，并且仅保留具有非零DFS的重要多径分量。进一步应用短期傅立叶变换可在时域和多普勒频域上产生能量分布。单个链接的频谱图的一个示例如图3所示。我们将频谱图中的每个快照表示为DFS谱。具体来说，DFS谱，D是维数为 $F\times M$ 的矩阵，其中 $F$ 是频域中采样点的数量， $M$ 是收发器链路的数量。基于来自多个链接的DFS谱，我们可以推导与域无关的BVP。

4.2 从DFS到BVP

一个人执行手势时，他的身体部位（例如，两只手，两只手臂和躯干）以不同的速度运动。结果，这些身体部位反射的信号会经历各种DFS，这些DFS叠加在接收器上并形成相应的DFS轮廓。如第2节所述，尽管DFS曲线包含手势的信息，但它也非常特定于域。相反，在人的身体坐标系中在物理速度上的功率分布仅与手势的特性有关。因此，为了消除域的影响，从DFS曲线中导出了BVP。
在这里插入图片描述
BVP的主要思想如图6所示。一个BVP V量化为维数为 $N\times N$ 的离散矩阵，其中 $N$ 为体坐标各轴上分解的速度分量可能值的个数。我们建立了以人的位置为原点的局部人体坐标， $x$ 轴正方向与人的朝向一致。估计人的位置和朝向的方法将在4.4节中讨论。目前假定人的全局位置和朝向是已知的。然后将已知的无线收发器的全局位置转换为局部体坐标。因此，下面推导中使用的所有位置和方向都默认在局部体坐标中。假设第 $i$ 个链接的接收器和发送器的坐标分别是在这里插入图片描述
那么，人体周围的任何速度分量 $\vec{v}=(v_x,v_y)$ ，都会将其信号功率贡献给某个频率分量，标记为 $f^{(i)}(\vec{v})$ ，在第 $i$ 个链接的DFS曲线中

其中， ${a_x}^{(i)}$ 和 ${a_y}^{(i)}$ 是由发射机和接收机的位置决定的系数：
在这里插入图片描述
这里 $\lambda$ 是Wi-Fi信号的波长。由于在计算DFS曲线之前，零DFS的静态分量已经滤掉了，只有人所反映的信号才会被保留。此外，当人靠近Wi-Fi链接时，只有一次反射的信号才具有明显的幅度。因此，公式3适用于手势识别场景。从几何角度看，公式3表示二维速度矢量 $v$ 投影在一条方向矢量为 $d^{(i)}=(-{a_y}^{(i)},{a_x}^{(i)}))$ 。假设该人处于椭圆曲线上，其焦点是第 $i$ 条链路的发送器和接收器，则 $d^{(i)}$ 实际上是该人所在位置的椭圆的法线方向。图6显示了一个示例，其中人生成了三个速度分量 $\vec{v_j},j = 1,2,3$ ，并且在三个链接的DFS曲线上投影了速度分量。

由于系数 ${a_x}^{(i)}$ 和 ${a_y}^{(i)}$ 仅取决于第 $i$ 条链路的位置，因此BVP在第 $i$ 条链路上的投影关系是固定的。具体来说，可以定义分配矩阵 $A^{(i)}_{F\times N^2}$ ：
在这里插入图片描述
这里 $f_j$ 是DFS曲线中的第 $j$ 个频率采样点， $\vec{v}_k$ 是矢量化的BVP V的第 $k$ 个元素对应的速度分量。因此第 $i$ 个链接的DFS曲线和BVP的关系可以建模为：

其中 $c^{(i)}$ 为反射信号传播损耗引起的比例因子。

4.3 BVP估计

由图6可知，仅使用前两个链接（蓝色和绿色），三个速度分量会在每个DFS曲线文件中创建三个功率峰值。但是，当我们恢复BVP时，有9个速度分量候选，即 $v_j，j = 1,2,3$ 和 $u_k，k = 1，···6$ 。并且可以轻松找到另一种解决方案，即 ${u_1，u_3，u_6}$ ，这意味着两个链接不够。
通过添加第三个链接（紫色），如果在第三个DFS曲线中没有投影重叠，则不管存在多少速度分量，它都能够以高概率解决歧义。但是，当投影重叠时，添加第三个甚至更多链接可能无法解决歧义。例如，假设图6中的第三个链接与它们的轴平行，并且投影有三个重叠（即{u1，v2}，{v3，u4，u6}和{u3，v1}），则模棱两可的解{u1，u3，u6}仍然无法解决。但是，由于对速度分量的分布以及链节的方向有严格的要求，所以这种歧义几乎不会发生。此外，我们可以通过添加更多链接来进一步降低歧义的可能性。
通过观察BVP的稀疏性并验证从多个链路恢复BVP的可行性，我们采用压缩感知的思想并将BVP的估计公式化为 $l_0$ 优化问题。
在这里插入图片描述
这里 $M$ 是WIFI链接的数量。速度分量数目的稀疏性由术语 $\eta||V||_0$ 强制，其中η表示稀疏系数，而 $_0$ 是非零速度分量的数目。
EMD(·，·)是两个分布之间的运土距离[。选择EMD而不是欧氏距离主要有两个原因。首先，BVP的量化引入了近似误差，即速度分量到DFS bin的投影可能接近于真实的速度分量。这种量化误差可以通过EMD来消除，EMD考虑了bin之间的距离。其次，BVP和DFS曲线之间存在未知的尺度因子，使得欧式距离不适用。
图7显示了一个推拉手势解决的BVP系列示例。手的主导速度分量和臂的耦合速度分量可以被清晰地观察到。
在这里插入图片描述

4.4 位置和方向

需要人的位置和方向来计算BVP。人做动作之前的移动，能够帮助计算出他的位置和方向。Widar3.0使用了现有的被动跟踪系统来确定位置和方向，如LIFS、IndoTrack、Widar2.0。

5 识别机制

在这里插入图片描述
设计DNN学习模型来挖掘BVP series的时空特征。图8显示了所提出的学习模型的总体结构。BVP series首先进行了归一化处理，之后才输入到学习模型中。

5.1 BVP归一化处理

虽然BVP在

上一篇： ROS新手指南10：理解和应用ros_control及控制器的基础教程

下一篇：美国俚语探秘：最后一搏的惯用说法