图1 Vicon动作捕捉设备

目前工业界已有相对成熟的三维姿态重建解决方案,即接触式的动作捕捉系统,例如著名的光学动作捕捉系统Vicon(图1)。首先将特制的光学标记点(Marker)贴附在人体的关键部位(如人体的关节处),多个特殊的动作捕捉相机可以从不同角度实时检测Marker点。随后根据三角测量原理精确计算Marker点的空间坐标,再利用反向动力学(Inverse kinematics,IK)算法解算人体骨骼的关节角。由于场景与设备的限制,高昂的价格,接触式运动捕捉难以被普通消费者所使用。因此研究者继而将目光投向了低成本、非接触式的无标记动作重建技术。本次主要介绍近年来利用单目RGB-D相机或者单目RGB相机进行姿态重建的工作。




Shotton等人[48]首先利用大量的样本训练了一个随机森林(Random forest)分类器,从深度图中分割出不同的人体部件区域,随后他们利用均值漂移(Mean shift)算法估计出关节位置。该方法的预测仅需要少量的计算量,可实时运行。该方法随后被Kinect SDK集成,用于实时重建三维姿态。


与判别式方法不同,生成式方法通过变形参数化或非参数化模板来匹配观测数据。Ganapathi等人[50]使用动态贝叶斯网络(Dynamic Bayesian Network,DBN)来建模运动状态,并利用一个最大后验概率(Maximuma Posterior, MAP)框架推断出三维姿态。该方法需要事先知道人体的身材,并且不能有效地处理快速的人体运动。随后,Ganapathi等人[51]利用扩展的ICP测量模型和*空间约束对方法[50]进行了改进。新方法可对人体参数化模板的大小进行动态调整,用于适配捕捉到的深度数据。









图2 Martinez 等人 [62] 的工作



图3 Mehta 等人 [63] 的工作




