人体三维重建(V)--人体姿态重建方法简介
三维人体姿态重建通常是指利用外部设备对人体进行三维姿态还原。相比于稠密的人体几何形状,人体骨架是表示人体姿势的一种紧凑型表达方式。本次主要介绍基于人体骨架的姿态重建。
目前工业界已有相对成熟的三维姿态重建解决方案,即接触式的动作捕捉系统,例如著名的光学动作捕捉系统Vicon(图1)。首先将特制的光学标记点(Marker)贴附在人体的关键部位(如人体的关节处),多个特殊的动作捕捉相机可以从不同角度实时检测Marker点。随后根据三角测量原理精确计算Marker点的空间坐标,再利用反向动力学(Inverse kinematics,IK)算法解算人体骨骼的关节角。由于场景与设备的限制,高昂的价格,接触式运动捕捉难以被普通消费者所使用。因此研究者继而将目光投向了低成本、非接触式的无标记动作重建技术。本次主要介绍近年来利用单目RGB-D相机或者单目RGB相机进行姿态重建的工作。
基于单目RGB-D相机的姿态重建
基于RGB-D的三维姿态重建方法可分为两类[1]:判别式方法与生成式方法。判别式方法通常试图从深度图像中直接推测出三维人体姿态。其中一部分工作尝试从深度图中提取与关节位置相对应的特征。
例如,Plagemann等人[47]利用测地线极值来识别人体中的显著点,然后利用局部形状描述符检测人体三维关节位置。另外一些判别方法则依赖于离线训练的分类器或者回归器。
Shotton等人[48]首先利用大量的样本训练了一个随机森林(Random forest)分类器,从深度图中分割出不同的人体部件区域,随后他们利用均值漂移(Mean shift)算法估计出关节位置。该方法的预测仅需要少量的计算量,可实时运行。该方法随后被Kinect SDK集成,用于实时重建三维姿态。
Taylor等人[49]利用随机森林方法预测属于人体关节的深度像素区域,随后将其用于姿态优化。判别式方法并不依赖于跟踪,可以减少累计误差,并且能够自然的处理快速运动。
与判别式方法不同,生成式方法通过变形参数化或非参数化模板来匹配观测数据。Ganapathi等人[50]使用动态贝叶斯网络(Dynamic Bayesian Network,DBN)来建模运动状态,并利用一个最大后验概率(Maximuma Posterior, MAP)框架推断出三维姿态。该方法需要事先知道人体的身材,并且不能有效地处理快速的人体运动。随后,Ganapathi等人[51]利用扩展的ICP测量模型和*空间约束对方法[50]进行了改进。新方法可对人体参数化模板的大小进行动态调整,用于适配捕捉到的深度数据。
基于RGB-D的姿态重建方法由于其硬件限制,容易受到深度图噪声干扰,只能在距离较近的场景下适用。
基于单目RGB相机的姿态重建
得益于大规模带有三维人体姿态标注的视频数据集(如Human3.6M[52],Human-Eva[53])的出现,基于深度学习的三维姿态重建方法发展迅速。它们直接利用深度学习模型从图像或者视频中提取三维人体关节点位置[54–60]。
Li等人[54]是最早将深度学习引入到三维姿态估计,他们设计了一个包含检测与回归的多任务卷积神经网络,直接从图像中自动学习特征来回归三维关节点的位置,超过了以往通过人为设计特征的方法。
Pavlakos等人[56]提出了一种体素热图来描述人体关节点在三维体素空间不同位置上的可能性,并且使用一种从粗到细的级联策略来逐步细化体素热图的预测,取得了很好的姿态重建准确度。然而,这种体素表示往往需要面对巨大的存储和计算开销,最近[61]利用编码-解码(Encoder-Decoder)思想较好的解决了这个问题。
除了直接预测关节点三维位置,还有一些工作预测骨骼朝向[64,65],关节角[66],骨骼向量[67,68]等等。上述工作都采用强监督的方式进行训练,由于训练数据都是在受控环境下采集,因此训练出的模型通常都难以泛化到自然场景中。
为了提高模型的泛化能力,一些工作尝试利用弱监督的方式来监督自然场景中的图像,比如使用域判别器[69],骨骼长度先验[70]等等。
另一类三维姿态估计方法则将二维人体姿态作为中间表示。首先在图像中利用人工标注或者自动检测[71–74]的二维人体关节,然后通过回归方法[57,62,75]或者模型拟合[76]的方式将其提升到三维空间。
Martinez等人[62]设计了一个简单但是有效的全连接网络结构,它以二维关节点位置作为输入,输出三维关节点位置,如图2。
随后,Zhao等人[75]提出利用语义图卷积层模块捕捉人体关节点之间的拓扑相关性(比如人体对称性),进一步提高了三维姿态的重建准确性。但是从二维姿态映射到三维姿态本身是一个歧义问题,原因在于多个三维姿态可以投影出同一个二维姿态[77]。最近的一些工作尝试加入更多的先验知识来减轻歧义性[78–80]。
上述工作都属于判别式模型,预测得到的三维关节点位置可能不符合人体解剖学约束(比如不满足对称性,骨骼长度比例不合理)或者运动学约束(关节角超过限制)。Mehta等人[63]将一个人体骨架模板拟合预测得到的二维关节点与三维关节点位置,并提出了第一个基于RGB相机的实时三维姿态重建系统VNect,得到了较为准确的姿态重建结果。如图3所示。
参考文献
接上篇参考文献
[47] PLAGEMANN C, GANAPATHI V, KOLLER D, etal. Real-time identification and localization of body parts from depthimages[C]//2010 IEEE International Conference on Robotics and Automation. IEEE,2010: 3108-3113.
[48] Shotton J, Fitzgibbon A, Cook M, etal. Real-time human pose recognition in parts from single depth images[C]//CVPR2011. 2011: 1297-1304.
[49] TAYLOR J, SHOTTON J, SHARP T, et al.The vitruvian manifold: Inferring dense correspondences for one-shot human pose estimation[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2012: 103-110.
[50] GANAPATHI V, PLAGEMANN C, KOLLER D, etal. Real time motion capture using a single time-of-flight camera[C]//2010 IEEEComputer Society Conference on Computer Vision and Pattern Recognition. IEEE,2010: 755-762.
[51] GANAPATHI V, PLAGEMANN C, KOLLER D, etal. Real-time human pose tracking from range data[C]//European conference oncomputer vision. Springer, 2012: 738-751.
[52] IONESCU C, PAPAVA D, OLARUV, et al.Human3. 6m: Large scale datasets and predictive methods for 3D human sensing innatural environments[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2013, 36(7):1325-1339.
[53] SIGAL L, BALAN A O, BLACK M J.Humaneva: Synchronized video and motion capture dataset and baseline algorithmfor evaluation of articulated human motion[J]. International journal ofcomputer vision, 2010, 87(1-2):4.
[54] LI S, CHANA B. 3d human poseestimation from monocular images with deep convolutional neuralnetwork[C]//Asian Conference on Computer Vision. Springer, 2014: 332-347.
[55] POPA A I, ZANFIR M, SMINCHISESCU C.Deep multitask architecture for integrated 2d and 3d humansensing[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6289-6298.
[56] PAVLAKOS G, ZHOU X, DERPANIS K G, etal. Coarse-to-fine volumetric prediction for single-image 3D humanpose[C]//IEEE Conference on Computer Vision and Pattern Recognition. 2017:7025-7034.
[57] FANG H S, XU Y, WANG W, et al.Learning pose grammar to encode human body configuration for 3d poseestimation[C]//Proceedings of the AAAI Conference on Artificial Intelligence:volume 32. 2018.
[58] SUN X, XIAO B, WEI F, et al. Integralhuman pose regression[C]//Proceedings of the European Conference on ComputerVision (ECCV). 2018: 529-545.
[59] LEE K, LEE I, LEE S. Propagating lstm:3d pose estimation based on joint interdependency [C]//Proceedings of theEuropean Conference on Computer Vision (ECCV). 2018: 119-135.
[60] HABIBIE I, XU W, MEHTA D, et al. Inthe wild human pose estimation using explicit 2d features and intermediate 3drepresentations[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition. 2019: 10905-10914.
[61] FABBRI M, LANZI F, CALDERARA S, et al.Compressed volumetric heatmaps for multiperson 3d poseestimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition. 2020: 7204-7213.
[62] MARTINEZ J, HOSSAIN R, ROMERO J, etal. A simple yet effective baseline for 3D human poseestimation[C]//Proceedings of the IEEE International Conference on ComputerVision. 2017: 2640-2649.
[63] MEHTA D, SRIDHAR S, SOTNYCHENKO O, etal. VNect: Real-time 3D human pose estimation with a single RGB camera[J]. ACMTransactions on Graphics (TOG), 2017, 36 (4):44.
[64] LUO C, CHU X, YUILLE A. Orinet: Afully convolutional network for 3d human pose estimation[J]. arXiv preprintarXiv:1811.04989, 2018.
[65] JOO H, SIMON T, SHEIKH Y. Totalcapture: A 3D deformation model for tracking faces, hands, and bodies[C]//IEEEConference on Computer Vision and Pattern Recognition. 2018: 8320-8329.
[66] HABERMANN M, XU W, ZOLLHOEFER M, etal. Deepcap: Monocular human performance capture using weak supervision[J].arXiv: Computer Vision and Pattern Recognition, 2020.
[67] SUN X, SHANG J, LIANG S, et al.Compositional human pose regression[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2017: 2602-2611.
[68] SUN X, LI C, LIN S. Explicitspatiotemporal joint relation learning for tracking human pose [C]//Proceedingsof the IEEE/CVF International Conference onComputerVisionWorkshops.2019: 0-0.
[69] YANGW, OUYANGW,WANGX, et al. 3Dhumanpose estimation in the wild by adversarial learning[C]//IEEE Conference onComputer Vision and Pattern Recognition. 2018: 52555264.
[70] ZHOU X, HUANG Q, SUN X, et al. Towards3D human pose estimation in the wild: a weakly-supervised approach[C]//IEEEInternational Conference on Computer Vision. 2017: 398-407.
[71] WEI S E, RAMAKRISHNA V, KANADE T, etal. Convolutional pose machines[C]// Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2016: 4724-4732.
[72] NEWELL A, YANG K, DENG J. Stackedhourglass networks for human pose estimation [C]//European conference oncomputer vision. 2016: 483-499.
[73] CHEN Y, WANG Z, PENG Y, et al.Cascaded pyramid network for multi-person pose estimation[C]//IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR). 2018.
[74] XIAO B, WU H, WEI Y. Simple baselinesfor human pose estimation and tracking[C]//The European Conference on ComputerVision (ECCV). 2018.
[75] ZHAO L, PENG X, TIANY, et al. Semanticgraph convolutional networks for 3d human pose regression[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019:3425-3435.
[76] CHENC H,RAMANAND. 3D human poseestimation= 2D pose estimation+ matching[C]// Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. 2017: 7035-7043.
[77] HOSSAINMR I, LITTLE J J. Exploitingtemporal information for 3d human pose estimation [C]//Proceedings of theEuropean Conference on Computer Vision (ECCV). 2018: 68-84.
[78] TEKIN B, MÁRQUEZ-NEILA P, SALZMANN M,et al. Learning to fuse 2d and 3d image cues for monocular body poseestimation[C]//Proceedings of the IEEE International Conference on ComputerVision. 2017: 3941-3950.
[79] WANG J, HUANG S, WANG X, et al. Notall parts are created equal: 3d pose estimation by modeling bi-directionaldependencies of body parts[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision. 2019: 7771-7780.
[80] PAVLAKOS G, ZHOU X, DANIILIDIS K.Ordinal depth supervision for 3D human pose estimation[C]//IEEE Conference onComputer Vision and Pattern Recognition. 2018: 7307-7316.
上一篇: 三维重建的天赐良机,建模行业的福音
下一篇: 三维重建科学 - 三维重建的定义
推荐阅读
-
人体三维重建(V)--人体姿态重建方法简介
-
人体三维重建 (I) - 简介
-
RCWL-0516/RCWL-9196模块简介 & 微波感应模块简介-前言 RCWL-0516是一款由无锡日晨物联科技有限公司开发的微波感应模块(资料下载),见图0.0、图0.1,用于检测物体(人体)移动,具有以下特征: 1.穿透感应:可穿透适当厚度的玻璃、木板以及墙壁。 2.抗干扰:不受温度、灰尘等环境因素影响。 3.感应距离:5~8m(可调,见后文) 4.可重复触发、触发时间可调(见后文) 5.工作电压:3.3~18V 6.稳压输出:提供3.3V电压输出(最大100mA) 7.夜晚自动工作:外接光敏电阻和一个电阻实现 当模块检测到物体在感应范围内移动时,OUT引脚输出一段时间的高电平(该时间可通过电容“C-TM”调节,见后文);若在输出高电平期间再次检测到物体移动,高电平持续时间将延长一段时间(又称为重复触发),该时间不可叠加。 模块使用的注意事项如下,示意图见图0.2: 1. 感应面正前方不能有金属遮挡。 2. 感应面前后方预留2cm以上空间。若对灵敏度要求很高,应预留4cm以上距离,且模块后方遮挡空间应尽可能小。 3. 模块与安装载体平面尽可能平行。 4. 有元器件面为正感应面,反面为负感应面,负感应面效果略差。 5. 相同模块,单个个体之间间距应大于2m。 图0.0-模块实物图(正) 图0.1-模块实物图(反) 图0.2-感应区域示意图 原理 关于此模块的原理,有2种主流观点,这些观点所争论的焦点在于哪种解释是最主要的: 1. 以Roger Clark为代表的“反射”解释:模块上的振荡器会发射出微波信号,位于模块感应区域内的物体会反射模块所发出的微波信号,这些反射信号又被模块所接收,接收到的反射信号会改变流经晶体管发射极的电流I。外界环境不变的情况下,模块内部的调节电路会稳定振荡器,此时振荡器处于稳定状态,电流I也处于稳定;当外界环境发生变化(例如,有物体进入感应区域),该物体的反射信号会使振荡器暂时失去稳定,从而导致电流I发生变化。模块通过检测该电流I的变化,以检测物体移动。此过程中,发射频率的变化只是由于振荡器受反射信号影响而进入一个“暂稳态”所导致。 2.以Joe Desbonnet为代表的“多普勒效应”解释:位于模块感应区域内的物体会反射模块所发出的微波信号,这些反射信号的频率由于物体移动而发生改变(多普勒效应)。模块通过对比发射与反射频率的差异,以判断是否有物体进入感应区域。 应用 降低感应距离:模块背面丝印“R-GN”处添加1MΩ的电阻,模块的感应距离可降低到5m;如果不接,感应距离为7m。 调节触发时间:模块背面丝印“C-TM”处添加不同容值的电容,可以调节触发时间(“C-TM”电容容值的选择见后文);若不安装电容,触发时间为2~4s。 夜晚自动工作:模块正面丝印“CDS”处添加光敏电阻、模块背面丝印“R-CDS”处添加适当阻值的电阻,可控制模块在夜晚自动工作。“CDS”与“R-CDS”的选择方法见后文。 以上应用的实际电路请参考图1.0、图1.1。 图1.0-测试电路(正) 图1.1-测试电路(反) 测试 测试由5部分组成: 1.测量模块处于不同状态时的功耗,见表0.0。 2.未接入电阻“R-GN”时,测试模块最大感应距离,见表0.1。 3.接入电阻“R-GN”,测试模块最大感应距离,见表0.2。 4.以下步骤将介绍如何根据确定的光敏电阻“CDS”,选择电阻“R-CDS”的阻值,以实现模块夜间自动工作的功能。 1-白天,接入可调电阻“R-CDS”(推荐2MΩ)、光敏电阻“CDS”。 2-触发模块后(在模块面前走动),调节可调电阻,直到触发消失。再次尝试触发模块,正常情况下,模块应该无法被触发(如果可以触发,重复步骤2)。 3-将光敏电阻感光面遮住,尝试触发模块,正常情况下,模块应该可以被触发(如果无法触发,重复步骤3)。 4-此时可调电阻阻值即为电阻“R-CDS”的正确阻值。 5.电容“C-TM”分别接入不同容值的无极电容,测试模块单次触发所持续的时间,见表0.3。 测试条件 总电流(mA) 总功耗(mW) +5V供电电压,模块未触发 3.63 18.15 +5V供电电压,模块被触发 4.33 21.65 表0.0-模块功耗信息 正面最大感应距离(M) 6 反面最大感应距离(M) 2 表0.1-未接入电阻“R-GN”时,模块最大感应距离[1] 正面最大感应距离(M) 5 反面最大感应距离(M) 1 表0.2-接入电阻“R-GN”=1MΩ时,模块最大感应距离[1] 电容“C-TM”容值 悬空 103(10nF) 104(100nF) 224(220nF) 474(470nF) 105(1uF) 理论单次触发时间(s) 2~4 6 30 66 140 300 实际单次触发时间(s) 3 6 32 67 122 210 表0.3-电容“C-TM”容值 vs. 模块单次触发持续时间 结论 RCWL-0516是一款性价比高的人体感应模块,具有以下优缺点: 优点:
-
人体三维重建(四)——非参数化人体方法简述