三维环境重建中的深度学习
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
本文转自:计算机视觉联盟
最经典的计算机视觉问题是3-D重建。基本上可以分成两种路径:一是多视角重建,二是运动重建。前者有一个经典的方法是多视角立体视觉(MVS,multiple view stereo),就是多帧的立体匹配,这样采用CNN模型来解决也合理。传统MVS的方法可以分成两种:区域增长(region growing)和深度融合(depth-fusion)。当年CMU在美国超级碗(Superbowl)比赛展示的三维重建和视角转化,轰动一时,就是基于此路径,但最终没有被产品化(技术已经转让了)。
后者在机器人领域成为同步定位和制图(SLAM)技术,有滤波法和关键帧法两种,后者精度高,在稀疏特征点的基础上可以采用集束调整(BA,Bundle Adjustment),著名的方法如PTAM,ORB-SLAM1/2,LSD-SLAM,KinectFusion(RGB-D数据),LOAM/Velodyne SLAM(激光雷达数据)等。运动恢复结构(SFM)是基于背景不动的前提,计算机视觉的同行喜欢SFM这个术语,而机器人的同行称之为SLAM。SLAM比较看重工程化的解决方案,SFM理论上贡献大。
另外,视觉里程计(VO)是SLAM的一部分,其实只是估计自身运动和姿态变化。VO是David Nister创立的概念,之前以两帧图像计算Essential Matrix的“5点算法”而为人所知。
因为CNN已经在特征匹配、运动估计和立体匹配得到应用,这样在SLAM/SFM/VO/MVS的应用探索也就成了必然。
如图所示,经典VO流水线通常包括摄像机标定、特征检测、特征匹配(或跟踪)、异常值拒绝(例如RANSAC)、运动估计、尺度估计和局部优化(集束调整,BA)。
DeepVO基于深度递归卷积神经网络(RCNN)提出了一种端到端单目视觉里程计(VO)框架。由于以端到端的方式进行训练和部署,因此它直接从一系列原始RGB图像(视频)中推断出姿态,而不采用传统VO流水线中的任何模块。基于RCNN,它不仅通过CNN自动学习VO问题的有效特征表示,而且用深度递归神经网络隐式地建模串联动力学和关系。
如图所示是这个端到端VO系统的架构图:采用视频片段或单目图像序列作为输入;在每个时间步,作为RGB图像帧预处理,减去训练集的平均RGB值,可以将图像尺寸调整为64的倍数;将两个连续图像堆叠在一起以形成深RCNN的张量,学习如何提取运动信息和估计姿势。具体地,图像张量被馈送到CNN以产生单目VO的有效特征,然后通过RNN进行串行学习。每个图像对在网络的每个时间步产生姿势估计。VO系统随时间推移而发展,并在图像获取时估计新的姿势。
CNN具有9个卷积层,每层之后是除Conv6之外的ReLU激活,总共17层。网络中感受野的大小逐渐从7×7减少到5×5,然后逐渐减少到3×3,以捕捉小的有趣特征。引入零填充以适应感受野的配置或在卷积之后保持张量的空间维度。其中通道的数量,即用于特征检测的滤波器的数量,会增加以学习各种特征。
通过堆叠两个LSTM层来构造深度RNN,其中LSTM的隐藏状态是另一个的输入。在DeepVO网络中,每个LSTM层具有1000个隐藏状态。深度RNN基于从CNN生成的视觉特征在每个时间步输出姿势估计。随着相机移动并获取图像,这个进程随时间而继续。
下图所示时UnDeepVO的架构图。姿势估计器是基于VGG的CNN架构,需要两个连续的单目图像作为输入,并预测它们之间的6-*度(DoF)变换矩阵。由于旋转(由欧拉角表示)具有高度非线性,与平移相比通常难以训练。对于有监督的训练,一种流行的解决方案是将旋转估计损失给予更大的权重,如同归一化。为了更好地无监督学习训练旋转预测,在最后一个卷积层之后用两组独立的全连接层将平移和旋转分离。这样为获得更好的性能,引入一个权重标准化的旋转预测和平移预测。深度估计器主要基于编码器-解码器架构以生成致密深度图。与其他方法不同的是, UnDeepVO直接预测深度图,这是因为以这种方式训练时整个系统更容易收敛。
如图所示,用立体图像序列的时空几何一致性来定义损失函数。空间几何一致性表示左右图像对中的对应点之间的外极线约束,而时间几何一致性表示两个连续单目图像中的对应点之间的几何投影约束。这些约束构造最后的损失函数并使其最小化,而UnDeepVO学习端对端无监督方式估计尺度化的6-DoF姿势和深度图。简单提一下,空间损失函数包括光度一致性损失(Photometric Consistency Loss)、视差一致性损失(Disparity Consistency Loss)和姿态一致性损失(Pose Consistency Loss);时间损失函数包括光度一致性损失和3-D几何校准损失(3D Geometric Registration Loss)。
如图是比较传统VIO(visual-inertial odometry)和基于深度学习的VINet方法。VINet时一种使用视觉和惯性传感器进行运动估计的流形(on-manifold)序列到序列的学习方法。其优点在于:消除相机和IMU之间繁琐的手动同步,无需手动校准;模型自然地结合特定领域信息,显著地减轻漂移。
VINet的架构图见下图所示。该模型包括CNN-RNN网络,为VIO任务量身定制。整个网络是可微分的,可以进行端到端训练实现运动估计。网络的输入是单目RGB图像和IMU数据,即一个6维向量,包含陀螺仪测量的加速度和角速度的x,y,z分量。网络输出是7维向量 - 3维平移和4维四元数(quaternion)- 姿势变化。从本质上讲,它学习将图像和IMU数据的输入序列转换为姿势的映射。
CNN-RNN网络执行从输入数据到李代数se(3)的映射。指数图将它们转换为特殊的欧几里德群SE(3),然后可以在SE(3)中组成各个运动以形成轨迹。这样,网络需要近似的功能仍然随着时间的推移保持受限,因为相机帧到帧的运动是由平台在轨迹过程中复杂动力学定义的。借助RNN模型,网络可以学习平台的复杂运动动力学,并考虑到那些难以手工建模的序列依赖性。下图是其中SE(3) 级联层(composition layer)的示意图:无参数层,主要连接SE(3)群上帧之间的变换。
在LSTM模型中,隐藏状态被转移到下一个时间步,但输出本身不会反馈到输入。在里程计情况下,先前状态的可用性特别重要,因为输出基本上是每步增量位移的累积。因此,直接连接SE(3)级联层产生的姿态输出,作为下个时间步核心LSTM的输入。
SfM-Net是一种用于视频运动估计几何觉察的神经网络,根据场景、目标深度、相机运动、3D目标旋转和平移等来分解帧像素运动。给定一图像帧序列,SfM-Net预测深度、分割、相机和刚体运动,并转换为密集的帧到帧运动场(光流),可以及时地对帧进行差分变形以匹配像素和反向传播。该模型可以通过不同程度的监督进行训练:1)通过重投影光度误差(完全无监督)自我监督训练,2)自身运动(摄像机运动)监督训练,或3)由深度图(例如,RGBD传感器)监督训练。
下图是SfM-Net的流程图。给定一对图像帧作为输入,模型将帧到帧像素运动分解为3D场景深度、3D摄像机旋转和平移、一组运动掩码和相应的3D刚性旋转和平移运动。然后,将得到的3D场景流反投影到2D光流中并相应地变形完成从这帧到下一帧的匹配像素。其中前向一致性检查会约束估计的深度值。
如下图是SfM-Net的架构图:对于每对连续帧It,It+1,一个conv / deconv子网络能预测深度dt,而另一个conv / deconv子网络预测一组K个分割掩码mt;运动掩码编码器的最粗特征图通过全连接层进一步解码,输出摄像机和K个分割的3D旋转和平移;使用估计的或已知的相机内参数将预测的深度转换为每帧点云;然后,根据预测的3D场景流(scene flow)对其进行变换,由3D摄像机运动和独立的3D掩码运动组成;将变换后的3D深度再投射回2D的下一图像帧,从而提供相应的2D光流场;可差分后向变形映射将图像帧It+1到It,并且梯度可基于像素误差来计算;对逆图像帧对It+1,It重复该过程来强加“前向-后向约束”,并且通过估计的场景运动约束深度dt和dt+1保持一致性。
如图是一些SfM-Net结果例子。在KITTI 2015,基础事实的分割和光流与SfM-Net预测的运动掩码和光流相比。模型以完全无监督的方式进行训练。
借助于CNN的深度图预测方法,CNN-SLAM可以用于精确和密集的单目图像重建。CNN预测的致密深度图和单目SLAM直接获得的深度结果融合在一起。在单目SLAM接近失败的图像位置例如低纹理区域,其融合方案对深度预测赋予特权,反之亦然。深度预测可以估计重建的绝对尺度,克服单目SLAM的一个主要局限。最后,从单帧获得的语义标签和致密SLAM融合,可得到语义连贯的单视图场景重建结果。
如图是CNN-SLAM的架构图。CNN-SLAM采用基于关键帧的SLAM范例,特别是直接半致密(direct semi-dense)法作为基准。这种方法将不同视觉帧收集作为关键帧,其姿态经过基于姿态图(pose-graph)的优化方法全局修正。同时,通过帧与其最近的关键帧之间的变换估计,实现每个输入帧的姿态估计。
下面是一些结果:办公室场景(左)和NYU Depth V2数据集的两个厨房场景(中,右),第一行是重建,第二行是语义标签。
PoseNet是一个实时单目6 DOF重定位系统。它训练CNN模型以端映端方式从RGB图像回归6-DOF相机姿态,无需额外的工程或图形优化。该算法可以在室内和室外实时运行,每帧5ms。通过一个有效的23层深度卷积网络,PoseNet实现图像平面的回归,对于那些照明差、运动模糊并具有不同内参数的摄像头(其中SIFT校准失败)场景算法鲁棒。产生的姿势特征可推广到其他场景,仅用几十个训练样例就可以回归姿态参数。
PoseNet使用GoogLeNet作为姿态回归网络的基础;用仿射回归器替换所有3个softmax分类器;移除softmax层,并修改每个最终全联接层输出表示3-D位置(3)和朝向四元数(4)的7维姿态向量;在特征大小为2048的最终回归器之前插入另一个全联接层;在测试时,将四元数朝向矢量单位归一化。
如图是PoseNet的结果展示。绿色是训练示例,蓝色是测试示例和红色显示姿势预测。
需要补充一下,姿势回归采用以下目标损失函数的随机梯度下降来训练:
其中x是位置向量,q是四元数向量,β是选择的比例因子,以保持位置和朝向误差的预期值近似相等。
VidLoc是一种用于视频片段6-DoF定位的递归卷积模型。即使仅考虑短序列(20帧),它也可以平滑姿态的估计并且可以大大减少定位误差。
如图是VidLoc的架构模型。CNN部分的目标是从输入图像中提取相关的特征,这些特征可用于预测图像的全局姿态。CNN由堆叠的卷积和池化层构成,对输入图像操作。这里主要处理时间顺序的多个图像,采用VidLoc CNN的GoogleNet架构,其实只使用GoogleNet的卷积层和池化层,并删除所有全连接层。
当输入连续时间的图像流时,利用时间规律性可以获得大量的姿态信息。例如,相邻图像通常包含相同目标的视图,这可以提高特定位置的置信度,并且帧之间的运动也存在严格约束。为捕获这些动态相关性,在网络中使用LSTM模型。LSTM扩展了标准RNN,能够学习长期时间依赖性,是通过遗忘门、输入和输出复位门以及存储器单元来实现的。进出存储器单元的信息流由遗忘门和输入门调节,这允许网络在训练期间克服梯度消失问题,能够学习长期的相关性。LSTM输入是CNN输出,由一系列特征向量xt组成。LSTM将输入序列映射到输出序列,输出序列参数化为7维向量的全局姿态组成yt,包括平移向量和朝向四元数。为充分利用时间连续性,这里LSTM模型采用双向结构,如图所示。
为了模拟姿态估计的不确定性,采用混合密度网络(mixture density networks)方法。这种方法用混合模型取代了高斯模型,可以对多模态后验输出分布建模。
大规模基于视觉的位置识别问题要求快速准确地识别给定查询照片的位置。NetVLAD是一种CNN架构中的一层,帮助整个架构直接以端到端的方式用于位置识别。其主要组成部分是一个通用“局部聚合描述子向量”(VLAD,Vector of Locally Aggregated Descriptors)层,受到图像检索中特征描述子池化法VLAD的启发。该层可以很容易地插入任何CNN架构中,并且可以通过反向传播(BP)进行训练。根据一个定义的弱监督排名损失(ranking loss)可以训练从谷歌街景时间机(Google Street View Time Machine)下载的相同位置的图像,以端到端的方式学习该架构参数。
如图是带NetVLAD层的CNN结构。该层用标准CNN层(卷积,softmax,L2归一化)和一个易于实现的聚合层NetVLAD来实现“VLAD核”聚合,可在有向无环图(DCG)中连接。
给定N个D-维局部图像特征描述符{xi}作为输入,将K个聚类中心(“视觉词”){ck}作为VLAD参数,输出VLAD图像表示V是K×D维矩阵。该矩阵可转换为矢量,归一化后可作为图像表示。V的(j,k)元素计算如下:
其中xi(j)和ck(j)分别是第i个特征描述符和第k个聚类中心的第j维。ak(xi)将描述符xi的成员资格记录为第k个视觉单词,即如果集群ck是最接近解释xi的集群则为1,否则为0。
VLAD的不连续性源来自描述符xi到聚类中心ck的硬分布ak(xi)。为了使之可微分,将其替换为描述子的多个聚类软分配,即
将上式的平方项展开,很容易看出exp()项在分子和分母之间消掉,导致如下软分配
其中向量wk和标量bk
这样最终的“VLAD核”聚合公式变成
其中{wk},{bk}和{ck}是每个群集k的可训练参数集。
在VLAD编码,来自不同图像但划归同一聚类的两个特征描述子对两个图像之间相似性测度的贡献是残差向量之间的标量积,其中残差向量是描述符与聚类锚点(anchor point)之间的差。锚点ck可以被解释为特定聚类k的新坐标系原点。在标准VLAD中,锚点被选为聚类中心(×),以便数据库中的残差均匀分布。然而如图所示,在监督学习设置中,来自不匹配图像的两个描述子可以学习更好的锚点,使新残差向量之间的标量积很小。
伯克利分校提出的一个用于多视角立体视觉的深度学习系统,即学习立体视觉机(LSM)。与最近其他一些基于学习的3D重建方法相比,沿着观察光线做特征投影和反投影,它利用了问题的基础3D几何关系。通过可微分地定义这些操作,能够端到端地学习用于量度3D重建任务的系统。这种端到端学习能够在符合几何约束的同时共同推理形状的先验知识,能够比传统方法需要更少的图像(甚至单个图像)进行重建以及完成看不见的表面。
如图是LSM概述:一个或多个视图和摄像头姿态作为输入;通过特征编码器处理图像,然后使用可微分的反投影操作将其投影到3D世界坐标系中。
如图给出1D图和2D网格之间的投影和反投影示意图。(a)投影操作沿光线以等间隔z值采样值到1D图像中。在z平面的采样特征堆叠成通道形成投影的特征图。(b)反投影操作从特征图(1-D)中获取特征,并沿光线放置在相应与之相交的网格块。
然后,以递归方式匹配这些网格G以产生融合网格Gp,这里采用的是门控递归单元(GRU)模型。接着,通过3D CNN将其转换为Go。最后,LSM可以产生两种输出 - 从Go解码的体素占有网格(体素 LSM)或在投影操作之后解码的每视角的深度图(深度LSM)。
下图给出V-LSM的一些结果,
如图给出D-LSM的一些例子。
DeepMVS是一种用于多视角立体视觉(MVS)重建的深度卷积神经网络(ConvNet)。将任意数量各种姿态的图像作为输入,首先产生一组平面扫描体积(plane-sweep volumes),并使用DeepMVS网络来预测高质量的视差图。其关键特点是(1)在照片级真实感的合成数据集上进行预训练;(2)在一组无序图像上聚合信息的有效方法;(3)在预训练的VGG-19网络集成多层特征激活函数。使用ETH3D基准验证了DeepMVS的功效。
算法流程分四步。首先,预处理输入图像序列,然后生成平面扫描容积(plane-sweep volumes)。接着,网络估计平面扫描容积的视差图,最后细化结果。如图所示。
下面两个图分别显示带超参数的DeepMVS体系结构。整个网络分三部分:1)补丁匹配(patch matching)网络,2)容积内特征聚合(intra volume feature aggregation)网络,3)容积之间特征聚合(inter volume feature aggregation)网络。除了最后一层,网络中所有卷积层都跟着一个可缩放指数线性单元(Scaled Exponential Linear Unit ,SELU)层。
为了进一步改进性能,将全连通条件随机场(DenseCRF)应用到视差预测结果。
给定参考图像I1和一组其相邻图像{Ii} Ni = 2,MVSNet提出了一种端到端深度神经网络来推断参考深度图D。在其网络中,首先通过2D网络从输入图像中提取深度图像特征{ Fi} Ni = 1。然后,通过可微分的单应性(Homography)变换将2D图像特征变形到参考相机坐标系,这样在3D空间中构建特征容积{Vi} Ni = 1。为了处理任意N视角图像输入,基于方差的成本测度将N个特征容积映射到一个成本容积C。与其他立体视觉和MVS算法类似,MVSNet使用多尺度3D CNN正则化成本容积,并通过软argmin 操作回归参考深度图D。在MVSNet末端应用一个细化网络进一步增强预测深度图的性能。由于在特征提取期间缩小了深度图像特征{Fi} Ni = 1,因此输出深度图大小是每个维度中原始图像大小的1/4。
MVSNet在DTU数据集以及Tanks and Temples数据集的中间集展示了最先进的性能,其中包含具有“从外看里”的摄像头轨迹和小深度范围的场景。但是,用16 GB内存 Tesla P100 GPU卡,MVSNet只能处理H×W×D = 1600×1184×256的最大重建尺度,并且会在较大的场景中失败,即Tanks and Temples的高级集合。
如图是MVSNet网络设计图。输入图像通过2D特征提取网络和可微分单应性变形生成成本容积。从正则化的概率容积回归最终的深度图输出,并且用参考图像细化。
下图是推断的深度图、概率分布和概率图。(a)DTU数据集的一个参考图像; (b)推断的深度图; (c)内点像素(顶部)和出格点像素(底部)的概率分布,其中x轴是深度假设索引,y轴是概率,红色线是软argmin结果; (d)概率图。
MVS方法的一个主要限制是可扩展性:耗费内存的成本容积(cost volume)正则化使得学习的MVS难以应用于高分辨率场景。Recurrent MVSNet是一种基于递归神经网络的可扩展多视角立体视觉框架。递归多视角立体视觉网络(R-MVSNet)不是一次性正则化整个3-D成本容积,而是通过门控递归单元(GRU)网络串行地沿深度值方向正则化2-D成本图。这大大减少了内存消耗,并使高分辨率重建成为可能。
下图比较了不同正则化方案的策略。一次性全局正则化成本容积C的替代方案是串行地沿深度方向处理成本容积。最简单的顺序方法是赢家通吃(WTA)的平面扫描(plane sweeping)立体视觉法,它粗略地用较好的值替换逐像素深度值,因此受到噪声的影响(如图(a))。为此,成本聚合法过滤不同深度的匹配成本容积C(d)(如图(b)),以便收集每个成本估算的空间上下文信息。遵循串行处理的思想,这里采用一种基于卷积GRU的更强大的递归正则化方案。该方法能够在深度方向上收集空间和单向上下文信息(如图(c)),与全空间3D CNN(如图(d))相比,这实现了差不多的正则化结果,但是 运行时内存更加有效。
下图是R-MVSNet的框图介绍。从输入图像中提取深度图像特征,然后将其变形到参考相机坐标系的前向平行平面。在不同深度处计算成本图并由卷积GRU串行地正则化处理。网络被训练为具有交叉熵(cross-entropy)损失的分类问题。
如图是R-MVSNet的重建流水线直观图:(a)DTU图像;(b)来自网络的初始深度图;(c)最终深度图估计;(d)基础事实深度图;(e)输出点云;(f)深度图滤波的概率估计图;(g)初始深度图的梯度图;(h)细化后的梯度图。
1. Kendall A, Grimes M, Cipolla R. “Posenet: A convolutional network for real-time 6-dof camera relocalization”,IEEE ICCV. 2015
2. Li X, Belaroussi R. “Semi-Dense 3D Semantic Mapping from Monocular SLAM”. arXiv 1611.04144, 2016.
3. J McCormac et al. “SemanticFusion: Dense 3D semantic mapping with convolutional neural networks”. arXiv 1609.05130, 2016
4. R Arandjelovic et al. “NetVLAD: CNN architecture for weakly supervised place recognition”, CVPR 2016
5. B Ummenhofer et al., "DeMoN: Depth and Motion Network for Learning Monocular Stereo", CVPR 2017
6. R Li et al. “UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning”. arXiv 1709.06841, 2017.
7. S Wang et al.,“DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks”, arXiv 1709.08429, 2017
8. R Clark et al. "VidLoc: 6-doF video-clip relocalization". arXiv 1702.06521,2017
9. R Clark et al. "VINet: Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem." AAAI. 2017
10. D DeTone, T Malisiewicz, A Rabinovich. “Toward Geometric Deep SLAM”. arXiv 1707.07410, 2017.
推荐阅读
-
基于图像的三维物体重建:深度学习时代的最新技术和训练趋势概览
-
最新回顾:深度学习图像三维重建的最新方法和未来趋势
-
利用深度学习进行基于图像的三维重建的最新进展综述
-
深度学习背景下的图像三维重建技术进展综述
-
三维环境重建中的深度学习
-
三维深度学习总结(聚焦三维深度学习的现在与未来)
-
[姿势估计] 实践记录:使用 Dlib 和 mediapipe 进行人脸姿势估计 - 本文重点介绍方法 2):方法 1:基于深度学习的方法:。 基于深度学习的方法:基于深度学习的方法利用深度学习模型,如卷积神经网络(CNN)或递归神经网络(RNN),直接从人脸图像中学习姿势估计。这些方法能够学习更复杂的特征表征,并在大规模数据集上取得优异的性能。方法二:基于二维校准信息估计三维姿态信息(计算机视觉 PnP 问题)。 特征点定位:人脸姿态估计的第一步是通过特征点定位来检测和定位人脸的关键点,如眼睛、鼻子和嘴巴。这些关键点提供了人脸的局部结构信息,可用于后续的姿势估计。 旋转表示:常见的旋转表示方法包括欧拉角和旋转矩阵。欧拉角通过三个旋转角度(通常是俯仰、偏航和滚动)描述头部的旋转姿态。旋转矩阵是一个 3x3 矩阵,表示头部从一个坐标系到另一个坐标系的变换。 三维模型重建:根据特征点的定位结果,三维人脸模型可用于姿势估计。通过将人脸的二维图像映射到三维模型上,可以估算出人脸的旋转和平移信息。这就需要建立人脸的三维模型,然后通过优化方法将模型与特征点对齐,从而获得姿势估计结果。 特征点定位 特征点定位是用于检测人脸关键部位的五官基础部分,还有其他更多的特征点表示方法,大家可以参考我上一篇文章中介绍的特征点检测方案实践:人脸校正二次定位操作来解决人脸校正的问题,客户在检测关键点的代码上略有修改,坐标转换部分客户见上图 def get_face_info(image). img_copy = image.copy image.flags.writeable = False image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) results = face_detection.process(image) # 在图像上绘制人脸检测注释。 image.flags.writeable = True image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) box_info, facial = None, None if results.detections: for detection in results. for detection in results.detections: mp_drawing.Drawing.detection = 无 mp_drawing.draw_detection(image, detection) 面部 = detection.location_data.relative_keypoints 返回面部 在上述代码中,返回的数据是五官(6 个关键点的坐标),这是用 mediapipe 库实现的,下面我们可以尝试用另一个库:dlib 来实现。 使用 dlib 使用 Dlib 库在 Python 中实现人脸关键点检测的步骤如下: 确保已安装 Dlib 库,可使用以下命令: pip install dlib 导入必要的库: 加载 Dlib 的人脸检测器和关键点检测器模型: 读取图像并将其灰度化: 使用人脸检测器检测图像中的人脸: 对检测到的人脸进行遍历,并使用关键点检测器检测人脸关键点: 显示绘制了关键点的图像: 以下代码将参数 landmarks_part 添加到要返回的关键点坐标中。
-
PointNet:基于深度学习的三维点云分类和分割模型详情
-
41 个下载免费 3D 模型的最佳网站-使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 17. Clara.io Clara.io 是一个创建 3D 内容的全球平台,也是一个培养新 3D 艺术家的社区。Clara.io 提供+100,000个免费的3D模型,包括OBJ,Blend,STL,FBX,DAE,Babylon.JS,Three.JS格式,用于 Clara.io,Unity 3D,Blender,Sketchup,Cinema 4D,3DS Max和Maya。 使用说明:免费,标准和专业帐户仅供个人使用,如果您需要将 clara.io 用于商业用途,请与销售团队联系。 18. 3DExport 3DExport是一个市场,您可以在其中购买和销售用于CG项目的3D模型,3D打印模型和纹理。它提供15 +不同的3D格式供下载,如3DS MAX(.max),Cinema4D(.c4d),Maya(.mb,.ma),Lightwave(.lwo),Softimage(.xsi),Wavefront OBJ(.obj),Autodesk FBX(.fbx)等。它还提供15种不同的语言! 使用说明:免费下载仅供个人和非商业用途。 19. 3D Warehouse 3D Warehouse是一个开放的库,允许用户共享和下载SketchUp 3D模型,用于建筑,设计,施工和娱乐!任何人都可以免费制作,修改和重新上传内容到3D仓库,您可以找到任何您能想到的东西,如家具,电子产品,室内产品等。 使用说明:3D Warehouse中的所有模型都是免费的,因此任何人都可以下载文件以用于SketchUp甚至其他软件,如AutoCAD,Revit和ArchiCAD。 20. CadNav.com CadNav是CGI平面设计师和CAD / CAM / CAE工程师的在线3D模型库,我们提供超过50000 +免费3D模型和CAD模型下载。在CadNav网站上,您可以下载高质量的多边形网格3D模型,3D CAD实体对象,纹理,Vray材料,3D作品,CAD图纸等。 使用说明:免费下载仅供个人和非商业用途。 21. All3dfree.net 就像网站名称一样,它提供免费的3D模型,还包括Vray材料,CAD块,2d和3d纹理集合,无需注册即可免费下载。它是不断更新的,因此您可以查找或请求3DS,MAX,C4D,skp,OBJ,FBX,MTL等格式的模型。 使用说明:所有资源均不允许用于商业用途,否则您将承担责任。 22. Hum3D 自2005年以来,Hum3D帮助来自3多个国家的80D艺术家节省3D建模时间,并制作逼真的3D模型,用于电影,视频游戏,AR应用程序和可视化。所有模型均由首席3D艺术家进行验证,他们检查其是否符合专业要求和最新的3D建模标准。 使用说明:免费下载仅供个人和非商业用途。 23. Artist-3D.com 艺术家-3D 库存的免费 3D 模型下载按通用类别排序。它为人体解剖学、汽车、家具、火箭、卫星等模型提供 AutoDesk 3DS Max 格式。您还可以在浏览他们的网站时找到教程和类似类型的建模。 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 24. Free the models 就像本网站的标题一样,它为3d应用程序和3d游戏引擎提供免费的内容模型。您可以为您的任何项目找到许多有趣且有用的模型!它提供3ds,wavefront,bryce,poser,lightwave,md2和unity3d格式的模型。还有一个很棒的纹理集合,可以在您最喜欢的建模和渲染程序中使用。 使用说明:您从这里下载的所有内容都可以免费使用,除非它不能包含在另一个免费的网络或CD收藏中,也不能单独出售。否则,您可以在商业游戏,3D应用程序或渲染作品中使用它。您不必提供信用,但如果您这样做,那就太好了。 25. Resources.blogscopia 本网站由一家名为Scopia的公司创建。他们制作3D图像和视频,您可以找到许多为CGI工作的信息架构设计的模型,所有这些都可以在现实生活中使用。您可以免费下载它们,但是,如果您想一次下载它们,您可以支付 3 到 9 欧元。 使用说明:您可以免费下载模型部分的所有文件。每个压缩文件都包含您也可以在此处找到的许可证。基本上,您可以对文件执行任何操作。唯一的限制是不归属于Scopia的重新分发。 26.ambientCG 1000+公共领域PBR材料适合所有人!环境CG是使用许多不同的方法和资产类型创建的,例如照片纹理(PBR),贴花(PBR),图集(PBR),照片纹理(普通),物质存档(SBSAR),雕刻画笔,3D模型和地形。您可以在所有项目中*使用它们! 使用说明:在 ambientCG 上提供下载的所有 PBR 材料、画笔、照片和 3D 模型均根据知识共享 CC0 1.0 通用许可提供。您可以复制、修改、分发和执行作品,即使是出于商业目的,也无需征得许可。信用将不胜感激。 不要满足于平庸的大理石纹理 - 立即使用我们的免费PBR大理石纹理升级您的3D设计。 27.Pixar One Twenty Eight 这是一个提供官方动画行业经典纹理的网站:皮克斯,创建于 1993 年,该纹理库包括 128 个重复纹理,现在免费提供。 它包含您来到的纹理,包括砖块和动物毛皮。肯定会有一些你可以使用的东西。 使用说明:皮克斯动画工作室的《Pixar One Twenty Eight》根据知识共享署名4.0国际许可协议进行许可。即使出于商业目的,您也可以重新混合、调整和构建您的作品,只要您以相同的条款对新创作进行信用和许可。 访问数以千计的免费纹理并提升您的设计游戏 - 立即开始下载! 28. 3DXO 即使有近 620 个免费贴纸可供下载,3DXO 也不是最大的资源,但它的内容非常有用,不需要注册。无论是简单的墙壁或地板,还是一些奇怪的小东西,您都需要的纹理都可以在此网站上看到。 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 29. 3DModelsCC0 3DModelsCC0 与其他产品的不同之处在于它包含超过 250+ 个高质量 3D 模型,并且本网站上的所有内容都是免费的,完全是公共领域!使用我们的模型时无需信用或归属! 使用说明:为每个人提供完全免费的公共领域内容。 30.Sketch up texture club Sketchup Texture Club是一个非营利性的教育和信息门户网站,由3D社区的图像促进协会管理,特别强调面向学生和建筑和室内设计专业人士的可视化和渲染技术,以及所有正在学习3D可视化的人。 使用说明:您无需支付版税或使用费。纹理可以免费下载和使用。不允许将纹理作为竞争产品出售或重新分发,即使图像被修改也是如此。 31. FlippedNormals FlippedNormal 是一个提供计算机图形和 3D 资产的市场,您可以找到许多用于雕刻、建模、纹理、概念艺术、3D 模型、游戏资产或课程的高级资产! 使用说明:使用权限可能因型号而异。因此,在下载文件之前,请仔细检查每个下载页面上的许可证和使用权限。 32. NASA 3D NASA 3D网站是一个在线门户,提供与太空和各种NASA任务相关的大量三维模型和模拟。该网站是用户友好的,并提供有关每个型号的详细信息。该网站允许用户探索和下载几种不同格式的模型,包括 OBJ、STL 和 FBX,只需单击下载按钮即可。 使用说明: 要下载模型,只需单击模型页面上的下载按钮并选择所需的格式。 33. 3DAGOGO (Astroprint) 3DAGOGO 是一个提供广泛 3D 模型的网站,包括角色、车辆和建筑物。3DAGOGO 的独特功能之一是它专注于适合 3D 打印的模型,使其成为希望创建物理原型或模型的设计师的绝佳资源。要使用 3DAGOGO,设计师只需在网站上搜索他们正在寻找的模型类型,然后下载 STL 格式的文件。 使用说明: 要使用 3DAGOGO,只需搜索所需的 3D 模型类型并下载 STL 格式的文件。根据需要自定义模型,并确保在将其用于商业目的之前检查使用权限。 34. FreeCAD FreeCAD是一款了不起的3D建模软件,可让您在计算机上创建令人难以置信的3D设计。该软件可免费下载和使用,它提供了广泛的工具和功能,可用于创建用于各种目的的3D模型。 该网站易于浏览,您可以找到开始使用FreeCAD的所有必要信息。此外,该网站还提供一系列教程和指南,可帮助您了解 3D 建模的来龙去脉。 使用说明: 要下载模型,请访问网站并从库中选择所需的模型。该网站还提供了一系列使用该软件的教程和指南。 35. Pinshape Pinshape是一个提供一系列3D打印模型的网站。网站上提供的型号质量很高,因此您可以确保您的最终印刷产品看起来很棒。该网站提供了广泛的模型,包括从家居用品到小雕像和珠宝的所有物品。 但这还不是Pinshape所能提供的全部!该网站还允许用户上传和共享自己的3D模型。这意味着您不仅可以下载出色的模型,还可以通过分享自己的设计为社区做出贡献。此外,Pinshape 提供了一系列自定义选项,因此您可以调整和调整模型以满足您的特定需求。 使用说明: 要下载模型,请在网站上创建一个帐户,搜索所需的模型,然后单击下载按钮。该网站还为每种型号提供了一系列定制选项。 36.Yeggi Yeggi 提供了大量免费的 3D 模型,您可以下载各种格式的模型,例如 STL、OBJ 和 FBX。该网站易于使用,您可以按关键字、类别或特定网站搜索模型。 Yeggi 对于任何寻找 3D 模型的人来说都是一个很好的资源。它提供了大量的模型集合,从日常物品到复杂的机械,以及介于两者之间的一切。该网站的收藏量在不断增长,每天都有新的型号增加。 使用说明: 要下载模型,请在网站上搜索所需的模型,然后单击下载按钮。该网站还提供指向托管模型的原始网站的链接。 37. Open3DModel 来自开放3D模型的图像 Open3DModel具有各种类别的模型,包括建筑,车辆和角色。无论您需要建筑物,汽车还是人的3D模型,都可以在此网站上找到。 该网站易于浏览,您可以按类别或关键字搜索模型。每个模型都附带预览图像和详细信息,例如文件格式、大小和多边形数量。此信息可以帮助您选择适合您需求的模型。 使用说明: 要下载模型,请访问网站,从库中选择所需的模型,然后单击下载按钮。 使用最好的 3D 资产管理工具简化您的 3D 制作流程。立即试用它们,将您的 3D 项目提升到一个新的水平! 38. 3DExport 对于那些为其 3D 设计项目寻找 3D 模型、纹理和其他资源的人来说,该平台是一个很好的资源。该网站有大量模型可供选择,包括 3D 打印对象、游戏资产等。用户可以按类别、文件格式或价格范围浏览,以找到适合其项目的完美资源。此外,3DExport 还提供一系列教程和其他 3D 资源,以帮助用户提高技能并创建更令人印象深刻的设计。 使用说明: 要使用 3DExport,只需创建一个帐户并浏览可用型号。您可以按类别、格式和价格进行搜索,以找到所需的型号。找到喜欢的模型后,只需下载它并开始在您的项目中使用它。 39.Blend Swap Blend Swap是一个社区驱动的市场,提供与Blender软件兼容的各种免费3D模型。该平台允许用户共享和下载模型、纹理和其他资产,以便在他们的项目中使用。 使用说明: 创建免费帐户后,您可以浏览社区上传的大量3D模型。当您找到要使用的一个时,只需下载它并将其导入您选择的 3D 软件即可。 40. 3DShook 3DShook 是一个高级 3D 模型市场,提供一系列用于建筑、游戏等各个行业的高质量模型。该平台提供基于订阅的模型,具有不同的定价计划,允许用户访问一系列模型。 使用说明: 注册免费帐户后,只需浏览3D模型库,选择您喜欢的模型,然后以您需要的格式下载它们。 41. Smithsonian X 3D 史密森尼 X 3D 对于正在寻找历史文物和文物的高质量 3D 模型的设计师来说,这是一个独特的资源。该平台提供了大量3D模型,这些模型是根据史密森尼博物馆和研究中心中的真实物体扫描创建的。 使用说明:
-
图像三维重建:深度学习驱动的技术进展概览
-