自动驾驶:激光雷达三维传感器点云数据和二维图像数据的融合注释--三维到二维的投影
硬件
我们从Motional提供的最全面的开源数据集开始:nuScenes数据集。它包括六个摄像头,前面三个,后面三个。捕获频率为12 Hz。像素分辨率为1600x900。图像编码为每个像素一个字节,为jpeg。相机数据以每个相机镜头1.7MB / s的速度生成。一个激光雷达被放置在汽车顶部。激光雷达的捕获频率为20 Hz。它具有32个通道(光束)。它的垂直视场为-30度到+10度。它的范围是100米。其精度为2厘米。它每秒可以收集多达140万个点。输出格式为.pcd。激光雷达的输出数据速率为26.7MB / s(20byte * 1400000)。
数据集页面:https://www.nuscenes.org/overview
论文URL:https://arxiv.org/pdf/1903.11027.pdf
Devkit网址:https://github.com/nutonomy/nuscenes-devkit
参考系和坐标系
为了使传感器同步,必须定义一个世界(全局)坐标系。每个传感器仪器都有自己的参考系和坐标系。
激光雷达拥有自己的参考系和坐标系L1,
每个摄像机都有自己的参考系和坐标系C1,C2,C3,C4,C5,C6。IMU具有自己的参考系和坐标系I1。
为了此处的讨论目的,自主车辆参照系与激光雷达参照系相同。
定义世界参考系和坐标系
世界参考系(W1)是全局参考系。例如,可以选择激光雷达的第一帧作为世界坐标系的中心(0,0,0)。随后,激光雷达的每一帧图像将被转换回世界坐标系统。摄像机矩阵M1, M2, M3, M4, M5, M6将从每个摄像机坐标系统C1, C2, C3, C4, C5, C6转换回世界坐标系统W1。
将3D点云数据转换为世界坐标系
通过与自我框架平移和旋转矩阵相乘,激光雷达参考系(L1)中的每个框架都将转换回世界坐标系。
从世界坐标系转换为相机坐标系
下一步是通过与摄影机旋转和平移矩阵相乘,将数据从世界参照系转换为摄影机参照系。
从3D相机坐标系转换为2D相机框
一旦数据进入相机参考框架,就需要将其从3D相机参考框架投影到2D相机传感器平面。这是通过与相机固有矩阵相乘来实现的。
结果:准确的标注
激光雷达点云数据和相机数据的融合使注释者可以利用视觉信息和深度信息来创建更准确的标注
推荐阅读
-
[姿势估计] 实践记录:使用 Dlib 和 mediapipe 进行人脸姿势估计 - 本文重点介绍方法 2):方法 1:基于深度学习的方法:。 基于深度学习的方法:基于深度学习的方法利用深度学习模型,如卷积神经网络(CNN)或递归神经网络(RNN),直接从人脸图像中学习姿势估计。这些方法能够学习更复杂的特征表征,并在大规模数据集上取得优异的性能。方法二:基于二维校准信息估计三维姿态信息(计算机视觉 PnP 问题)。 特征点定位:人脸姿态估计的第一步是通过特征点定位来检测和定位人脸的关键点,如眼睛、鼻子和嘴巴。这些关键点提供了人脸的局部结构信息,可用于后续的姿势估计。 旋转表示:常见的旋转表示方法包括欧拉角和旋转矩阵。欧拉角通过三个旋转角度(通常是俯仰、偏航和滚动)描述头部的旋转姿态。旋转矩阵是一个 3x3 矩阵,表示头部从一个坐标系到另一个坐标系的变换。 三维模型重建:根据特征点的定位结果,三维人脸模型可用于姿势估计。通过将人脸的二维图像映射到三维模型上,可以估算出人脸的旋转和平移信息。这就需要建立人脸的三维模型,然后通过优化方法将模型与特征点对齐,从而获得姿势估计结果。 特征点定位 特征点定位是用于检测人脸关键部位的五官基础部分,还有其他更多的特征点表示方法,大家可以参考我上一篇文章中介绍的特征点检测方案实践:人脸校正二次定位操作来解决人脸校正的问题,客户在检测关键点的代码上略有修改,坐标转换部分客户见上图 def get_face_info(image). img_copy = image.copy image.flags.writeable = False image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) results = face_detection.process(image) # 在图像上绘制人脸检测注释。 image.flags.writeable = True image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) box_info, facial = None, None if results.detections: for detection in results. for detection in results.detections: mp_drawing.Drawing.detection = 无 mp_drawing.draw_detection(image, detection) 面部 = detection.location_data.relative_keypoints 返回面部 在上述代码中,返回的数据是五官(6 个关键点的坐标),这是用 mediapipe 库实现的,下面我们可以尝试用另一个库:dlib 来实现。 使用 dlib 使用 Dlib 库在 Python 中实现人脸关键点检测的步骤如下: 确保已安装 Dlib 库,可使用以下命令: pip install dlib 导入必要的库: 加载 Dlib 的人脸检测器和关键点检测器模型: 读取图像并将其灰度化: 使用人脸检测器检测图像中的人脸: 对检测到的人脸进行遍历,并使用关键点检测器检测人脸关键点: 显示绘制了关键点的图像: 以下代码将参数 landmarks_part 添加到要返回的关键点坐标中。
-
自动驾驶:激光雷达三维传感器点云数据和二维图像数据的融合注释--三维到二维的投影