有关深度学习图像数据集的关键问题和注意事项
最编程
2024-04-27 12:33:42
...
现阶段图像数据集的主要问题和思考
最近在协助别人搞目标检测这一块研究,但数据集都跑了好多次效果都不是很好,于是我查阅相关的一些相关的文献资料,总结了现阶段图像数据集的主要问题和思考,做个备忘以后写论文好写展望等那块的内容,如下:
**1、**特定性:许多论文中大多数数据集是为特定任务建立的,缺乏通用性。
**2、**数据量:数据集的体积通常较小,许多就几千张甚至几十张,只有少部分可以达到数万图像的规模,这使得模型不具备一定的泛化性。
**3、**背景简单:特别是在实验室环境下收集的数据集,背景通常很简单,这导致在复杂的非结构化农田环境中深度学习的泛化能力不足。
**4、**数据集差异:每个数据集在相机配置、采集平台、采集周期、地面采样分辨率、图像类型等方面都有所不同,导致数据集在不同任务之间的适应性不足。
**5、**类别不平衡:某些数据集中不同类别的图像不平衡,可能导致偏见的准确性。
**6、**时空限制:大多数数据集在时间和空间上有限制,这意味着数据集中的图像只包含短期局部区域的信息。
**7、**采集方法单一:垂直向下是最常见的采集方法,缺乏对同一目标的多角度表现。
**8、**采集平台单一:手持相机、地面农业机器人和无人机是收集农场图像的最常见平台,但它们的组合使用很少。
目前这些局限性,以后看到新的再补充过来~
推荐阅读
-
有关深度学习图像数据集的关键问题和注意事项
-
深度学习 - 植物和作物图像数据集大集合
-
[姿势估计] 实践记录:使用 Dlib 和 mediapipe 进行人脸姿势估计 - 本文重点介绍方法 2):方法 1:基于深度学习的方法:。 基于深度学习的方法:基于深度学习的方法利用深度学习模型,如卷积神经网络(CNN)或递归神经网络(RNN),直接从人脸图像中学习姿势估计。这些方法能够学习更复杂的特征表征,并在大规模数据集上取得优异的性能。方法二:基于二维校准信息估计三维姿态信息(计算机视觉 PnP 问题)。 特征点定位:人脸姿态估计的第一步是通过特征点定位来检测和定位人脸的关键点,如眼睛、鼻子和嘴巴。这些关键点提供了人脸的局部结构信息,可用于后续的姿势估计。 旋转表示:常见的旋转表示方法包括欧拉角和旋转矩阵。欧拉角通过三个旋转角度(通常是俯仰、偏航和滚动)描述头部的旋转姿态。旋转矩阵是一个 3x3 矩阵,表示头部从一个坐标系到另一个坐标系的变换。 三维模型重建:根据特征点的定位结果,三维人脸模型可用于姿势估计。通过将人脸的二维图像映射到三维模型上,可以估算出人脸的旋转和平移信息。这就需要建立人脸的三维模型,然后通过优化方法将模型与特征点对齐,从而获得姿势估计结果。 特征点定位 特征点定位是用于检测人脸关键部位的五官基础部分,还有其他更多的特征点表示方法,大家可以参考我上一篇文章中介绍的特征点检测方案实践:人脸校正二次定位操作来解决人脸校正的问题,客户在检测关键点的代码上略有修改,坐标转换部分客户见上图 def get_face_info(image). img_copy = image.copy image.flags.writeable = False image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) results = face_detection.process(image) # 在图像上绘制人脸检测注释。 image.flags.writeable = True image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) box_info, facial = None, None if results.detections: for detection in results. for detection in results.detections: mp_drawing.Drawing.detection = 无 mp_drawing.draw_detection(image, detection) 面部 = detection.location_data.relative_keypoints 返回面部 在上述代码中,返回的数据是五官(6 个关键点的坐标),这是用 mediapipe 库实现的,下面我们可以尝试用另一个库:dlib 来实现。 使用 dlib 使用 Dlib 库在 Python 中实现人脸关键点检测的步骤如下: 确保已安装 Dlib 库,可使用以下命令: pip install dlib 导入必要的库: 加载 Dlib 的人脸检测器和关键点检测器模型: 读取图像并将其灰度化: 使用人脸检测器检测图像中的人脸: 对检测到的人脸进行遍历,并使用关键点检测器检测人脸关键点: 显示绘制了关键点的图像: 以下代码将参数 landmarks_part 添加到要返回的关键点坐标中。
-
深度学习 - 植物和作物图像数据集大集合
-
集合 90+ 深度学习开源数据集的机构:包括目标检测、工业缺陷、图像分割等方向(附下载)
-
基于深度学习和迁移学习的花朵识别实践 - 利用 VGG16 深度网络结构中的五轮卷积网络层和池化层,得到每幅图像的 4096 维特征向量,然后直接用该特征向量替换原始图像,再添加若干层全连接神经网络训练花朵数据集(属于模型迁移)。 训练集(属于模型迁移)
-
集合 90+ 深度学习开源数据集的机构:包括目标检测、工业缺陷、图像分割等方向(附下载)
-
基于 YOLOv8/YOLOv7/YOLOv6/YOLOv5 的癌症图像检测系统(深度学习模型 + UI 界面代码 + 训练数据集) - 结论
-
DeepShip-它由四个类别的265艘不同船只的47小时4分钟的真实世界水下录音组成。建议的数据集包括全年不同海况和噪音水平的记录。所提供的数据集不仅有助于评估现有算法的性能,而且还将使研究团体在未来受益。使用提出的数据集,我们还对六种基于时频提取特征的各种机器学习和深度学习算法进行了全面研究。此外,我们提出了一种新的基于可分离卷积的自编码器网络,以提高分类精度。对比分类准确率、精密度、查全率、fl-score等方面的实验结果,并进行配对抽样统计测试,结果表明,基于CQT特征的网络分类准确率达到77.53%,优于其他方法。 1.Introduction 近年来,由于水声分类在海洋船舶分类和探测、测量这些船舶的声音对环境的影响、退出船设计和海洋生物分类等方面的应用,引起了广泛的关注(Erbe et al., 2019;Malfante, Mars, Dalla Mura, & Gervaise, 2018)。复杂的水下环境、背景噪声、声音数据的频率依赖性吸收和散射等因素使其成为一个具有挑战性的领域(Erbe et al., 2019)。此外,螺旋桨、发动机和隐形船体技术的改进使该领域更具挑战性(Khishe &摩萨维,2020 年)。