有关深度学习图像数据集的关键问题和注意事项

最编程 2024-04-27 12:33:42

...

现阶段图像数据集的主要问题和思考

最近在协助别人搞目标检测这一块研究，但数据集都跑了好多次效果都不是很好，于是我查阅相关的一些相关的文献资料，总结了现阶段图像数据集的主要问题和思考，做个备忘以后写论文好写展望等那块的内容，如下：

**1、**特定性：许多论文中大多数数据集是为特定任务建立的，缺乏通用性。

**2、**数据量：数据集的体积通常较小，许多就几千张甚至几十张，只有少部分可以达到数万图像的规模，这使得模型不具备一定的泛化性。

**3、**背景简单：特别是在实验室环境下收集的数据集，背景通常很简单，这导致在复杂的非结构化农田环境中深度学习的泛化能力不足。

**4、**数据集差异：每个数据集在相机配置、采集平台、采集周期、地面采样分辨率、图像类型等方面都有所不同，导致数据集在不同任务之间的适应性不足。

**5、**类别不平衡：某些数据集中不同类别的图像不平衡，可能导致偏见的准确性。

**6、**时空限制：大多数数据集在时间和空间上有限制，这意味着数据集中的图像只包含短期局部区域的信息。

**7、**采集方法单一：垂直向下是最常见的采集方法，缺乏对同一目标的多角度表现。

**8、**采集平台单一：手持相机、地面农业机器人和无人机是收集农场图像的最常见平台，但它们的组合使用很少。

目前这些局限性，以后看到新的再补充过来~