欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

基于深度学习的手写数字和符号识别系统(网络版 + YOLOv8/v7/v6/v5 代码 + 训练数据集)

最编程 2024-05-19 12:44:23
...

5.2 混淆矩阵

        混淆矩阵是评估分类模型性能的重要工具,尤其在多类别识别任务中。上图显示了在我们的手写数字和符号识别任务中使用深度学习模型的性能结果。这个混淆矩阵已经被归一化,因此每个单元格的值表示在所有真实标签中的比例,为我们提供了预测标签与真实标签之间的精确对应关系。

        首先,可以明显看出,对于大多数类别,模型都能以极高的准确度进行正确预测。数字“1”、“4”、“5”、“7”、“8”、“9”及符号“div”和“equals”都显示出接近完美的准确率,这意味着模型能够非常准确地识别这些类别的大多数实例。这些高数值反映了模型的强大识别能力,特别是在不同的手写风格和符号形状之间进行区分时。

        对于其他一些类别,如数字“0”、“2”、“3”、“6”以及符号“minus”和“plus”,虽然也表现出高度的准确率,但出现了少量的误分类。例如,“0”有少许被误识别为“minus”,而“2”则有微小比例误判为“3”。这些误分类可能是由于手写风格中的相似性,比如某些“0”写得过于狭窄,从而与“-”符号相混淆。

        有趣的是,模型对“background”类别的误判率相对较高,这表明在没有目标的背景区域进行正确分类上,模型可能存在一定的挑战。这可能是因为模型在试图寻找并识别复杂背景中的手写数字或符号时,容易出现“看多了”的现象。
        在深入分析这些结果时,应考虑手写识别的特殊性。手写数字和符号因个体差异而有广泛的变化,这使得模型对于某些模糊或不规则形状的识别变得更具挑战性。此外,训练数据的质量、多样性和代表性也会对模型性能产生重要影响。如果训练数据中包含的变体不够多样,或者某些手写风格的示例数量不足,那么模型可能在这些较少见的情况下表现不佳。

        总结而言,混淆矩阵的分析表明我们的模型在手写数字和符号的识别任务上具有优秀的整体性能,尽管在某些特定情况下仍有改进的空间。未来的工作可以集中在进一步优化模型以更好地处理背景类别的识别,以及提高对于某些容易混淆类别的区分能力。此外,进一步丰富训练数据集,尤其是那些容易引起混淆的类别,将是提升模型性能的关键。

5.3 YOLOv8/v7/v6/v5对比实验

(1)实验设计
        本实验旨在评估和比较YOLOv5、YOLOv6、YOLOv7和YOLOv8几种模型在手写数字和符号目标检测任务上的性能。为了实现这一目标,博主分别使用使用相同的数据集训练和测试了这四个模型,从而可以进行直接的性能比较。该数据集包含手写数字和符号的图像。本文将比较分析四种模型,旨在揭示每种模型的优缺点,探讨它们在工业环境中实际应用的场景选择。

模型 图像大小 (像素) mAPval 50-95 CPU ONNX 速度 (毫秒) A100 TensorRT 速度 (毫秒) 参数数量 (百万) FLOPs (十亿)
YOLOv5nu 640 34.3 73.6 1.06 2.6 7.7
YOLOv8n 640 37.3 80.4 0.99 3.2 8.7
YOLOv6N 640 37.5 - - 4.7 11.4
YOLOv7-tiny 640 37.4 - - 6.01 13.1

(2)度量指标