计算机视觉 8 图像拓宽
最编程
2024-07-19 07:09:02
...
图像增广(image augmentation)是通过对训练图像进行一系列随机改变,从而产生相似但又不同的训练样本的技术。
图像增广有以下两个主要作用:
- 扩大训练数据集的规模;
- 随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。
例如,通过不同方式裁剪图像,使感兴趣的物体出现在不同位置,可以减轻模型对物体出现位置的依赖性;调整亮度、色彩等因素能降低模型对色彩的敏感度。
一些常见的图像增广方法包括:
-
翻转:如左右翻转(通过
torchvision.transforms.RandomHorizontalFlip
或tf.image.random_flip_left_right
实现)和上下翻转(通过torchvision.transforms.RandomVerticalFlip
或tf.image.random_flip_up_down
实现),通常不会改变对象的类别。 -
随机裁剪:随机裁剪一个面积为原始面积一定比例(如10%到100%)的区域,该区域的宽高比也在一定范围内随机取值(如0.5到2),然后将该区域的宽度和高度缩放到指定像素(如200像素)。例如,使用
torchvision.transforms.RandomResizedCrop
或tf.image.random_crop
。 -
亮度变化:将图像的亮度随机调整为原图亮度的一定比例范围(如50%到150%),可通过
torchvision.transforms.ColorJitter
中的brightness
参数或tf.image.random_brightness
实现。 -
色调变化:随机更改图像的色调,如使用
torchvision.transforms.ColorJitter
中的hue
参数或tf.image.random_hue
。 -
颜色变化:还可以同时随机更改图像的亮度、对比度、饱和度和色调,创建
torchvision.transforms.ColorJitter
实例并设置相应参数即可。 -
组合多种方法:可以使用
torchvision.transforms.Compose
将多个图像增广方法组合起来应用到图像上。
在实践中,通常仅在训练样本上进行图像增广,而在预测过程中不使用随机操作的图像增广,以获得确切的结果。
推荐阅读
-
计算机视觉 - 图像修复概述
-
10bit YUV(P010)的存储结构和处理-随着计算机处理信息的能力越来越厉害,这种能表现更高动态范围的图像存储格式将会逐渐成为主流,但是现在很多算法都不能直接处理 10bit 的 YUV ,都是先将其转换为 8bit YUV ,然后再进行处理,这实际上是丢弃了 10bit YUV 的图像高动态范围优势。 令人遗憾的是在渲染图像时,目前 OpenGL 也无法直接对 10bit YUV 进行渲染,也是需要先转换为 8bit YUV 。 接下来以一种常见的 10bit YUV (P010) 格式为例,介绍一下 10bit YUV 到 8bit YUV 的转换过程。 P010 最早是微软定义的格式,表示的是 YUV 4:2:0 的采样方式,也就是说 P010 表示的是一类 YUV 格式,它的内存排布方式可能是 NVNVYUYV12 。
-
【动手学计算机视觉】第三讲:图像预处理之图像分割
-
领域最全 | 计算机视觉算法在路面坑洼检测中的应用综述(基于2D图像/3D LiDAR/深度学习)(下)
-
百度网盘提供图像处理与计算机视觉算法及应用pdf的下载
-
基于图像分类网络VGG的计算机视觉(CV)研究:中草药识别实现(一)
-
轻松入门计算机视觉!从 YOLOv5 开始,无需任何基础就能学会物体识别、图像分类、轨迹追踪和姿势识别。
-
最新计算机视觉研究成果一览(8月24日)
-
计算机视觉 8 图像拓宽
-
昇思MindSpore学习笔记6-03计算机视觉--ResNet50图像分类