图像质量评估 IQAtriq 和 hyperIQA 个人理解

最编程 2024-03-28 09:57:21

...

图像质量评估IQAtriq和hyperIQA个人理解

Junyong You1, Jari Korhonen2

作者单位：1. 挪威研究中心； 2. 中国深圳深圳大学

解决问题：transformer或者Vit不可以输入不同尺度的图像问题。

解决方式：Feature projection, max-pooling

总体上也就是尝试了transformer用于IQA的可能性和效果，结果效果很好。

根据ViT设计了一个可以在一定尺度大小内的图像输入transformer的模型。主要贡献是对图像进行预处理使图像做为图像块输、入transformer模型中，模型输出的是5个分级的分布值，最后将五个分数加权求和得到最终的预测分数。

优点：效果最好。transformer最近比较火，也许可以有些优化。比如MAE，不过理论上使用MAE会提升速度，可能降低准确度。

缺点：模型对于分辨率大的模型需要重新设计，并且推理时间较长。

主要解决问题：

失真多样性：主要是说其他模型只是关注模型的全局特征，也就是深层特征，但是浅层的局部特征也是很重要的，比如如果图片有一部分的质量相当差，其他部分都好，人眼会觉得分数很低，但是模型会预测的分数还不错。

解决方式就是引入底层特征。

首先，当前的深度模型只学习用于分类的全局特征。然而，对于真实的 IQA 来说，扭曲在很多方面都是多种多样的，其中大部分存在于局部地区。忽略局部模式可能会导致预测质量与人类视觉感知之间的不一致，因为当图像的其余部分表现出相当好的质量时，人类视觉系统 (HVS) 对局部失真很敏感。

内容变化：对于人类视角来说，不同内容的图片应该会赋予不同的美学评价观念，比如对人脸和景色的美学评价不应该相同（景色那必是比人脸分高的）所以图片内容模型的参数自适应调整。比如，人类检查员会认为晴朗的蓝天图像是高质量的，而大多数 IQA 方法将其误认为是由于图像包含大的扁平区域而导致的模糊图像。

解决方式就是先做内容识别，也就是图像语义理解，再预测分数。

优点：速度快比triq快。

缺点：效果比triq差一点点，并且需要将多输入的224*224图像做resize或者其他处理，理论上可能会对结果有影响，目前实验测试影响可以忽略。

triq