图像质量评估 IQAtriq 和 hyperIQA 个人理解
图像质量评估IQAtriq和hyperIQA个人理解
-
triq
Junyong You1, Jari Korhonen2
作者单位:1. 挪威研究中心; 2. 中国深圳深圳大学
-
方法
解决问题:transformer或者Vit不可以输入不同尺度的图像问题。
解决方式:Feature projection, max-pooling
总体上也就是尝试了transformer用于IQA的可能性和效果,结果效果很好。
根据ViT设计了一个可以在一定尺度大小内的图像输入transformer的模型。主要贡献是对图像进行预处理使图像做为图像块输、入transformer模型中,模型输出的是5个分级的分布值,最后将五个分数加权求和得到最终的预测分数。
优点:效果最好。transformer最近比较火,也许可以有些优化。比如MAE,不过理论上使用MAE会提升速度,可能降低准确度。
缺点:模型对于分辨率大的模型需要重新设计,并且推理时间较长。
-
hyperIQA(西北工业大学)
-
方法
主要解决问题:
-
失真多样性和内容变化
失真多样性:主要是说其他模型只是关注模型的全局特征,也就是深层特征,但是浅层的局部特征也是很重要的,比如如果图片有一部分的质量相当差,其他部分都好,人眼会觉得分数很低,但是模型会预测的分数还不错。
解决方式就是引入底层特征。
首先,当前的深度模型只学习用于分类的全局特征。然而,对于真实的 IQA 来说,扭曲在很多方面都是多种多样的,其中大部分存在于局部地区。忽略局部模式可能会导致预测质量与人类视觉感知之间的不一致,因为当图像的其余部分表现出相当好的质量时,人类视觉系统 (HVS) 对局部失真很敏感。
内容变化:对于人类视角来说,不同内容的图片应该会赋予不同的美学评价观念,比如对人脸和景色的美学评价不应该相同(景色那必是比人脸分高的)所以图片内容模型的参数自适应调整。比如,人类检查员会认为晴朗的蓝天图像是高质量的,而大多数 IQA 方法将其误认为是由于图像包含大的扁平区域而导致的模糊图像。
解决方式就是先做内容识别,也就是图像语义理解,再预测分数。
优点:速度快比triq快。
缺点:效果比triq差一点点,并且需要将多输入的224*224图像做resize或者其他处理,理论上可能会对结果有影响,目前实验测试影响可以忽略。