二维图像双线性插值 python 快速实现
在对二维数据进行 resize / mapping / 坐标转换等操作时,经常会将原本的整数坐标变换为小数坐标,对于非整数的坐标值一种直观有效的插值方式为
双线性插值
。
插值简介
双线性插值,又称为双线性内插。在数学上,双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值。
双线性插值作为数值分析中的一种插值算法,广泛应用在信号处理,数字图像和视频处理等方面。
假设我们出现了需要在四个相邻正方形整数点(A,B,C,D) 坐标中间(正方形范围内)选择一个点(a,b)取近似值的情形。
此时我们已知的是四个点的数值 V_A,V_B,V_C,V_D,给定小数坐标 E(a, b),0 \le a, b \le 1,如何插值求解E点的数值呢,解决类似问题的方法统称为插值,上图展示公式为双线性插值的计算方法。
最近邻法 (Nearest Interpolation)
一种最简便的方法为最近邻法,直接取与当前点距离最近的点的值作为插值结果:
其中
双三次插值 (Bicubic interpolation)
双三次插值是用原图像中16(4*4)个点计算新图像中1个点,效果比较好,但是计算代价过大。
双线性插值 (Bilinear Interpolation)
使用一个点进行插值过于粗暴,16个点又过于繁琐,那就使用E点周围4个点的数值来近似求解,这是一种平衡了计算代价和插值效果的折中方案,也是各大变换库的默认插值操作。
双线性插值
通过观察上述动图(可以动手挪一挪)可以清晰地看到,双线性插值本质就是把四个角落的数值按照正方形面积的比例线性加权后的结果。
好吧一句话已经把数学的核心部分讲完了
那么既然理解了本质,数学公式就好写了:
python 实现
在实现时当然 for 循环大法可以解决一切问题,但总归是不太优雅,我们尝试使用 numpy 操作完成双线性插值
假设原始图像 image
,变换后的小数坐标 X 矩阵 x_grid
,Y 矩阵 y_grid
,那么可以使用如下的 bilinear_by_meshgrid
函数快速双线性插值,已经处理好了边界,可以放心使用。
def bilinear_by_meshgrid(image, x_grid, y_grid):
# Ia, Wd Ic, Wb
# (floor_x, floor_y) (ceil_x, floor_y)
#
# (x, y)
#
# Ib , Wc Id, Wa
# (floor_x, ceil_y) (ceil_x, ceil_y)
#
assert image.shape == x_grid.shape == y_grid.shape
assert image.ndim == 2
H, W = image.shape[:2]
floor_x_grid = np.floor(x_grid).astype('int32')
floor_y_grid = np.floor(y_grid).astype('int32')
ceil_x_grid = floor_x_grid + 1
ceil_y_grid = floor_y_grid + 1
if np.max(ceil_x_grid) > W -1 or np.max(ceil_y_grid) > H -1 or np.min(floor_x_grid) < 0 or np.min(floor_y_grid) < 0:
print("Warning: index value out of original matrix, a crop operation will be applied.")
floor_x_grid = np.clip(floor_x_grid, 0, W-1).astype('int32')
ceil_x_grid = np.clip(ceil_x_grid, 0, W-1).astype('int32')
floor_y_grid = np.clip(floor_y_grid, 0, H-1).astype('int32')
ceil_y_grid = np.clip(ceil_y_grid, 0, H-1).astype('int32')
Ia = image[ floor_y_grid, floor_x_grid ]
Ib = image[ ceil_y_grid, floor_x_grid ]
Ic = image[ floor_y_grid, ceil_x_grid ]
Id = image[ ceil_y_grid, ceil_x_grid ]
wa = (ceil_x_grid - x_grid) * (ceil_y_grid - y_grid)
wb = (ceil_x_grid - x_grid) * (y_grid - floor_y_grid)
wc = (x_grid - floor_x_grid) * (ceil_y_grid - y_grid)
wd = (x_grid - floor_x_grid) * (y_grid - floor_y_grid)
assert np.min(wa) >=0 and np.min(wb) >=0 and np.min(wc) >=0 and np.min(wd) >=0
W = wa + wb + wc + wd
assert np.sum(W[:, -1]) + np.sum(W[-1, :]) == 0
wa[:-1, -1] = ceil_y_grid[:-1, -1] - y_grid[:-1, -1]
wb[:-1, -1] = y_grid[:-1, -1] - floor_y_grid[:-1, -1]
wb[-1, :-1] = ceil_x_grid[-1, :-1] - x_grid[-1, :-1]
wd[-1, :-1] = x_grid[-1, :-1] - floor_x_grid[-1, :-1]
wd[-1, -1] = 1
W = wa + wb + wc + wd
assert np.max(W) == np.min(W) == 1
res_image = wa*Ia + wb*Ib + wc*Ic + wd*Id
return res_image
该函数集成在我自己的python库 mtutils
中,可以通过:
pip install mtutils
直接安装,之后可以直接引用:
from mtutils import bilinear_by_meshgrid
参考资料
- https://baike.baidu.com/item/双线性插值/11055945?fr=aladdin
- https://zhuanlan.zhihu.com/p/110754637
推荐阅读
-
使用Python快速实现图像的傅里叶变换和离散余弦变换
-
如何在MATLAB中绘制双变量函数Z = 1 / (1 - x^2) + y^2,并用Python实现同样的二维二次曲面图展示
-
二维图像双线性插值 python 快速实现
-
用于图像上采样的近邻插值和双线性插值的 python-opencv 实现
-
[姿势估计] 实践记录:使用 Dlib 和 mediapipe 进行人脸姿势估计 - 本文重点介绍方法 2):方法 1:基于深度学习的方法:。 基于深度学习的方法:基于深度学习的方法利用深度学习模型,如卷积神经网络(CNN)或递归神经网络(RNN),直接从人脸图像中学习姿势估计。这些方法能够学习更复杂的特征表征,并在大规模数据集上取得优异的性能。方法二:基于二维校准信息估计三维姿态信息(计算机视觉 PnP 问题)。 特征点定位:人脸姿态估计的第一步是通过特征点定位来检测和定位人脸的关键点,如眼睛、鼻子和嘴巴。这些关键点提供了人脸的局部结构信息,可用于后续的姿势估计。 旋转表示:常见的旋转表示方法包括欧拉角和旋转矩阵。欧拉角通过三个旋转角度(通常是俯仰、偏航和滚动)描述头部的旋转姿态。旋转矩阵是一个 3x3 矩阵,表示头部从一个坐标系到另一个坐标系的变换。 三维模型重建:根据特征点的定位结果,三维人脸模型可用于姿势估计。通过将人脸的二维图像映射到三维模型上,可以估算出人脸的旋转和平移信息。这就需要建立人脸的三维模型,然后通过优化方法将模型与特征点对齐,从而获得姿势估计结果。 特征点定位 特征点定位是用于检测人脸关键部位的五官基础部分,还有其他更多的特征点表示方法,大家可以参考我上一篇文章中介绍的特征点检测方案实践:人脸校正二次定位操作来解决人脸校正的问题,客户在检测关键点的代码上略有修改,坐标转换部分客户见上图 def get_face_info(image). img_copy = image.copy image.flags.writeable = False image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) results = face_detection.process(image) # 在图像上绘制人脸检测注释。 image.flags.writeable = True image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) box_info, facial = None, None if results.detections: for detection in results. for detection in results.detections: mp_drawing.Drawing.detection = 无 mp_drawing.draw_detection(image, detection) 面部 = detection.location_data.relative_keypoints 返回面部 在上述代码中,返回的数据是五官(6 个关键点的坐标),这是用 mediapipe 库实现的,下面我们可以尝试用另一个库:dlib 来实现。 使用 dlib 使用 Dlib 库在 Python 中实现人脸关键点检测的步骤如下: 确保已安装 Dlib 库,可使用以下命令: pip install dlib 导入必要的库: 加载 Dlib 的人脸检测器和关键点检测器模型: 读取图像并将其灰度化: 使用人脸检测器检测图像中的人脸: 对检测到的人脸进行遍历,并使用关键点检测器检测人脸关键点: 显示绘制了关键点的图像: 以下代码将参数 landmarks_part 添加到要返回的关键点坐标中。