Python 的 openpyxl 性能加速
openpyxl是所有解析操作excel文件的python库,最受欢迎的扩展之一,因为它的底层lxml是用Cython实现的,读取大型的Excel文件的性能非常出色。
本片示例是读取一个具有一个接近87万记录的Excel表格,并将所有记录加载到Cython扩展类型的list中,需要强调的是Openpyxl加载工作簿使用最小的时间,一定要使用只读模式。
在load_workbook函数中指定read_only = True即可,如下所示:
wb=openpyxl.load_workbook(filename,read_only=True)
反例演示
下面的代码是一个非常低效的实现,我们分析一下代码,我们从load_workbook函数加载完成后我们得到Workbook对象
从Workbook对象中我们可以得到Sheet对象-ws ,但在遍历操作中使用Sheet对象的max_row和max_column属性不是一个明智的选择,因为excel工作表实际上可能比它们看起来更大,并且最终您要遍历许多空单元格。
from openpyxl import load_workbook
def read_excel():
wb=load_workbook("./Vegetable_Fruits.xlsx",read_only=True)
ws=wb['sheet1']
data=list()
maxRow=ws.max_row+1
maxCol=ws.max_column
for row in range(1,maxRow):
neRow=[]
for col in range(0,maxCol):
neRow.append(ws[row][col].value)
if len(neRow):
data.append(neRow)
return data
我们对上面函数做些修改,将maxRow的记录指定为1000,也就是我们仅读取1000条记录,看看时间消耗77s,那么我们推算一下如果读取完868,966条记录需要的时间67,605秒。
我们对上面的代码做一些修改,我们将Sheet对象的max_rows属性和max_column属性替换为rows,
from openpyxl import load_workbook
def read_excel():
wb=load_workbook("./Vegetable_Fruits.xlsx",read_only=True)
ws=wb['sheet1']
data=[]
for row in ws.rows:
neRow=[]
for cell in row:
neRow.append(cell.value)
if len(neRow):
data.append(neRow)
return data
恩,时间开销是非常悬殊的,修改后的代码,获取excel工作捕的接近87万记录,时间开销35秒,而修改之前的代码获取代1000条记录要消耗77.8秒
要使openpyxl获取速度最快的读取速度,不应该在每一行的循环中进行如下的操作
- 查找列标题
- 调用Sheet对象的max_row属性或max_column属性,这操作开销异常巨大
- 使用A坐标风格访问单元格,例如ws["AB" + str(i)]
上面的代码,其实我们还可以做进一步的优化,我们可以 使用openpyxl内置的迭代器,只要通过enumerate方法传入Sheet对象的rows属性,进而简直告知openpyxl调用其他内部的迭代器,因为Openpyxl的内部迭代器是由C代码所写,因此具有绝代的访问性能优势。
而且我们也使用Cython代码对上面的代码进一步优化
%%cython
from openpyxl import load_workbook
cpdef list read_excel_cy2(str filename):
wb=load_workbook(filename,read_only=True)
ws=wb['sheet1']
cdef list data=list(),neRow
cdef int rdx,cdx
for rdx,row in enumerate(ws.rows):
neRow=[]
for cdx,cell in enumerate(row):
neRow.append(cell.value)
if len(neRow):
data.append(neRow)
return data
这里使用Cython对函数中的某些计算变量进行类型静态化总能快1-2s
小结
要openpyxl在读取速度上获取最佳的速度,受很多因素影响,例如设备I/O资源使用情况,我们在算法逻辑上做到如下几点
- 调用load_workbook时候使用只读模式
- 使用Cython对循环计算变量进行C类型静态化
- 在循环中调用尽可能少地起作用,并将中间数据存储在变量中。 它可能会使代码有点笨拙,但它往往会更高效
- 上文提到的注意事项。
做到这些,可以使您的代码更具可读性(但这比起第1点和第2点而言是锦上添花)。 Python关于什么是变量和什么是函数也可能是模棱两可的。 但通常来说,中间变量适合于多个函数的调用。对于I/O密集型的代码加速而言,Cython是力不从心的,此时,我们更多地考虑使用异步编程模式,或多线程模式来进一步提升读取速度。
推荐阅读
-
Python 的 openpyxl 性能加速
-
python警告:工作簿不包含默认样式,应用openpyxl的默认警告
-
Python 性能优化指南 - 使 Python 代码快 x3 倍的技巧
-
Go 性能加速器:您需要了解的 5 个技巧和窍门
-
PHP8 引入 JIT 加速器:性能提升的新时代
-
[姿势估计] 实践记录:使用 Dlib 和 mediapipe 进行人脸姿势估计 - 本文重点介绍方法 2):方法 1:基于深度学习的方法:。 基于深度学习的方法:基于深度学习的方法利用深度学习模型,如卷积神经网络(CNN)或递归神经网络(RNN),直接从人脸图像中学习姿势估计。这些方法能够学习更复杂的特征表征,并在大规模数据集上取得优异的性能。方法二:基于二维校准信息估计三维姿态信息(计算机视觉 PnP 问题)。 特征点定位:人脸姿态估计的第一步是通过特征点定位来检测和定位人脸的关键点,如眼睛、鼻子和嘴巴。这些关键点提供了人脸的局部结构信息,可用于后续的姿势估计。 旋转表示:常见的旋转表示方法包括欧拉角和旋转矩阵。欧拉角通过三个旋转角度(通常是俯仰、偏航和滚动)描述头部的旋转姿态。旋转矩阵是一个 3x3 矩阵,表示头部从一个坐标系到另一个坐标系的变换。 三维模型重建:根据特征点的定位结果,三维人脸模型可用于姿势估计。通过将人脸的二维图像映射到三维模型上,可以估算出人脸的旋转和平移信息。这就需要建立人脸的三维模型,然后通过优化方法将模型与特征点对齐,从而获得姿势估计结果。 特征点定位 特征点定位是用于检测人脸关键部位的五官基础部分,还有其他更多的特征点表示方法,大家可以参考我上一篇文章中介绍的特征点检测方案实践:人脸校正二次定位操作来解决人脸校正的问题,客户在检测关键点的代码上略有修改,坐标转换部分客户见上图 def get_face_info(image). img_copy = image.copy image.flags.writeable = False image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) results = face_detection.process(image) # 在图像上绘制人脸检测注释。 image.flags.writeable = True image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR) box_info, facial = None, None if results.detections: for detection in results. for detection in results.detections: mp_drawing.Drawing.detection = 无 mp_drawing.draw_detection(image, detection) 面部 = detection.location_data.relative_keypoints 返回面部 在上述代码中,返回的数据是五官(6 个关键点的坐标),这是用 mediapipe 库实现的,下面我们可以尝试用另一个库:dlib 来实现。 使用 dlib 使用 Dlib 库在 Python 中实现人脸关键点检测的步骤如下: 确保已安装 Dlib 库,可使用以下命令: pip install dlib 导入必要的库: 加载 Dlib 的人脸检测器和关键点检测器模型: 读取图像并将其灰度化: 使用人脸检测器检测图像中的人脸: 对检测到的人脸进行遍历,并使用关键点检测器检测人脸关键点: 显示绘制了关键点的图像: 以下代码将参数 landmarks_part 添加到要返回的关键点坐标中。
-
Garrett 电动涡轮增压器:加速技术创新 - 从赛道到街道 - 9 月,Garrett 再次帮助丰田 Gazoo 车队的 8 号 TS050 混合动力赛车连续第三次赢得勒芒 24 小时耐力赛。获得第三名的是丰田 Gazoo 车队的 7 号赛车,该赛车也采用了 Garrett 的超轻量化双涡轮增压系统和先进的滚珠轴承技术,以提高发动机性能和加速度,从而确保了车队的三连胜。该涡轮增压系统经过特别设计,能够承受 24 小时艰苦比赛的独特工作条件。
-
构建高性能 Python 编程工作站的计算机配置建议
-
介绍基于 Python 的高性能跨平台 Waitress WSGI 服务器!
-
FastAPI + NGINX + Gunicorn:部署高性能 Python Web 应用程序的分步指南