适用于 Python 的 Excel 批量处理工具：从入门到实践

最编程 2024-06-24 09:21:53

...

在日常办公中，Excel表格处理是一项常见且繁琐的任务。当需要处理大量Excel文件时，手动操作不仅效率低下，还容易出错。因此，开发一款Excel批量处理工具成为了一个迫切的需求。本文将介绍如何使用Python语言开发一款Excel批量处理工具，帮助快速上手并实现自动化处理。

一、环境准备

首先，需要安装Python环境和相关库。Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。在Python中，可以使用第三方库来操作Excel文件。常用的库有openpyxl和pandas。

可以使用pip命令来安装这些库：

pip install openpyxl pandas

二、读取Excel文件

使用openpyxl库可以方便地读取Excel文件。以下是一个简单的示例：

from openpyxl import load_workbook  
  
# 加载Excel文件  
workbook = load_workbook('example.xlsx')  
  
# 获取活动工作表  
sheet = workbook.active  
  
# 遍历行和列  
for row in sheet.iter_rows():  
    for cell in row:  
        print(cell.value)

在这个示例中，首先使用load_workbook函数加载一个Excel文件。然后，通过workbook.active获取活动工作表。最后，使用iter_rows方法遍历工作表中的每一行和每一列，并打印出单元格的值。

三、写入Excel文件

除了读取Excel文件外，还可以使用openpyxl库将数据写入Excel文件。以下是一个简单的示例：

from openpyxl import Workbook  
  
# 创建一个新的Excel工作簿  
workbook = Workbook()  
  
# 获取活动工作表  
sheet = workbook.active  
  
# 写入数据到单元格  
sheet['A1'] = 'Hello'  
sheet['B1'] = 'World'  
  
# 保存Excel文件  
workbook.save('output.xlsx')

在这个示例中，首先创建一个新的Excel工作簿。然后，通过workbook.active获取活动工作表。接着，使用单元格的坐标来写入数据。最后，使用workbook.save方法将工作簿保存为Excel文件。

四、批量处理Excel文件

有了以上读取和写入Excel文件的基础，就可以开始实现批量处理Excel文件的功能了。以下是一个简单的示例，演示如何批量读取指定目录下的所有Excel文件，并将每个文件的第一行数据提取出来保存到一个新的Excel文件中：

import os  
from openpyxl import load_workbook, Workbook  
  
# 指定要处理的Excel文件所在的目录  
input_dir = 'input'  
output_file = 'output.xlsx'  
  
# 创建一个新的Excel工作簿用于保存结果  
workbook = Workbook()  
sheet = workbook.active  
  
# 遍历指定目录下的所有Excel文件  
for filename in os.listdir(input_dir):  
    if filename.endswith('.xlsx'):  
        file_path = os.path.join(input_dir, filename)  
          
        # 加载Excel文件并获取活动工作表  
        input_workbook = load_workbook(file_path)  
        input_sheet = input_workbook.active  
          
        # 提取第一行数据并写入结果工作表  
        first_row = [cell.value for cell in input_sheet[1]]  
        sheet.append(first_row)  
  
# 保存结果Excel文件  
workbook.save(output_file)

在这个示例中，首先指定了要处理的Excel文件所在的目录和一个用于保存结果的Excel文件名。然后，创建一个新的Excel工作簿用于保存结果。接下来，使用os.listdir函数遍历指定目录下的所有文件，并使用endswith方法筛选出以.xlsx结尾的Excel文件。对于每个Excel文件，使用load_workbook函数加载它，并获取活动工作表。然后，提取第一行数据，并使用sheet.append方法将其追加到结果工作表中。最后，使用workbook.save方法将结果保存为一个新的Excel文件。

五、案例

Excel批量处理工具可以实现很多功能，如数据清洗、格式转换、数据合并等。批量处理多个Excel文件，将每个文件中的指定列合并到一个新的Excel文件中。

一个文件夹，里面包含了多个Excel文件，每个文件都有相同的列结构，但只关心其中的两列数据：姓名（Name）和年龄（Age）。目标是提取这些文件中的姓名和年龄列，并将它们合并到一个新的Excel文件中。

以下是一个实现这个功能的Python脚本示例：

import os  
from openpyxl import load_workbook, Workbook  
  
# 定义输入文件夹和输出文件名  
input_folder = 'input_files'  
output_file = 'merged_data.xlsx'  
  
# 定义要提取的列名  
columns_to_extract = ['Name', 'Age']  
  
# 创建一个新的Excel工作簿用于保存合并后的数据  
output_workbook = Workbook()  
output_sheet = output_workbook.active  
  
# 写入列标题到输出工作表  
output_sheet.append(columns_to_extract)  
  
# 遍历输入文件夹中的每个文件  
for filename in os.listdir(input_folder):  
    if filename.endswith('.xlsx'):  
        file_path = os.path.join(input_folder, filename)  
          
        # 加载Excel文件并获取活动工作表  
        workbook = load_workbook(file_path)  
        sheet = workbook.active  
          
        # 遍历工作表中的每一行，提取指定列的数据并写入输出工作表  
        for row in sheet.iter_rows(min_row=2):  # 假设第一行是标题行，从第二行开始提取数据  
            data_to_append = [cell.value for cell in row if cell.column in [sheet[col].column for col in columns_to_extract]]  
            output_sheet.append(data_to_append)  
  
# 保存合并后的数据到新的Excel文件  
output_workbook.save(output_file)  
print(f"数据合并完成，已保存到 {output_file}")

首先定义了输入文件夹的路径input_folder和输出文件的名称output_file。然后，指定了要提取的列名columns_to_extract。接下来，创建了一个新的Excel工作簿output_workbook，并在其中创建了一个工作表output_sheet。首先写入列标题到输出工作表。

然后，遍历输入文件夹中的每个文件。对于每个文件，加载它并获取活动工作表。遍历工作表中的每一行（从第二行开始，假设第一行是标题行），提取指定列的数据，并将这些数据追加到输出工作表中。

将合并后的数据保存到新的Excel文件中，并打印一条消息表示数据合并完成。如果数据量很大，你可能需要考虑使用更高效的数据处理库，如pandas，以提高处理速度。

六、OpenPyXL

OpenPyXL是一个强大的Python库，专门用于处理Excel文件。它允许用户读取、编辑和创建Excel工作簿和工作表，无论是自动化处理大量数据还是创建精美的报告，OpenPyXL都能提供一个强大的工具。

以下是关于OpenPyXL库的一些主要功能和特点：

文件处理：OpenPyXL支持Excel的多种格式，包括xlsx、xlsm、xltx和xltm。用户可以轻松创建新的Excel文件，或者加载和修改已存在的Excel文件。
数据操作：库提供了对单元格、行和列的详细操作。用户可以读取、写入、格式化单元格内容，支持的数据类型包括数字、日期、文本、布尔值、图片和超链接等。
样式和格式：OpenPyXL支持电子表格的格式化，包括字体、颜色、边框等。此外，它还可以处理图表、公式和数据验证等功能。
数据透视和分析：库提供了一组工具来处理电子表格数据，如排序、筛选、分组和创建透视表等，使得数据处理和分析变得更加简单。
合并与拆分：OpenPyXL支持多个工作表和单元格的合并、拆分和复制等操作，方便用户对Excel文件进行复杂的编辑。
安全性：该库支持工作簿、工作表和单元格级别的密码保护，确保数据和机密信息的安全。

要使用OpenPyXL库，用户需要先安装它。安装方法有多种，最常见的是使用Python的包管理器pip进行安装。此外，如果用户使用的是Anaconda这个Python发行版本，也可以通过Anaconda进行安装。

安装完成后，用户可以在Python脚本中导入OpenPyXL库，并调用其提供的函数和类来操作Excel文件。例如，可以创建一个Workbook对象来代表一个Excel文档，然后使用load_workbook函数加载已存在的Excel文件。接下来，用户可以通过访问Workbook对象的属性和方法来读取、修改或创建工作表、单元格等。

七、总结与展望

本文介绍了如何使用Python开发一款Excel批量处理工具，从读取和写入Excel文件到实现批量处理功能进行了详细的讲解。通过结合具体的代码示例，读者可以轻松地掌握相关技术和方法。当然，这只是一个简单的示例，实际的Excel批量处理工具可能需要更复杂的逻辑和功能。未来，可以进一步扩展这个工具，例如添加数据清洗、数据转换、数据合并等功能，以满足更多的实际需求。

上一篇： openpyxl 学习 - 打开、新建、排序、删除、隐藏和复制工作表

下一篇： Python openpyxl 模块原理和使用分析