如何使用Python轻松阅读PDF文件

最编程 2024-02-16 22:38:21

...

Python 实现读取pdf文件简单示例。

安装命令

需要安装操作pdf的三方类库，命令如下：

pip install pdfminer3K

安装过程如下：

引入类库

需要引入很多的类库。

示例如下：

import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import  PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

读取pdf实现

实现步骤为：先通过二进制方式打开测试pdf文档，创建pdf文档解析测试文档内容，

最后读取文件内容，保存到另一个文件中。

示例如下：

import sys
import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import os



def read_pdf(path, toPath):
    # 以二进制方式打开pdf文件
    f = open(path, 'rb')

    # 创建一个pdf文档分析器
    parser = PDFParser(f)
    # 创建pdf文档
    pdfFile = PDFDocument()
    # 链接分析器与文档对象
    parser.set_document(pdfFile)
    pdfFile.set_parser(parser)
    # 提供初始化密码
    pdfFile.initialize()

    # 检测文档是否提供txt转换
    if not pdfFile.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 解析数据
        # 数据管理器
        manager = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = PDFPageAggregator(manager, laparams=laparams)
        # 解释器对象
        interpreter = PDFPageInterpreter(manager, device)
        for page in pdfFile.get_pages():
            interpreter.process_page(page)
            layout = device.get_result()
            for x in layout:
                if isinstance(x, LTTextBoxHorizontal):
                    with open(toPath, 'a', encoding='utf-8') as f:
                        print(x.get_text())
                        f.write(x.get_text() + "\n")


path = os.path.join(os.getcwd(), 'test_1.pdf')
toPath = os.path.join(os.getcwd(), 'test_2.txt')
read_pdf(path, toPath)

注意：无法读取中文，貌似需要加载中文字体。还有就是在写入pdf文件，格式不对无法打开暂时没找到原因。

总结

本篇只是使用Python 实现读取pdf文件简单示例，因为时间关系没有做深入的扩展，等之后有时间再做补充。

上一篇：全面解读 uniapp 组件生命周期：Vue 阶段与 uniapp 独有部分及其差异，详述涉及的 API 和代码注解示例 - Vue 生命周期篇

下一篇：为图片和文字添加鼠标悬停时的旋转特效

如何使用Python轻松阅读PDF文件

安装命令

引入类库

读取pdf实现

总结

Python | 语音处理 | 使用 librosa / AudioSegment / soundfile 阅读音频文件的比较

如何使用 ffmpeg-python 轻松处理音频文件，进行格式转换、编辑和合并？

如何使用 Python 从 Google Drive 下载文件（附代码示例）

如何翻译整个 pdf 文件？阅读后您就会知道

了解如何使用边缘浏览器快捷方式旋转 PDF 文件

如何使用 python 详细读取 micaps 文件

使用 python 的 fitz 库将 pdf 文件转换为 HTML 或图像文件

使用 Python 合并 PDF 文件并添加自定义目录和页脚

如何使用 JavaScript 和 nodejs 将 docx 文件转换为 pdf 文件