使用IRONPDF FOR PYTHON

如何在 Python 中从 PDF 提取文本

查克尼特·宾
查克尼特·宾
2023年七月4日
更新 2024年九月21日
分享:

本文将演示如何使用 Python 中的 IronPDF 从 PDF 文件中提取所有文本,并为您提供高效完成此任务所需的知识和 Python 代码片段。

IronPDF - Python 库

IronPDF for Python 是一个强大的Python PDF库,让开发者可以从PDF文档中提取文本。 使用 IronPDF,您可以自动从 PDF 文件中提取文本内容的数据部分,从而更轻松地处理 PDF 文档中的数据并分析其中包含的信息。

IronPDF 为 Python 程序员提供了使用 Python 操作 PDF 文件、从中提取数据以及与 PDF 文件交互的能力,从而使各种 PDF 相关任务的自动化变得更加容易。 无论您是需要生成 PDF、修改现有 PDF、从内容提取图像中提取数据,还是执行其他 PDF 操作,IronPDF 都能凭借其直观的 API 和强大的功能简化流程。

主要功能

IronPDF for Python 库的部分功能包括

先决条件

在使用 IronPdf 进行文本提取之前,请确保具备以下前提条件:

  1. Python 安装:确保您的系统上已安装 Python。 IronPDF 兼容 Python 3.x 版本,因此请确保您安装了兼容的 Python。

  2. IronPDF 库:使用 Python 包管理器 pip 安装 IronPDF 库。 打开命令行界面并执行以下命令:
    :ProductInstall

注意:必须将Python添加到PATH环境变量中,以便使用pip命令。

  1. 集成开发环境 (IDE):虽然不完全必要,但是使用 IDE 可以极大地提升您的开发体验。 它提供了代码补全、调试和更简化的工作流程等功能。 一个受欢迎的Python开发IDE是PyCharm。 您可以从 JetBrains 网站https://www.jetbrains.com/pycharm/下载并安装 PyCharm。

  2. 文本编辑器:或者,如果您更喜欢使用轻量级文本编辑器,可以选择使用任何您喜欢的文本编辑器,例如 Visual Studio Code、Sublime Text 或 Atom。 这些编辑器为 Python 开发提供语法高亮和其他有用的功能。 您也可以使用 Python 自带的 IDLE 应用程序。

使用 PyCharm 创建 Python 项目

安装 PyCharm IDE 后,按照以下步骤创建 PyCharm Python 项目:

  1. 启动 PyCharm: 从系统的应用程序启动器或桌面快捷方式中打开 PyCharm。

  2. 创建新项目:点击“创建新项目”或打开现有的Python项目。

    如何在Python中将PDF转换为文本(教程),图1:PyCharm IDE

    PyCharm IDE

  3. 配置项目设置:为您的项目提供一个名称,并选择创建项目目录的位置。 为您的项目选择 Python 解释器。 然后点击 "创建"。

    如何在Python中将PDF转换为文本(教程),图2:在Pycharm中创建一个新的Python项目

    在 Pycharm 中创建一个新的 Python 项目

  4. 创建源文件:PyCharm 将创建项目结构,包括一个主 Python 文件和一个用于其他源文件的目录。 开始编写代码,然后单击运行按钮或按 Shift+F10 执行脚本。

使用 IronPDF for Python 在 Python 中提取 PDF 中的文本

现在,让我们深入了解使用 IronPDF for Python 编程语言从 PDF 文件中提取纯文本的步骤。

导入所需库函数

首先,在 Python 脚本中导入必要的库。 在这种情况下,代码示例需要导入IronPDF库,它提供处理PDF文件的功能。

import ironpdf
PYTHON

设置许可证密钥

为了使用 IronPDF 从 PDF 文件中提取全文,我们需要获得 IronPDF 的授权。 使用以下命令应用许可证或试用密钥:

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

注意:在没有许可证密钥的情况下,IronPDF 提取的数据仅限于从 PDF 扩展文件中提取少量字符。通过购买 IronPDF或注册免费试用来获取许可证密钥。

加载 PDF 文档

接下来,使用 IronPDF 的 PdfDocument.FromFile() 方法加载 PDF 文件。 提供 PDF 文件的路径作为该方法的参数。 这将把PDF文件加载到PdfDocument对象中。

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")
PYTHON

输入文件

要从输入的 PDF 文件中提取文本并打印到屏幕上,需要使用以下文档:

如何在Python中将PDF转换为文本(教程),图3:输入文件

输入文件

从 PDF 文件中提取文本

加载PDF文档后,可以使用ExtractText方法提取文本内容。 该方法以字符串形式返回提取的文本。

text = pdf.ExtractText()
PYTHON

处理和利用提取的文本

现在您已经从 PDF 中提取了文本,您可以根据自己的要求对其进行处理和利用。 您可以执行解析文本、分析文本、将文本存储到数据库或用于进一步数据处理等任务。

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text
PYTHON

输出

如何在 Python 中将 PDF 转换为文本(教程),图 4:从控制台提取的文本

从控制台提取的文本

从 PDF 文件中的特定页面提取文本

IronPDF 还提供了一种方便的方法,可以从 PDF 文件中的特定页面提取文本。本节将探讨如何使用 IronPDF 提供的 ExtractTextFromPage 方法从特定页面提取文本。

以下代码演示了如何从特定页面提取文本:

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)
PYTHON

在上面的示例代码中,pdf 代表加载 PDF 文档后获得的 PdfDocument 对象。 ExtractTextFromPage() 方法用于在读取 PDF 时从特定页面提取文本,该页面由作为参数传递的页面索引指示。 在本例中,文本是从第二页或页码 2 中提取的,与页码索引 1 相对应。

如何在 Python 中将 PDF 转换为文本(教程),图 5:从第 2 页提取文本

从第2页提取文本

结论

本文探讨了如何使用 Python 中的 IronPDF 从 PDF 文件中提取文本。 它涵盖了必要的步骤,包括导入所需的一个或多个库、加载 PDF 文档、提取文本内容以及处理提取的文本。

借助 IronPDF 强大的文本提取功能,您可以自动提取和进一步处理 PDF 中的文本,从而轻松处理和分析 PDF 文档中的文本信息。 其直观的 API 和广泛的功能使其成为 Python 开发中各种 PDF 相关任务的理想选择。

IronPdf 用于开发目的是免费的,但用于商业用途需要获得许可。 要在生产模式下进行测试,请获取免费试用。 下载并安装最新版本的IronPDF for Python并试用。

查克尼特·宾
软件工程师
Chaknith 负责 IronXL 和 IronBarcode 的工作。他在 C# 和 .NET 方面拥有深厚的专业知识,帮助改进软件并支持客户。他从用户互动中获得的洞察力,有助于提升产品、文档和整体体验。
< 前一页
如何在Python中从URL下载PDF
下一步 >
如何在 Python 中查看 PDF 文件

准备开始了吗? 版本: 2025.4 刚刚发布

查看许可证 >