使用IRONPDF FOR PYTHON

如何在 Python 中从 PDF 提取文本

雷根·彭

2023年七月4日

更新 2024年九月21日

本文将演示如何使用 Python 中的 IronPDF 从 PDF 文件中提取所有文本，并为您提供高效完成此任务所需的知识和 Python 代码片段。

如何在 Python 中从 PDF 提取文本

下载用于从 PDF 中提取文本的 Python 模块
使用 发件人文件 方法导入 PDF 文件
使用 提取文本 方法
使用 从页面提取文本 方法
将提取的文本输出到控制台或文本文件中

IronPDF - Python 库

IronPDF for Python是一个功能强大的 Python PDF 库，允许开发人员从 PDF 文档中提取文本。使用 IronPDF，您可以自动从 PDF 文件中提取文本内容的数据部分，从而更轻松地处理 PDF 文档中的数据并分析其中包含的信息。

IronPDF 为 Python 程序员提供了使用 Python 操作 PDF 文件、从中提取数据以及与 PDF 文件交互的能力，从而使各种 PDF 相关任务的自动化变得更加容易。无论您是需要生成 PDF、修改现有 PDF、从内容提取图像中提取数据，还是执行其他 PDF 操作，IronPDF 都能凭借其直观的 API 和强大的功能简化流程。

主要功能

IronPDF for Python 库的部分功能包括

创建新PDF文件从零开始
编辑现有的PDF文件
Extract Text、元数据和图像从PDF文件中提取
将 PDF 文件转换为其他格式
安全PDF文件包含密码和限制
拆分和SwallowPDF 文件

先决条件

在使用 IronPdf 进行文本提取之前，请确保具备以下前提条件：

Python安装：确保您的系统已安装 Python。 IronPDF 兼容 Python 3.x 版本，因此请确保您安装了兼容的 Python。
IronPDF 库：使用 Python 软件包管理器 pip 安装 IronPDF 库。打开命令行界面并执行以下命令：

    :ProductInstall

注意： Python 必须添加到 PATH 环境变量中，才能使用 pip 命令。

集成开发环境(IDE):虽然并非绝对必要，但使用集成开发环境可以大大提高您的开发体验。它提供了代码补全、调试和更简化的工作流程等功能。一个受欢迎的Python开发IDE是PyCharm。您可以从 JetBrains 网站下载并安装 PyCharm[https://www.jetbrains.com/pycharm/**](https://www.jetbrains.com/pycharm/).
文本编辑器：另外，如果您喜欢使用轻量级文本编辑器，也可以使用您选择的任何文本编辑器，如 Visual Studio Code、Sublime Text 或 Atom。这些编辑器为 Python 开发提供语法高亮和其他有用的功能。您也可以使用 Python 自带的 IDLE 应用程序。

使用 PyCharm 创建 Python 项目

安装 PyCharm IDE 后，按照以下步骤创建 PyCharm Python 项目：

启动 PyCharm： 通过系统的应用程序启动器或桌面快捷方式打开 PyCharm。
创建新项目： 点击 "创建新项目 "或打开现有的 Python 项目。
PyCharm IDE
配置项目设置： 提供项目名称并选择创建项目目录的位置。为您的项目选择 Python 解释器。然后点击 "创建"。
在 Pycharm 中创建一个新的 Python 项目
创建源文件： PyCharm 将创建项目结构，包括一个主 Python 文件和一个用于其他源文件的目录。开始编写代码，然后单击运行按钮或按 Shift+F10 执行脚本。

使用 IronPDF for Python 在 Python 中提取 PDF 中的文本

现在，让我们深入了解使用 IronPDF for Python 编程语言从 PDF 文件中提取纯文本的步骤。

导入所需库函数

首先，在 Python 脚本中导入必要的库。在这种情况下，代码示例需要导入IronPDF库，该库提供了处理 PDF 文件的功能。

import ironpdf

import ironpdf

PYTHON

设置许可证密钥

为了使用 IronPDF 从 PDF 文件中提取全文，我们需要获得 IronPDF 的授权。使用以下命令应用许可证或试用密钥：

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

PYTHON

注：如果没有许可证密钥，IronPDF 从 PDF 扩展文件中提取的数据仅限于几个字符。通过以下方式获取许可证密钥购买 IronPDF或注册免费试用.

加载 PDF 文档

接下来，使用 "PdfDocument.FromFile "加载 PDF 文件。()IronPDF 的方法。 提供 PDF 文件的路径作为该方法的参数。这将把 PDF 文件加载到一个 PdfDocument 对象中。

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")

PYTHON

输入文件

要从输入的 PDF 文件中提取文本并打印到屏幕上，需要使用以下文档：

如何用 Python 将 PDF 转换为文本（教程），图 3：输入文件

输入文件

从 PDF 文件中提取文本

加载 PDF 文档后，您可以使用 ExtractText 方法提取文本内容。该方法以字符串形式返回提取的文本。

text = pdf.ExtractText()

text = pdf.ExtractText()

PYTHON

处理和利用提取的文本

现在您已经从 PDF 中提取了文本，您可以根据自己的要求对其进行处理和利用。您可以执行解析文本、分析文本、将文本存储到数据库或用于进一步数据处理等任务。

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text

PYTHON

输出

如何用 Python 将 PDF 转换为文本（教程），图 4：从控制台提取的文本

从控制台提取的文本

从 PDF 文件中的特定页面提取文本

IronPdf 还提供了一种从 PDF 文件中的特定页面提取文本的便捷方法。本节将探讨如何使用 IronPDF 提供的 ExtractTextFromPage 方法从特定页面提取文本。

以下代码演示了如何从特定页面提取文本：

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)

PYTHON

在上述示例代码中，pdf 表示加载 PDF 文档后获得的 PdfDocument 对象。从页面提取文本()该方法用于在阅读 PDF 时从特定页面提取文本，该页面由作为参数传递的页面索引指示。在本例中，文本是从第二页或页码 2 中提取的，与页码索引 1 相对应。

如何用 Python 将 PDF 转换为文本（教程），图 5：从第 2 页提取文本

从第 2 页提取文本

结论

本文探讨了如何使用 Python 中的 IronPDF 从 PDF 文件中提取文本。它涵盖了必要的步骤，包括导入所需的一个或多个库、加载 PDF 文档、提取文本内容以及处理提取的文本。

借助 IronPDF 强大的文本提取功能，您可以自动提取和进一步处理 PDF 中的文本，从而轻松处理和分析 PDF 文档中的文本信息。其直观的 API 和广泛的功能使其成为 Python 开发中各种 PDF 相关任务的理想选择。

IronPdf 用于开发目的是免费的，但用于商业用途需要获得许可。要在生产模式下使用它进行测试，请获得免费试用. 下载并安装最新版本的IronPDF for Python并试一试。

雷根·彭

立即与工程团队聊天

软件工程师

Regan毕业于雷丁大学，拥有电子工程学士学位。在加入Iron Software之前，他的前工作职位要求他专注于单一任务；他在Iron Software最喜欢的是能进行多种工作，无论是增加销售价值、技术支持、产品开发还是营销。他喜欢了解开发人员如何使用Iron Software的库，并利用这些知识不断改进文档和开发产品。

< 前一页
如何在Python中从URL下载PDF

下一步 >
如何在 Python 中查看 PDF 文件