PYTHON PDF 工具

如何在Python中读取PDF文件

查克尼特·宾

2023年七月3日

PDF 或便携式文档格式文件已成为共享文档的通用标准。它们因能够保留文档的布局和格式而被广泛使用。然而，使用 Python 等编程语言处理 PDF 文件是一项挑战。本文介绍的 IronPDF 是一个 Python PDF 库，它允许我们对 PDF 文档执行各种操作。

IronPDF Python PDF 库

IronPDF 是一个高级的Python PDF 库，可以帮助处理 PDF 格式的文件。它为各种 PDF 操作提供了易于使用的 API。您可以读写 PDF 文件、将 PDF 文件转换为不同格式、合并多个 PDF 文件等。除其他功能外，它还可以处理页面对象、从 PDF 文件的所有页面中提取文本以及旋转 PDF 页面。

如何在Python中读取PDF文件

使用 Pip 安装 Python PDF 库。
在 Python 脚本中导入 Python PDF 库。
申请 PDFReader Python 库的许可证密钥。
通过提供文档路径加载任何 PDF 文档。
在 Python 控制台上阅读 PDF 内容。

使用 IronPDF 阅读 PDF 文件

使用 IronPDF 阅读 PDF 文件涉及几个步骤。以下是一份简单的入门指南：

步骤 1 在 Visual Studio 中创建虚拟环境

在使用 Python 时，创建一个被称为虚拟环境的隔离环境至关重要。通过这种环境，您可以管理正在进行的项目的特定依赖关系，而不会干扰其他项目。在像 Visual Studio Code 这样的集成开发环境 (IDE) 中创建虚拟环境变得更加简单。为此，请按照以下步骤操作：

在 Visual Studio Code 中打开文件夹。按 Ctrl+Shift+P 打开命令调板。在命令调板中，搜索 "Python：创建环境"。
选择第一个选项，然后选择 "Venv "作为环境类型。
然后，选择 Python 解释器，它就会开始创建虚拟环境。
现在，您已经为 Python 脚本准备好了独立的工作区，确保项目的依赖关系被限制在这个环境中。

第 2 步安装 IronPDF Python 库

虚拟环境设置完成后，您就可以安装 IronPDF Python 库了。您可以使用 Python 软件包安装程序 "pip "进行安装：

pip install ironpdf

步骤 3 安装 .NET 6.0

IronPDF for Python 需要安装 .NET 6.0 SDK。

请从Microsoft .NET 网站下载并安装 .NET 6.0 SDK。

第 4 步导入 IronPDF

成功安装 IronPDF 后，下一步就是将其导入 Python 脚本。导入库后，您的脚本就可以使用库中的所有函数和方法。您可以使用以下代码行导入 IronPDF：

from ironpdf import *

py

PYTHON

这行代码将 IronPDF 库中的所有模块、函数和类导入到脚本中。

第 5 步申请许可证密钥

要完全释放 IronPDF 库的功能，您需要申请许可证密钥。应用许可证密钥就像将密钥分配给License类的LicenseKey属性一样简单。具体方法如下

License.LicenseKey = "License-Key-Here"

py

PYTHON

将 "License-Key-Here "替换为您实际的 IronPDF 许可证密钥。有了许可证密钥，您现在就可以在 Python 脚本中充分发挥 IronPDF 库的潜力了。

第 6 步设置日志路径

接下来，设置 IronPDF 操作日志。通过设置自定义日志路径，您可以存储库生成的运行时日志，帮助您调试和诊断执行过程中可能出现的问题。以下是设置方法：

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

py

PYTHON

在此代码片段中，Logger.EnableDebugging = True启用调试，Logger.LogFilePath = "Custom.log"将输出日志文件设置为"Custom.log"，而Logger.LoggingMode = Logger.LoggingModes.All确保记录所有类型的日志信息。

步骤 7 加载 PDF 文档

使用 IronPDF 加载 PDF 文档就像调用方法一样简单。 PdfDocument.FromFile 方法将给定路径的 PDF 文档加载到 PDF 文件对象中。您只需以字符串形式提供 PDF 文件的路径：

pdf = PdfDocument.FromFile("PDF B.pdf")

py

PYTHON

在此代码中，pdf 变成一个表示指定 PDF 文件的 PdfDocument 对象。

第 8 步阅读 PDF 文件内容

IronPDF提供了一种名为ExtractAllText()的方法，用于从PDF文档中提取文本内容。这在您需要阅读和分析 PDF 文件内容时尤其方便：

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console

py

PYTHON

在此示例中，all_text 将保存来自 pdf 对象的所有 PDF 文件文本。您可以在控制台上阅读 PDF 内容。

如何在Python中读取PDF文件：图5

第 9 步加载第二个 PDF 文件

就像加载第一个 PDF 文档一样，您也可以加载第二个 PDF 文档。当您要处理多个 PDF 文件时，该功能会很有帮助：

pdf_2 = PdfDocument.FromFile("PDF A.pdf")

py

PYTHON

在此代码中，pdf_2 是另一个 PdfDocument 对象，表示第二个 PDF 文件。

第 10 步合并两个文件

IronPDF 的强大功能之一是将多个 PDF 文件合并为一个新的 PDF 文件。您可以使用PdfDocument.Merge方法轻松合并两个或更多的 PDF 文档：

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'

py

PYTHON

在此示例中，merged 是一个新的 PdfDocument 对象，它是合并 pdf 和 pdf_2 的结果。 SaveAs 方法随后将此合并的文档保存为名为 "Merged.pdf"。

如何在 Python 中读取 PDF 文件：图 6

步骤 11 拆分第一个 PDF

IronPDF 还允许您拆分 PDF 文档并将特定页面提取到新的 PDF 文件中。这是使用CopyPage方法完成的：

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'

py

PYTHON

在这里，page1doc 是一个新的 PdfDocument 对象，其中包含 pdf 文档的第一页。然后将此页面保存为名为 "Split1.pdf "的输出 PDF。

如何在 Python 中读取 PDF 文件：图 7

步骤 12 应用水印

水印是 IronPDF 提供的另一项令人印象深刻的功能。您可以在 PDF 文档上添加所需的文本或图像水印。 ApplyWatermark 方法用于将水印添加到由 pdf 对象表示的 PDF 中。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")

py

PYTHON

在此代码片段中，ApplyWatermark 将含有文本 "SAMPLE" 的红色水印应用到 PDF 的正中间。然后，SaveAs 将带水印的文档保存为 "Watermarked.pdf"。

IronPDF兼容性

IronPDF for Python 是一个通用的 Python 库，兼容多种 Python 版本。它支持从 Python 3.6 起的所有现代 Python 版本。 IronPdf 并不局限于单一的操作系统。它与平台无关，因此可以在各种操作系统上使用。无论是 Windows、Mac 还是 Linux，IronPdf.Linux 都能在这些平台上无缝运行。这种跨平台兼容性是一个巨大的优势，使 IronPdf 成为开发人员的首选，无论他们对操作系统的偏好如何。