PYTHON PDF 工具

如何在Python中读取PDF文件

发布 2023年七月3日
分享:

PDF 或便携式文档格式文件已成为共享文档的通用标准。它们因能够保留文档的布局和格式而被广泛使用。然而,使用 Python 等编程语言处理 PDF 文件可能是一项挑战。本文将介绍 IronPDF,这是一个允许我们对 PDF 文档执行各种操作的 Python PDF 库。

IronPDF Python PDF 库

IronPDF 是一款先进的 Python PDF 库 它为 PDF 格式文件的处理提供了便利。它为各种 PDF 操作提供了易于使用的 API。你可以读写 PDF 文件、将 PDF 文件转换为不同格式、合并多个 PDF 文件等等。它还可以处理页面对象、从 PDF 文件的所有页面中提取文本以及旋转 PDF 页面等功能。

如何用 Python 阅读 PDF 文件

1.使用 Pip 安装 Python PDF 库。

2.在 Python 脚本中导入 Python PDF 库。

3.应用 PDFReader Python 库的许可证密钥。

4.提供 PDF 文档的路径,加载任何 PDF 文档。

5.在 Python 控制台上阅读 PDF 内容。

使用 IronPDF 阅读 PDF 文件

使用 IronPDF 阅读 PDF 文件涉及几个步骤。下面是一份简单的入门指南:

步骤 1 在 Visual Studio 中创建虚拟环境

在使用 Python 时,创建一个称为虚拟环境的隔离环境至关重要。通过虚拟环境,您可以在不影响其他项目的情况下管理您正在处理的项目的特定依赖关系。在集成开发环境中,创建虚拟环境变得更加简单明了 (IDE) 就像 Visual Studio Code 一样。为此,请按照以下步骤操作:

1.在 Visual Studio Code 中打开文件夹。按 Ctrl+Shift+P 打开命令面板。在命令调板中,搜索 "Python:创建环境"。

![如何用 Python 阅读 PDF 文件:图 1](/static-assets/pdf/blog/python-read-pdf-tutorial/python-read-pdf-tutorial-1.webp)

2.选择第一个选项,然后选择 "Venv "作为环境类型。

![如何用 Python 阅读 PDF 文件:图 2](/static-assets/pdf/blog/python-read-pdf-tutorial/python-read-pdf-tutorial-2.webp)

3.然后,选择 Python 解释器,它就会开始创建虚拟环境。

![如何用 Python 阅读 PDF 文件:图 3](/static-assets/pdf/blog/python-read-pdf-tutorial/python-read-pdf-tutorial-3.webp)

现在,您已经为 Python 脚本准备好了隔离的工作区,确保项目依赖关系被限制在此环境中。

如何用 Python 阅读 PDF 文件:图 4

第 2 步 安装 IronPDF Python 库

设置好虚拟环境后,就可以安装 IronPDF Python 库了。您可以使用 Python 软件包安装程序 "pip "来安装:

 pip install ironpdf

步骤 3 安装 .NET 6.0

IronPDF for Python 需要安装 .NET 6.0 SDK。

请从以下网址下载并安装 .NET 6.0 SDK 微软 .NET 网站.

第 4 步 导入 IronPDF

成功安装 IronPDF 后,下一步就是将其导入 Python 脚本。导入 IronPDF 库后,它的所有函数和方法都可以在脚本中使用。您可以使用以下代码导入 IronPDF:

from ironpdf import *
PYTHON

这行代码将 IronPDF 库中的所有模块、函数和类导入到脚本中。

第 5 步 应用许可证密钥

要完全释放 IronPDF 库的功能,您需要应用许可证密钥。应用许可证密钥非常简单,只需将密钥分配给 "License "类的 "LicenseKey "属性即可。下面介绍如何操作:

License.LicenseKey = "License-Key-Here"
PYTHON

将 "License-Key-Here "替换为实际的 IronPDF 许可证密钥。有了许可证密钥,您就可以在 Python 脚本中充分发挥 IronPDF 库的潜力了。

步骤 6 设置日志路径

接下来,设置 IronPDF 运行日志。通过设置自定义日志路径,你可以存储库生成的运行时日志,帮助你调试和诊断执行过程中可能出现的问题。以下是设置方法:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

在此代码段中,Logger.EnableDebugging = True 打开调试,Logger.LogFilePath = "Custom.log 将输出日志文件设置为 "Custom.log",Logger.LoggingMode = Logger.LoggingModes.All 确保记录所有类型的日志信息。

第 7 步 加载 PDF 文档

使用 IronPDF 加载 PDF 文档就像调用一个方法一样简单。PdfDocument.FromFile "方法可将给定路径下的 PDF 文档加载到 PDF 文件对象中。您只需以字符串形式提供 PDF 文件的路径:

pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

在这段代码中,"pdf "变成了代表指定 PDF 文件的 "PdfDocument "对象。

第 8 步 阅读 PDF 文件内容

IronPDF 提供了一种名为 "ExtractAllText "的方法。()有助于 从 PDF 中提取文本内容 文件。这在您需要阅读和分析 PDF 文件内容时尤其方便:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

在本例中,"all_text "将保存来自 "pdf "对象的所有 PDF 文件文本。您将能在控制台中读取 PDF 内容。

如何用 Python 阅读 PDF 文件:图 5

第 9 步 加载第二个 PDF 文件

就像加载第一个 PDF 文档一样,你也可以加载第二个 PDF 文档。当你要处理多个 PDF 文件时,这项功能会很有帮助:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

在这段代码中,pdf_2是另一个PdfDocument对象,代表第二个 PDF 文件。

第 10 步 合并两个文件

IronPDF 的强大功能之一是 合并多个 PDF 文件 合并成一个新的 PDF 文件。使用 "PdfDocument.Merge "方法,您可以轻松合并两个或多个 PDF 文档:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

在本例中,"merged "是一个新的 "PdfDocument "对象,是合并 "pdf "和 "pdf_2 "的结果。然后,SaveAs方法会将合并后的文档保存为 "Merged.pdf"。

如何用 Python 阅读 PDF 文件:图 6

第 11 步 拆分第一个 PDF 文件

IronPDF 还允许您 分割 PDF 文档 并将特定页面提取到新的 PDF 文件中。这可以使用 CopyPage 方法来完成:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

这里,"page1doc "是一个新的 PdfDocument 对象,包含了 "pdf "文档的第一页。这一页将被保存为名为 "Split1.pdf "的 PDF 输出文件。

如何用 Python 阅读 PDF 文件:图 7

第 12 步 应用水印

水印是 IronPDF 提供的另一项令人印象深刻的功能。您可以在 PDF 文档上添加所需的文本或图像水印。ApplyWatermark "方法用于在 "pdf "对象所代表的 PDF 中添加水印。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

在此代码段中,ApplyWatermark 在 PDF 的中间位置添加了红色水印,并标有 "SAMPLE "字样。然后,SaveAs 将带有水印的文档保存为 "Watermarked.pdf"。

IronPDF 兼容性

IronPDF 是一个通用的 Python 库,兼容多种 Python 版本。它支持从 Python 3.6 起的所有现代 Python 版本。IronPDF 并不局限于单一的操作系统。它与平台无关,因此可以在各种操作系统上使用。无论是 Windows、Mac 还是 Linux,IronPDF 都能在这些平台上无缝运行。这种跨平台兼容性是一个巨大的优势,使 IronPDF 成为开发人员的首选,无论他们对操作系统的偏好如何。

结论

总之,IronPDF 是一个优秀的 Python 库,它简化了处理 PDF 文档的过程。无论您需要合并多个 PDF、提取文本、分割 PDF 文件还是应用水印,IronPDF 都能满足您的需求。IronPDF 与多种平台的兼容性和易用性使其成为任何处理 PDF 文档的开发人员的宝贵工具。

IronPDF 提供了 免费试用.试用期让您有充分的机会试用其功能,并评估其是否适合您的特定需求。试用结束后,您可以购买起价为 $749 的许可证。

< 前一页
如何在Python中创建PDF文件
下一步 >
如何在Python中将HTML转换为PDF

准备开始了吗? 版本: 2024.9 刚刚发布

免费 pip 安装 查看许可证 >