PYTHON PDF 工具 如何在 Python 中读取 PDF 文件 Curtis Chau 已更新:七月 28, 2025 Download IronPDF pip 下载 Start Free Trial Copy for LLMs Copy for LLMs Copy page as Markdown for LLMs Open in ChatGPT Ask ChatGPT about this page Open in Gemini Ask Gemini about this page Open in Grok Ask Grok about this page Open in Perplexity Ask Perplexity about this page Share Share on Facebook Share on X (Twitter) Share on LinkedIn Copy URL Email article PDF,或可移植文档格式文件,已成为共享文档的通用标准。 由于它们能够保留文档的布局和格式,因此被广泛使用。 然而,使用像 Python 这样的编程语言操作 PDF 文件可能会有些挑战。 本文介绍了 IronPDF,一个 Python PDF 库,允许我们对 PDF 文档执行各种操作。 IronPDF for Python PDF 库 IronPDF 是一个高级 Python PDF 库,可简化 PDF 文件格式的操作。 它提供了一个易于使用的 API,用于各种 PDF 操作。 您可以读取和写入 PDF 文件,将 PDF 文件转换为不同格式,合并多个 PDF 文件等。 它还可以处理页面对象,从 PDF 文件的所有页面中提取文本,旋转 PDF 页面,以及其他功能。 如何在 Python 中读取 PDF 文件 使用 Pip 安装 Python PDF 库。 在 Python 脚本中导入 Python PDF 库。 应用 PDFReader Python 库的许可证密钥。 提供文档路径以加载任何 PDF 文档。 在 Python 控制台上读取 PDF 内容。 使用 IronPDF 读取 PDF 文件 使用 IronPDF 读取 PDF 文件涉及几个步骤。 这里是一个简单的指南来帮助您入门: 步骤 1 在 Visual Studio 中创建虚拟环境 使用 Python 时,创建一个称为虚拟环境的独立环境至关重要。 该环境允许您管理特定于您正在进行的项目的依赖项,而不会干扰其他项目。 在集成开发环境 (IDE) 中创建虚拟环境变得更加简单,如 Visual Studio Code。 为此,请按照以下步骤操作: 在 Visual Studio Code 中打开文件夹。 按 Ctrl+Shift+P 打开命令面板。 在命令面板中,搜索“Python: Create Environment”。 选择第一个选项,然后选择“Venv”作为环境类型。 之后,选择 Python 解释器,它将开始创建虚拟环境。 现在,您的隔离工作区已准备好用于 Python 脚本,确保项目依赖项限制在此环境内。 步骤 2 安装 IronPDF for Python 库 虚拟环境设置好之后,您就可以安装 IronPDF for Python 库。 您可以使用 Python 包管理器 'pip' 安装它: pip install ironpdf pip install ironpdf SHELL 步骤 3 安装 .NET 6.0 IronPDF for Python 需要安装 .NET 6.0 SDK。 请从 微软 .NET 网站下载并安装 .NET 6.0 SDK。 步骤 4 导入 IronPDF 成功安装 IronPDF 后,下一步就是将其导入到您的 Python 脚本中。 导入库会使其所有的功能和方法在您的脚本中可用。 您可以使用以下代码导入 IronPDF: from ironpdf import * from ironpdf import * PYTHON 这行代码将 IronPDF 库中的所有模块、函数和类导入到您的脚本中。 步骤 5 应用许可证密钥 要完全解锁 IronPDF 库的功能,您需要应用一个许可证密钥。 应用许可证密钥的步骤很简单,只需将密钥赋值给 LicenseKey 属性的 License 类。 以下是如何操作的: License.LicenseKey = "License-Key-Here" License.LicenseKey = "License-Key-Here" PYTHON 替换 "License-Key-Here" 为您的实际 IronPDF 许可证密钥。 有了许可证密钥,您现在可以在 Python 脚本中充分利用 IronPDF 库的全部潜力。 步骤 6 设置日志路径 接下来,为 IronPDF 操作设置日志记录。 通过设置自定义日志路径,您可以存储库生成的运行时日志,帮助您调试和诊断执行期间可能发生的问题。 这是如何设置的: # Enable debugging mode for detailed logs Logger.EnableDebugging = True # Set the path for the log file Logger.LogFilePath = "Custom.log" # Set logging mode to capture all log types Logger.LoggingMode = Logger.LoggingModes.All # Enable debugging mode for detailed logs Logger.EnableDebugging = True # Set the path for the log file Logger.LogFilePath = "Custom.log" # Set logging mode to capture all log types Logger.LoggingMode = Logger.LoggingModes.All PYTHON 在此代码片段中,Logger.EnableDebugging = True 打开调试,Logger.LogFilePath = "Custom.log" 设置输出日志文件到 "Custom.log",Logger.LoggingMode = Logger.LoggingModes.All 确保记录所有类型的日志信息。 步骤 7 加载 PDF 文档 使用 IronPDF 加载 PDF 文档就像调用一个方法一样简单。 PdfDocument.FromFile 方法将指定路径的 PDF 文档加载到一个 PDF 文件对象中。 您只需要以字符串形式提供 PDF 文件的路径: pdf = PdfDocument.FromFile("PDF B.pdf") pdf = PdfDocument.FromFile("PDF B.pdf") PYTHON 在这段代码中,pdf 变成一个代表指定的 PDF 文件的 PdfDocument 对象。 步骤 8 读取 PDF 文件内容 IronPDF 提供了一个名为 ExtractAllText() 的方法,用于提取 PDF 文档的文本内容。 当您需要读取和分析 PDF 文件的内容时,这尤其方便: all_text = pdf.ExtractAllText() # Extracts all text from the PDF document print(all_text) # Prints the extracted text to the console all_text = pdf.ExtractAllText() # Extracts all text from the PDF document print(all_text) # Prints the extracted text to the console PYTHON 在这个例子中,all_text 将保存来自 pdf 对象的所有 PDF 文件文本。 您可以在控制台上读取 PDF 内容。 步骤 9 加载第二个 PDF 文件 像加载第一个 PDF 文档一样,您也可以加载第二个 PDF 文档。 此功能在您想要操作多个 PDF 文件时非常有用: pdf_2 = PdfDocument.FromFile("PDF A.pdf") pdf_2 = PdfDocument.FromFile("PDF A.pdf") PYTHON 在这段代码中,pdf_2 是另一个代表第二个 PDF 文件的 PdfDocument 对象。 步骤 10 合并两个文件 IronPDF 的另一个强大功能是使用 合并多个 PDF 文件 为一个新的 PDF 文件。 merged = PdfDocument.Merge(pdf, pdf_2) # Merges pdf and pdf_2 documents merged.SaveAs("Merged.pdf") # Saves the merged document as 'Merged.pdf' merged = PdfDocument.Merge(pdf, pdf_2) # Merges pdf and pdf_2 documents merged.SaveAs("Merged.pdf") # Saves the merged document as 'Merged.pdf' PYTHON 您可以使用 PdfDocument.Merge 方法轻松合并两个或更多的 PDF 文档: 在这个例子中,merged 是一个新的 PdfDocument 对象,它是 pdf 和 pdf_2 合并的结果。 SaveAs 方法将此合并文档保存为 "Merged.pdf"。 步骤 11 拆分第一个 PDF IronPDF 还允许您拆分 PDF 文档并将特定页面提取为新的 PDF 文件。 page1doc = pdf.CopyPage(0) # Copies the first page of the pdf document page1doc.SaveAs("Split1.pdf") # Saves the copied page as a new document 'Split1.pdf' page1doc = pdf.CopyPage(0) # Copies the first page of the pdf document page1doc.SaveAs("Split1.pdf") # Saves the copied page as a new document 'Split1.pdf' PYTHON 这可以使用 CopyPage 方法完成: 在这里,page1doc 是一个新的 PdfDocument 对象,其中包含 pdf 文档的第一页。 这个页面随后被保存为一个名为 "Split1.pdf" 的输出 PDF。 步骤 12 应用水印 Watermarking 是 IronPDF 提供的另一个令人印象深刻的功能。 您可以用想要的文本或图像给 PDF 文档加水印。 pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center) pdf.SaveAs("Watermarked.pdf") pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center) pdf.SaveAs("Watermarked.pdf") PYTHON ApplyWatermark 方法用于在由 pdf 对象表示的 PDF 上添加水印。 在这个代码片段中,ApplyWatermark 在 PDF 中心中间应用带有 "SAMPLE" 字样的红色水印。 然后,SaveAs 将带水印的文档保存为 "Watermarked.pdf"。 IronPDF 兼容性 IronPDF 是一个功能多样的 Python 库,兼容多个 Python 版本。 它支持从 Python 3.6 开始的所有现代 Python 版本。 IronPDF 不仅限于单一操作系统。 它是跨平台的,因此可以在多种操作系统上使用。 无论是 Windows、Mac 或 Linux,IronPDF 在这些平台之间无缝工作。 结论 这种跨平台兼容性是一个巨大的优势,使 IronPDF 成为开发者的首选,无论他们的操作系统偏好如何。 总之,IronPDF 是一个出色的 Python 库,可以简化与 PDF 文档相关的操作。 无论您需要合并多个 PDF,提取文本,拆分 PDF 文件或应用水印,IronPDF 都能满足您的需求。 IronPDF 提供免费试用。 它对多个平台的兼容性和易用性使其成为任何开发者处理 PDF 文档的宝贵工具。 这个试用期给您充足的机会来实验其功能并评估其是否适合您的特定需求。 Curtis Chau 立即与工程团队聊天 技术作家 Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。 相关文章 已更新六月 22, 2025 在 Python 中查找列表中的项 本文探索了使用 Python 在列表中查找任何元素时的各种方法,它将为您提供可用选项及其应用的全面理解。 阅读更多 已更新六月 22, 2025 Spyder Python IDE:完整指南 在本文中,我们将探索什么是 Spyder,如何安装它,以及如何使用其关键功能。 阅读更多 已更新七月 28, 2025 在 Python 中使用 Pytest 编写测试 PyTest 是一个强大、灵活且用户友好的测试框架,在 Python 社区中非常受欢迎 阅读更多 如何在 Python 中创建 PDF 文件如何在 Python 中将 HTML 转换...