from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

使用IRONPDF FOR PYTHON

如何在Python中将PDF转换为文本（教程）

查克尼特·宾

2023年六月30日

更新 2024年九月21日

本文将演示如何使用 IronPDF for Python（最强大的 PDF 库之一）提取 PDF 文档中的任何可用文本。

2.0 如何使用 Python 从 PDF 中提取文本？

从 Python 下载页面安装最新版本的 Python
打开任何 Python IDE 工具
安装 .NET Core 运行时
安装 IronPDF for Python 库或从 PyPI 下载页面下载
从 PDF 中提取文本

2.1 什么是 IronPDF for Python？

在 Python 中集成 IronPDF 库非常简单，因为与其他语言相比，Python 是一种更加动态的语言，开发人员可以快速轻松地创建图形用户界面。该软件预装了大量工具，包括 PyQT、wxWidgets、kivy 以及许多其他软件包和库，所有这些工具都可用于快速、安全地创建完整的图形用户界面。

IronPDF for Python 是一个非常高效的库，尤其适用于网络开发。出现 Django、Flask 和 Pyramid 等众多 Python 网络开发范例的部分原因就在于此。这些框架已被许多网站和在线服务使用，包括 Reddit、Mozilla 和 Spotify。

2.2 IronPDF 的特点

PDF 文件可以从多种来源创建，包括 HTML、HTML5、ASP 和 PHP 网站。除了 HTML 文件外，还可以将图像文件转换为 PDF。
IronPDF允许您构建交互式PDF文档，填写并发送交互式表单，拆分和合并PDF文件，从PDF文件中提取文本和图像，在PDF文件中搜索特定的单词，将PDF页面光栅化为图像，将PDF转换为HTML，并打印PDF文件。
IronPdf 可以打开 PDF 文件并从 URL 打印。此外，它还能让用户代理在 HTML 登录表单、代理、cookie、HTTP 标头、自定义网络登录凭证、表单变量和用户代理后面登录。
可以使用 IronPDF 从文件中提取图片。
使用 IronPDF，可以非常轻松地添加页眉和页脚、文本和图片、书签以及水印等内容到文档中。
可以使用 IronPDF 将新文档或现有文档的页面进行组合和分离。
在不使用 Acrobat 浏览器的情况下，可将文档转换为 PDF 对象。
可以使用 CSS 文件制作 PDF 文档。
可以使用媒体类型的 CSS 文件创建文档。

2.3 导入 IronPDF 库

在将使用 IronPDF 的源文件开头包含以下导入语句，以便导入 IronPDF：

from ironpdf import *

from ironpdf import *

PYTHON

2.4 设置许可证密钥（如需要）

虽然 IronPDF for Python 可免费使用，但它会为免费用户的 PDF 文件加上平铺背景的水印。您必须向该库提供合法的许可证密钥，才能使用 IronPdf 创建无水印的 PDF。以下代码片段显示了如何使用许可证密钥设置库：

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"

PYTHON

在创建 PDF 文件或更改其内容之前，请确保已配置许可证密钥。 LicenseKey 方法应在任何其他代码行之前调用。要获取免费试用许可证密钥，请访问许可页面。

2.5 设置日志文件

名为 "Default "的文本文件可以存储 Custom.log 在 Python 脚本目录下生成的日志信息。以下代码片段可用于设置LogFilePath属性，并自定义日志文件的名称和位置：

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

PYTHON

3.0 使用 IronPDF 提取 PDF 文本

IronPDF for Python 库可以将 PDF 页面转换为 PDF 对象，并能从 PDF 文件（其中包括扫描的 PDF 文件）中提取文本。下面是一个示例，展示了如何使用 IronPDF 阅读现有 PDF。

第一种方法是提取 PDF 中的所有可用文本；下面提供了代码示例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

如上面的代码所示，FromFile方法是一个PDF读取对象，用于加载现有PDF文件并将其转换为PDF文档对象。该对象可用于阅读 PDF 页面上的文本和图像。该对象提供了一个名为ExtractAllText的方法，该方法从整个PDF文件中提取每一段文本，并将文本保存在一个可以处理的字符串中。然后使用print函数显示文本。

如何在Python中将PDF转换为文本（教程），图1：显示文本

显示文本

第二种方法的代码示例可用于从 PDF 文件中逐页提取文本。如下所示。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)

PYTHON

FromFile 方法用于从现有文件中加载 PDF 文件并将其转换为 PDF 文件对象，如上面的代码所示。在 PDF 页面对象上调用的方法ExtractTextFromPage可从 PDF 文件的页面中提取所有文本。必须提供页码作为参数以从该特定页面提取文本。然后，在提取文本之后，page_text 可以用来保存可以处理的信息。

查看更多示例以从PDF中提取文本。