在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
本文将演示如何使用 IronPDF for Python(最强大的 PDF 库之一)提取 PDF 文档中的任何可用文本。
打开任何 Python IDE 工具
安装 .NET Core 运行时
安装 IronPDF for Python 库或从 PyPI 下载页面下载
在 Python 中集成 IronPDF 库非常简单,因为与其他语言相比,Python 是一种更加动态的语言,开发人员可以快速轻松地创建图形用户界面。 该软件预装了大量工具,包括 PyQT、wxWidgets、kivy 以及许多其他软件包和库,所有这些工具都可用于快速、安全地创建完整的图形用户界面。
IronPDF for Python 是一个非常高效的库,尤其适用于网络开发。 出现 Django、Flask 和 Pyramid 等众多 Python 网络开发范例的部分原因就在于此。 这些框架已被许多网站和在线服务使用,包括 Reddit、Mozilla 和 Spotify。
在将使用 IronPDF 的源文件开头包含以下导入语句,以便导入 IronPDF:
from ironpdf import *
虽然 IronPDF for Python 可免费使用,但它会为免费用户的 PDF 文件加上平铺背景的水印。 您必须向该库提供合法的许可证密钥,才能使用 IronPdf 创建无水印的 PDF。 以下代码片段显示了如何使用许可证密钥设置库:
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
在创建 PDF 文件或更改其内容之前,请确保已配置许可证密钥。 LicenseKey "方法应在其他代码行之前调用。 至获取免费试用许可证密钥请访问许可页面.
名为 "Default "的文本文件可以存储 Custom.log 在 Python 脚本目录下生成的日志信息。 下面的代码片段可用于设置 LogFilePath
属性并自定义日志文件名和位置:
# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
IronPDF for Python 库可以将 PDF 页面转换为 PDF 对象,并能从 PDF 文件(其中包括扫描的 PDF 文件)中提取文本。 下面是一个示例,展示了如何使用 IronPDF 阅读现有 PDF。
第一种方法是提取 PDF 中的所有可用文本; 下面提供了代码示例。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
如上代码所示,"FromFile "方法是一个 PDF 阅读器对象,它加载现有的 PDF 文件并将其转换为 PDF 文档对象。 该对象可用于阅读 PDF 页面上的文本和图像。 该对象提供了一个名为 "ExtractAllText "的方法,可从整个 PDF 文件中提取每一段文本,并将文本保存为一个可处理的字符串。 然后使用 print
功能显示文本。
显示文本
第二种方法的代码示例可用于从 PDF 文件中逐页提取文本。如下所示。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
如上代码所示,"FromFile "方法用于从现有文件加载 PDF 文件并将其转换为 PDF 文件对象。 PDF 页面对象上一个名为 "ExtractTextFromPage "的方法可检索 PDF 文件中某一页的所有文本。要从特定页面提取文本,必须提供页码作为参数。 然后,在提取文本后,可使用 page_text
来保存可处理的信息。
查看更多示例从 PDF 中提取文本。
IronPdf 库则提供了强大的安全措施,以降低潜在风险。 译文不针对任何一种浏览器,可在所有常用浏览器上运行。 IronPDF 使程序员只需几行代码就能轻松生成和读取 PDF 文件。 IronPDF 库提供一系列许可选项,包括免费的开发人员许可和可购买的额外开发许可,以满足不同开发人员的需求。
IronPdf 包括永久许可证、30 天退款保证、一年软件支持和升级选项。 在首次购买后没有额外费用。 这些许可证可用于开发、暂存和生产环境。 了解有关产品许可的更多信息.
*下载软件产品。