在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
在文档共享和数据处理方面,Adobe 创建的便携式文档格式 (PDF) PDF 文件对于保持文字丰富、美观的内容的完整性至关重要。要访问在线 PDF 文件,通常需要一个带有所需模块的特定程序。在现代,许多重要的数字出版物都需要 PDF 文件。在制作专业文件和发票时,许多企业都使用 PDF 数据文件。为了满足客户的某些要求,如提取数据,开发人员经常使用 PDF 文档创建库。
当代库的发展使 PDF 创建和文本提取变得更加容易。为了实现无缝集成和最佳性能,在为涉及 PDF 生成的项目选择合适的库时,必须将构建、读取、从 PDF 文件中提取数据和转换功能考虑在内。Python 可用于解析现有 PDF 并从中提取页面文本。目前有多种 Python 库可用。IronPDF 是一个功能强大的库,可以从 PDF 文件中提取文本和图像等内容。
在本文中,我们将借助 IronPDF Python 库从 PDF 文档中提取文本元素。
Python 是一种编程语言,它能让开发人员简单快捷地创建图形用户界面。与其他语言相比,Python 对程序员来说更具活力。因此,将 IronPDF 库添加到 Python 中是一个简单的过程。大量预装工具,包括 PyQt、wxWidgets、Kivy 以及许多其他软件包和 Python 库,可用于快速安全地构建完整的图形用户界面。IronPDF 融合了 Python,还允许我们集成其他框架(如 .NET Core)的功能。
IronPDF 让网络开发变得更简单。其主要原因是 Django、Flask 和 Pyramid 等 Python 网络开发范例的广泛采用。Reddit、Mozilla 和 Spotify 只是使用这些框架的网站和在线服务中的一小部分。
IronPDF 使用用户名和密码让用户访问受保护的文档。
确保已在计算机上设置好 Python。要下载并安装与操作系统兼容的最新 Python 版本,请访问 Python 官方网站 网站.安装 Python 后,创建一个虚拟环境,将项目需求分开。使用 venv 模块创建和管理虚拟环境,为您的转换项目提供整洁、独立的工作场所。
在本演示中,我们将使用 PyCharm,这是一个用于开发 Python 代码的集成开发环境。
启动 PyCharm IDE 后,选择 "新建项目"。
选择 "新建项目 "后会打开一个新窗口,让你设置项目的位置和环境。如下图所示。
选择项目位置和环境路径后,点击 "创建 "按钮开始一个新项目。然后,程序就可以在打开的新窗口中创建了。本课使用 Python 3.9。
Python 库 IronPDF 主要使用 .NET 6.0。因此,必须在计算机上安装 .NET 6.0 运行时才能使用 IronPDF Python。Linux 和 Mac 用户在使用此 Python 模块之前可能需要安装 .NET。请访问 页码 来获取所需的运行环境。
要生成、修改和打开扩展名为".pdf "的文件,必须安装 "ironpdf "软件包。打开终端窗口,输入以下命令在 PyCharm 中安装该软件包:
:PackageInstall
ironpdf "软件包的安装过程如下图所示。
我们还可以借助 IronPDF 库从 PDF 文件中提取文本。IronPDF 提供多种文本提取方法。第一种方法是以单个字符串的形式提取整个页面的内容。第二种方法是从第一页开始逐页提取内容。可以使用 IronPDF 库调查现有的 PDF 文件。下面的代码片段展示了如何使用 IronPDF 检查实时 PDF 文件。
我们有两种从 PDF 中提取信息的方法:
1.从 PDF 逐页提取
2.将整个 PDF 转换为文本
我们将在本文中使用的 PDF 文件如下。
下面提供的示例代码展示了如何使用页码从 PDF 文件中获取数据。
from ironpdf import *
# # PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
代码片段展示了如何使用 FromFile
函数读取 PDF 文件并创建 PDF 对象。我们可以使用该对象访问 PDF 的文本和照片。通过将页码作为参数传递给 ExtractTextFromPage
函数,我们可以检索特定页面的文本。该方法将返回一个包含所选页面上所有文字的字符串。然后,我们使用 Python 中的 split
函数从提取的文本中分割出所有新行。然后,我们检查提取文本中的每一行是否包含我们需要查找的关键词。如果关键字匹配,就会在命令提示符中显示特定行。否则,它将忽略该行并转到下一行。文本提取的输出结果如下所示。
下面的代码示例演示了第一种快速、简单地将 PDF 内容转换为字符串的方法。
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
上面的示例代码演示了如何使用 FromFile
函数从现有文件路径读取 PDF 并将其转换为 PDF 文件对象。因此,我们可以使用该 PDF 阅读器对象查看 PDF 中的文本和图像。该对象的 ExtractAllText
函数将用于将 PDF 中的数据提取为纯文本,并将其转换为字符串,然后使用与上述类似的逻辑查找特定的关键字,将结果显示在终端中。结果显示如下
上述代码/输出显示给定的 PDF 文档包含姓名和年龄,但结果只显示了 PDF 文档中的姓名。
IronPDF 库提供了强大的安全机制,以减少威胁并确保数据安全。它不局限于任何一种浏览器,与所有广泛使用的浏览器兼容。只需几行代码,程序员就能使用 IronPDF 快速生成和读取 PDF 文件。IronPDF 库提供一系列许可选项,包括免费的开发人员许可和可购买的额外开发许可,以满足开发人员的不同需求。
永久许可证、30 天退款保证、一年的软件维护和升级选项都包含在 IronPDF 库中。 简易套餐.这些许可证可用于所有环境。此外,IronPDF 还提供免费许可证,但有一些再分发限制。A 试用许可 允许用户在没有水印的情况下对产品进行评估。
请 查看可用的 IronPDF 许可证 了解有关商业许可的更多信息。