在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
现代库使PDF创建更加简化。 在为PDF项目选择库时,请考虑构建、读取和转换功能,以实现最佳集成和性能。 Python 提供像 IronPDF 这样的工具,可以高效解析现有的 PDF。
Python是一种编程语言,使开发人员能够快速且轻松地构建图形用户界面。 与其他语言相比,它为程序员提供了更大的活力。 因此,将IronPDF库与Python集成是一个简单的过程。
为了快速安全地构建功能完善的GUI,开发者可以利用多个预装工具,包括PyQt、wxWidgets、Kivy以及许多其他软件包和库。 值得注意的是,IronPDF并不是一个纯粹的Python PDF库; 相反,它允许包含来自其他框架(如.NET Core)的各种功能。
IronPDF 简化了 Python 网页设计和开发,尤其是由于 Python 网页开发范式如 Django、Flask 和 Pyramid 的受欢迎程度。 包括Reddit、Mozilla和Spotify在内的知名网站和在线服务都使用了这些框架。 您可以在IronPDF的Python上了解更多信息IronPDF for Python 网站.
确保您的电脑上安装了Python。 访问Python 官方网站下载并安装适合您操作系统的最新版本Python。 一旦安装了Python,设置一个虚拟环境以隔离项目的依赖项。 使用“venv”模块创建和管理虚拟环境,为您的转换项目提供一个干净且独立的工作空间。
我们将使用 PyCharm,一个用于编写 Python 代码的集成开发环境(IDE),来进行此演示。
在启动 PyCharm IDE 后,点击“新建项目”。
PyCharm 欢迎屏幕
当您选择“新项目”时,将会出现一个新窗口,允许您指定项目的位置和其环境。 此新窗口可在下面的截图中看到。
PyCharm 中的新建项目界面
单击创建按钮,设置项目位置和环境路径后,开始一个新项目。 这将打开一个新窗口,可以在其中开发程序。 本教程建议使用 Python 3.9。
在PyCharm中打开的主文件
IronPDF 是一个 Python 库,主要依赖于 .NET 6.0。因此,要使用 IronPDF for Python,您的电脑上必须安装 .NET 6.0 运行时。 在Linux和Mac用户使用此Python模块之前,可能需要安装.NET。 您可以从以下位置获取所需的运行时环境:.NET网站.
需要安装“ironpdf”软件包才能创建、编辑和打开扩展名为“.pdf”的文件。 要在 PyCharm 中安装该软件包,请打开终端窗口并输入以下命令:
pip install ironpdf
下面的截图显示了‘ironpdf’包的设置。
使用 pip 安装 IronPDF 的终端显示
借助IronPDF库,可以从PDF文件中提取文本。 IronPDF 提供多种文本提取技术。 第一种方法涉及将页面上的所有内容作为单个字符串获取。 第二种方法是从第一页开始,逐页读取内容。 以下代码片段演示了使用IronPDF检查当前PDF文件的模式。
从PDF中提取数据有两种方法:
按页从 PDF 中提取。
提取整个 PDF 为文本。
以下是我们将在本文中使用的PDF文件。 它有两个页面。
在每页顶部有页码的PDF
下面提供的示例代码演示了如何使用页码从PDF文件中检索数据。
from ironpdf import *
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
该代码片段演示了使用 FromFile 函数读取 PDF 文件并创建 PDF 文档对象的用法。 该对象允许访问PDF中的文本和图像。 要从特定页面提取文本,可以使用 ExtractTextFromPage
方法,通过提供页码作为参数。 此方法将返回一个包含指定页面上所有单词的字符串。 输出将显示如下。
终端的截图,文字输出"Page 1"
结果中突出显示的矩形框是从PDF文件第一页提取的数据文本,其索引为0。
快速获取所有 PDF 内容为字符串的第一种方法在以下代码示例中展示。
# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
上面的示例代码解释了如何从现有文件路径读取 PDF,并使用 FromFile
函数将其转换为 PDF 文件对象。 PDF 的纯文本将通过对象的 ExtractAllText
函数提取并转换为字符串,然后在终端上打印提取的文本。 结果将显示如下。
终端截图,文本输出为 "Page 1" 和 "Page 2"
结果中高亮显示的矩形框包含从PDF文件的所有页面提取的文本数据。
我们可以借助IronPDF使用C#创建PDF。 要了解有关IronPDF的更多信息,请访问IronPDF 网站.
为了减少风险并确保数据保护,IronPDF库提供了强有力的安全措施。 它兼容所有常用浏览器,并不限于任何一个。 IronPDF使程序员只需几行代码即可轻松创建和读取PDF文件。 为了满足开发人员的各种需求,IronPDF库提供多种许可选项,包括免费开发者许可证和可购买的额外开发许可证。
$749 Lite 套餐包含永久许可证、30 天退款保证、一年的软件支持以及升级可能性。 首次购买后,没有额外费用。 生产、暂存和开发环境都使用这些许可证。 IronPDF 还提供免费许可证,但有一些时间和再分发限制。 在试用期内,用户可以在实际使用中测试产品而不会出现水印。 有关IronPDF试用版的成本和许可证的详细信息,请访问IronPDF许可页面.