from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

使用 IRONPDF FOR PYTHON

如何在 Python 中读取扫描的 PDF

Q: 如何在 Python 中从扫描的 PDF 中读取文本？

要在 Python 中从扫描的 PDF 中读取文本，可以使用 IronPDF 的 OCR 功能。首先，使用 pip install ironpdf 安装 IronPDF。然后，使用 PdfDocument.FromFile 加载 PDF，并通过 ExtractAllText 方法提取文本。

Q: 在 Python 环境中设置 IronPDF 需要什么？

要在 Python 中设置 IronPDF，确保您的系统上安装了 Python 和 PIP。然后，运行 pip install ironpdf 安装库，即可开始在 Python 项目中操作 PDF。

Curtis Chau

已更新:2025年7月28日

在数字化转型的时代，PDF文档在信息共享和保存方面的不可或缺性不言自明。

然而，扫描的 PDF 由于通常包含图像而非可搜索文本，给提取有价值的数据带来了重大挑战。

这就是Python作为一种多功能且强大的解决方案出现的地方。它确立了自己作为自动化各种任务的首选编程语言，信息从扫描文档中提取就是一个典型例子。

Python的灵活性和强大的功能支持用户高效地浏览扫描内容的复杂性，提供了一种简化的方法以访问和利用基于图像的PDF中的数据。

Python是使用最广泛的编程语言之一，其先进的功能使其广受欢迎。 22. 访问[Python Wikipedia 页面](https://en.wikipedia.org/wiki/Python_(programming_language)，以了解 Python 编程语言及其结构化格式。

在本文章中，我们将讨论如何利用IronPDF 在 Python 编程语言中读取扫描的 PDF。

如何在Python中读取扫描的PDF

在PyCharm中创建一个新项目。
首先安装IronPDF PDF库以读取扫描的PDF文件。
导入所需的依赖项。
使用PdfDocument.FromFile方法加载扫描的PDF文件。
使用ExtractAllText方法从扫描的PDF中提取所有文本。
使用print()方法打印PDF文件中的所有文本。

IronPDF for Python

IronPDF

是由Iron Software开发的一个强大的库，能够轻松集成PDF生成和操作功能到Python应用程序中。这个多功能工具使开发人员能够轻松创建、修改和与PDF文档交互，支持如动态报告生成、HTML转PDF转换和从现有PDF文件中提取内容等任务。凭借用户友好的API、详尽的文档和丰富的功能，IronPDF简化了将高级PDF功能集成到Python项目中的过程，使其成为希望通过专业级文档处理功能增强应用程序的开发人员的宝贵资源。 ### IronPDF 功能 IronPDF for Python配备了一系列功能，使其成为PDF生成和文本文件结构操控的强大工具。它的一些关键功能包括： 1. **HTML到PDF转换：**将包括CSS和图像在内的HTML内容转化为高质量的PDF文档，允许开发人员在他们的PDF生成过程中利用现有的基于网页的内容，并创建可搜索的PDF文件。 2. **文本和图像操作：**轻松添加和操作PDF文档中的文本、图像和其他元素，提供对生成PDF布局和外观的精细控制。 3. **文档合并和拆分：**将多个PDF文档合并为一个文件或者将大的PDF分割为更小、更易于管理的文件，提供文档组织的灵活性。 4. **PDF表单：**以编程方式创建和填写交互动PDF表单，促进业务应用中文字相关任务的自动化。 5. **安全功能：**实现加密和密码保护以保护PDF文档，确保敏感信息保密并防止未经授权的访问。 6. **文本提取：**从PDF文档中提取文本内容用于分析或索引，允许开发人员使用IronPDF的文本识别功能处理PDF文件中的文本数据。 ### 安装IronPDF for Python 在开始代码教程之前，让我们首先看看如何安装IronPDF for Python。首先，确保系统中安装了Python，并且你有一个好的Python IDE，如PyCharm。此外，需要安装PIP以安装IronPDF for Python。 1. 首先创建一个新的Python项目或打开现有的项目。 2. 打开控制台并运行以下命令并按回车。 ```shell pip install ironpdf ``` 3. 就这样，IronPDF for Python就集成到你的Python项目中了。 ## 使用IronPDF读取扫描的PDF文件在这一部分，我们将看到如何使用IronPDF [提取文字](/python/examples/extract-pdf-text/)从扫描的PDF文件中。 ```python from ironpdf import * # Import everything from ironpdf # Set the license key for IronPDF License.LicenseKey = "Your License Key" # Load the scanned PDF document pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf") # Extract all text from the PDF document all_text = pdf.ExtractAllText() # Print the extracted text print(all_text) ``` 上面的代码示例提取了扫描的PDF文件中的文本。以下是上述代码的分解： 1. **导入IronPDF模块：** ```python from ironpdf import * ``` 这行代码从IronPDF库中导入所需的模块和类别。星号（`*`）表示应该导入模块中的所有类和函数。 2. **设置许可证密钥：** ```python License.LicenseKey = "Your License Key" ``` 这一行设置了IronPDF的许可证密钥。您需要将`"Your License Key"`替换为您从Iron Software获得的实际许可证密钥。许可证密钥是使用IronPDF所必需的，通常在购买产品时提供。 3. **加载扫描的PDF文档：** ```python pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf") ``` 此行加载位于指定文件路径（`"C:/Users/buttw/INV_2023_00008.pdf"`）的扫描PDF文档。 `PdfDocument`对象。 4. **从PDF文档中提取文本：** ```python all_text = pdf.ExtractAllText() ``` 这行代码使用[**ExtractAllText方法**](/python/examples/extract-pdf-text/)从加载的PDF文档的所有页面中提取所有文本内容。提取的文本随后存储在`all_text`变量中。 5. **打印提取的文本：** ```python print(all_text) ``` 最后，这行代码将提取的文本打印到控制台。 `all_text`变量包含扫描PDF文档的文本内容。 #### 输入PDF ![如何在Python中读取扫描的PDF（开发者教程）：图1](/static-assets/pdf/blog/how-to-read-scanned-pdf-in-python/how-to-read-scanned-pdf-in-python-1.webp) #### 输出文本 ![如何在Python中读取扫描的PDF（开发者教程）：图2](/static-assets/pdf/blog/how-to-read-scanned-pdf-in-python/how-to-read-scanned-pdf-in-python-2.webp) ## 结论在数字文档处理领域，Python编程语言作为一个多功能的解决方案出现，能够克服由图像而非可搜索文本构成的扫描PDF所带来的挑战。 Python的灵活性与IronPDF的强大功能相结合，提供了一个引人注目的路径，使开发人员能够无缝将PDF生成、操作和提取功能集成到他们的项目中。

IronPDF

由Iron Software开发，在这方面发挥了重要作用，提供如从各种文档类型转换PDF文件、HTML到PDF页面转换、文本和图像操作以及基于OCR的扫描PDF文本提取等功能。所示代码示例展示了IronPDF读取扫描PDF页面文本的简单实现，展示了高效数据提取的潜力和增强Python应用中文档处理能力的可能性。随着对复杂PDF处理需求的不断增加，IronPDF for Python作为一个有价值的工具，赋予开发人员轻松处理扫描内容复杂性的能力。 IronPDF for Python 提供[试用许可证](trial-license)，这是一个让开发人员了解IronPDF功能的好机会。在此可以找到有关如何从扫描的PDF中提取文本的完整教程[这里](/python/blog/using-ironpdf-for-python/extract-text-from-scanned-pdf-python/)。

常见问题解答

如何在 Python 中从扫描的 PDF 中读取文本？

要在 Python 中从扫描的 PDF 中读取文本，可以使用 IronPDF 的 OCR 功能。首先，使用 pip install ironpdf 安装 IronPDF。然后，使用 PdfDocument.FromFile 加载 PDF，并通过 ExtractAllText 方法提取文本。