from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

使用 IRONPDF FOR PYTHON

如何在 Python 中閱讀掃描的 PDF

Q: 如何在 Python 中從掃描 PDF 中讀取文本？

要在 Python 中從掃描 PDF 中讀取文本，您可以使用 IronPDF 的 OCR 功能。首先，使用 pip install ironpdf 安裝 IronPDF。然後，使用 PdfDocument.FromFile 加載您的 PDF，並使用 ExtractAllText 方法提取文本。

Q: 在 Python 環境中設置 IronPDF 需要哪些要求？

要在 Python 中設置 IronPDF，請確保您的系統上已安裝有 Python 和 PIP。然後運行 pip install ironpdf 來安裝該庫，這樣您就可以開始在您的 Python 項目中操作 PDF。

Curtis Chau

更新:2025年7月28日

在數位轉型的時代，PDF文件作為分享和保存信息的不可或缺性不可低估。

然而，掃描PDF的普遍存在，經常包含影像而不是可搜尋的文字，這在提取有價值數據時提出了巨大的挑戰。

這就是Python作為一個多功能且強大的解決方案的出現，使其成為自動化多種任務的首選編程語言，以從掃描文件中提取信息為主要例子。

Python的靈活性和強大的能力讓用戶能夠有效地導航掃描內容的複雜性，提供了一種流線型的方法來從基於影像的PDF中存取和利用資料。

Python是使用最廣泛的編程語言之一，具有其高級功能。造訪Python維基百科頁面以了解Python編程語言及其結構化格式。

在這篇文章中，我們將討論如何在Python編程語言中使用IronPDF來讀取掃描的PDF文件。

如何在Python中讀取掃描PDF

在PyCharm中創建一個新項目。
首先，安裝IronPDF PDF程式庫來讀取掃描的PDF文件。
引入所需的依賴項。
使用PdfDocument.FromFile方法載入掃描的PDF文件。
使用ExtractAllText方法從掃描的PDF中提取所有文本。
使用print()方法打印PDF文件中的所有文本。

IronPDF for Python

Iron Software開發的IronPDF for Python是一個強大的程式庫，允許無縫整合PDF生成和操作能力到Python應用程式中。

這個多功能工具使開發者能夠輕鬆創建、修改和與PDF文件互動，支持如動態報告生成、HTML到PDF轉換和從現有PDF文件提取內容等任務。

借助於用戶友好的API、全面的文件和一系列功能，IronPDF簡化了將高級PDF功能整合到Python項目的過程，使它成為開發者希望提升應用程序專業級文件處理能力的寶貴資源。

IronPDF特性

IronPDF for Python配備了一系列功能，使其成為PDF生成和文字文件結構操作的強大工具。

其中的一些主要特點包括：

HTML到PDF轉換：將包括CSS和影像在內的HTML內容轉換為高質量的PDF文件，允許開發者在其PDF生成過程中利用現有的基於網頁的內容並製作可搜尋的PDF文件。
文本與影像操作：容易在PDF文件中添加和操作文本、影像和其他元素，為生成的PDF提供對版面和外觀的精細控制。
文件合併與拆分：將多個PDF文件合併為一個文件或將大型PDF拆分為較小、更易於管理的文件，提供文件組織的彈性。
PDF表單：程式化地創建和填寫互動式PDF表單、促進業務應用程式中的自動化表單相關任務。
安全功能：實施加密和密碼保護以確保PDF文件安全，保證敏感信息在未經授權訪問時保持機密性和受保護。
文本提取：為分析或索引目的從PDF文件中提取文本內容，讓開發者能利用IronPDF的文字識別能力處理PDF文件中的文本數據。

安裝Python的IronPDF

在開始程式碼教程之前，首先看一下如何安裝Python的IronPDF。

首先，確保系統中已安裝Python，並且您有很好的Python IDE，例如PyCharm。還應該安裝PIP以便安裝Python的IronPDF。

首先，創建一個新的Python項目或打開一個現有的。
打開控制台並運行以下命令，然後按下回車。
```
pip install ironpdf
```
```
pip install ironpdf
```
SHELL
就這樣，IronPDF for Python就整合到您的Python項目中了。

使用IronPDF for Python讀取掃描的PDF文件

在此部分，我們將看到如何使用IronPDF從掃描的PDF文件中提取文本。

from ironpdf import *  # Import everything from ironpdf

# Set the license key for IronPDF
License.LicenseKey = "Your License Key"

# Load the scanned PDF document
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")

# Extract all text from the PDF document
all_text = pdf.ExtractAllText()

# Print the extracted text
print(all_text)

from ironpdf import *  # Import everything from ironpdf

# Set the license key for IronPDF
License.LicenseKey = "Your License Key"

# Load the scanned PDF document
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")

# Extract all text from the PDF document
all_text = pdf.ExtractAllText()

# Print the extracted text
print(all_text)

PYTHON

上述代碼示例從掃描的PDF文件中提取文本。以下是上述代碼的分解：

導入IronPDF模組：
```
from ironpdf import *
```
```
from ironpdf import *
```
PYTHON
這行代碼從IronPDF程式庫中導入必要的模組和類別。星號（*）表示應導入所有來自模組的類別和功能。
設置授權金鑰：
```
License.LicenseKey = "Your License Key"
```
```
License.LicenseKey = "Your License Key"
```
PYTHON
這行代碼設置IronPDF的授權金鑰。您需要將"Your License Key"替換為您從Iron Software獲得的實際授權金鑰。

授權金鑰是必需的，用於使用IronPDF，通常在購買產品時提供。

載入掃描的PDF文件：
```
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
```
```
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
```
PYTHON
這行代碼載入位於指定文件路徑的掃描PDF文件（"C:/Users/buttw/INV_2023_00008.pdf"）。使用PdfDocument對象。
從PDF文件提取文本：
```
all_text = pdf.ExtractAllText()
```
```
all_text = pdf.ExtractAllText()
```
PYTHON
這行代碼使用ExtractAllText方法從所有頁面中提取已載入的PDF文件內的所有文本內容。提取的文本儲存在all_text變數中。
打印提取的文本：
```
print(all_text)
```
```
print(all_text)
```
PYTHON
最後，這行代碼將提取的文本打印到控制檯上。 all_text變數包含掃描PDF文檔的文本內容。