使用IRONPDF FOR PYTHON

如何在 Python 中讀取掃描的 PDF(開發者教程)

發佈 2024年1月14日
分享:

在數位轉型的時代,共享和保存資訊的 PDF 文件不可或缺。

然而,如此普遍的 掃描的PDF檔案, 這些文件通常包含圖片而不是可搜索的文字,在提取有價值數據時帶來了重大挑戰。

這時 Python 脫穎而出,成為一個多功能而強大的解決方案,確立了自己作為自動化各種任務的首選編程語言,其中信息提取自掃描文件是主要例子。

Python 的靈活性和強大的功能使用戶能夠有效地駕馭掃描內容的複雜性,提供了一種簡化的方法來訪問和利用基於圖像的 PDF 中的數據。

Python 是使用最多的編程語言之一,具有其先進的功能,請訪問 Python 維基百科頁面 了解 Python 程式語言及其結構化格式。

在這篇文章中,我們將討論如何在 Python 程式語言中使用 IronOCR 閱讀掃描的 PDF。 IronPDF 適用於 Python 的 PDF 庫。

如何在 Python 中閱讀掃描的 PDF

  1. 在 IronPDF for Python 中創建一個新項目 PyCharm.
  2. 要閱讀掃描的 PDF 檔案,請先安裝 IronPDF PDF Library。

  3. 載入所需的相依性。

  4. 使用 "PdfDocument.FromFile" 方法加載掃描的 PDF 檔案。

  5. 使用 "ExtractAllText" 方法從掃描的 PDF 中提取所有文本。

  6. 使用打印機打印 PDF 檔案中的所有文本。() 方法。

IronPDF for Python

IronPDF IronPDF for Python 是由 Iron Software 開發的一個強大的庫,使 PDF 生成和操作功能能夠無縫整合到 Python 應用程式中。

這個多功能工具使開發人員能夠輕鬆地創建、修改和處理 PDF 文件,支持動態報告生成、HTML 到 PDF 轉換以及從現有 PDF 文件中提取內容等任務。

透過用戶友好的 API、全面的文檔和一系列功能,IronPDF 簡化了在 Python 專案中加入高階 PDF 功能的過程,使其成為開發人員提升應用程式中專業級文件自然語言處理能力的寶貴資源。

IronPDF 功能

IronPDF for Python 配備了一系列功能,使其成為 PDF 生成和文本文件結構操作的強大工具。

其主要功能包括:

  1. HTML 到 PDF 轉換: 將 HTML 內容,包括 CSS 和圖像,轉換為高質量的 PDF 文件,使開發人員能夠利用現有的基於網頁的內容在它們的 PDF 生成過程中並創建可搜索的 PDF 文件。

  2. 文本和圖像操作: 輕鬆添加和操作 PDF 文件中的文本、圖像和其他元素,提供對生成的 PDF 佈局和外觀的精細控制。

  3. 文件合併和拆分: 將多個 PDF 文件合併為一個文件或將大型 PDF 拆分為較小的、更易於管理的文件,提供文件組織的靈活性。

  4. PDF 表單: 程式化創建和填寫互動式的 PDF 表單,促進業務應用程式中與表單相關任務的自動化。

  5. 安全功能: 實施加密和密碼保護以保護 PDF 文件,確保敏感信息保持機密並免受未經授權的訪問。

  6. 文本提取: 從 PDF 文件提取文本內容供分析或索引使用,使開發人員能夠使用 IronPDF 的文本識別功能來處理 PDF 文件中的文本數據。

安裝 IronPDF for Python

在開始程式碼教程之前,讓我們先看看如何安裝 IronPDF for Python。

首先,確保系統中已安裝 Python,並且您擁有一個好的 Python 編譯器,例如 PyCharm。另外,應安裝 PIP 以便安裝 IronPDF for Python。

  1. 首先,創建一個新的 Python 專案或打開現有的專案。

  2. 打開控制臺,運行以下命令並按 Enter。
 pip install ironpdf
  1. 就這樣,IronPDF for Python 已整合到您的 Python 專案中。

使用 IronPDF for Python 閱讀掃描的 PDF 文件

在本節中,我們將探討如何使用 IronPDF for Python 阅读掃描的 PDF 文件。 提取文字 使用IronPDF從掃描的PDF檔案中。

from ironpdf import *     License.LicenseKey = " Your License Ket "
# Load Scanned PDF document
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上述代碼範例從掃描的 PDF 文件中提取文字。以下是上述代碼的分解。

  1. 導入 IronPDF 模組:
from ironpdf import *
PYTHON

這行代碼從 IronPDF 庫導入必要的模塊和類。星號 (*) 表示應該導入該模組中的所有類和函數。

  1. 設置授權金鑰:
License.LicenseKey = " Your License Key "
PYTHON

這行程式碼設定 IronPDF 的授權金鑰。您需要將"Your License Key"替換成您從 Iron Software 獲得的實際授權金鑰。

授權金鑰是使用 IronPDF 所必需的,通常在您購買該產品時提供。

  1. 載入掃描的 PDF 文件:
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
PYTHON

此行程式碼會載入位於指定文件路徑的掃描 PDF 文件 ("C:/Users/buttw/INV_2023_00008.pdf")1. PdfDocument.FromFile 方法用於從給定的文件創建 PdfDocument 對象。

  1. 從 PDF 文件中提取文字:
all_text = pdf.ExtractAllText()
PYTHON

這行程式碼使用IronPDF從已載入的PDF文件中提取所有文字內容。 ExtractAllText 方法 從所有頁面提取文本。提取的文本然後存儲在 all_text 變數中。

  1. 列印提取的文本:
print(all_text)
PYTHON

最後,這行會將提取的文本打印到控制台。all_text 變數包含掃描的 PDF 文件的文本內容。

輸入 PDF

如何在 Python 中讀取掃描 PDF(開發者教程):圖 1

輸出文字

如何在 Python 中讀取掃描的 PDF(開發者教程):圖 2

結論

在數位文件處理領域,Python 程式語言為解決包含圖像而非可搜尋文本的掃描 PDF 所帶來的挑戰,提供了一個多功能的解決方案。

Python 的靈活性與 IronPDF for Python 的強大功能相結合,為開發人員提供了一條無縫整合 PDF 生成、操作和提取功能的引人注目的途徑。

IronPDF由 Iron Software 開發的 IronPDF 在這方面展現出其重要作用,提供包括從各種文件類型轉換 PDF 檔案、HTML 轉 PDF 頁面轉換、文本和圖像操作, 以及基於 OCR 的掃描 PDF 文本提取等功能。

展示的代碼範例展示了 IronPDF 讀取掃描 PDF 頁面文本的簡單實現,展示了高效數據提取的潛力,並增強了 Python 應用中的文檔處理能力。

隨著對高級 PDF 處理需求的不斷增加,IronPDF for Python 作為一種有價值的工具,能夠讓開發人員輕鬆導航掃描內容的複雜性。

IronPDF for Python 提供了 試用授權 對於開發者來說,這是一個很好地了解IronPDF特性的機會。

提取掃描PDF文本的完整教程可以在 這裡.

< 上一頁
如何在 Python 中向 PDF 添加頁碼
下一個 >
pdftotext Python(開發者教程)

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >