使用IRONPDF FOR PYTHON

如何在 Python 中讀取掃描的 PDF 文件

在數位化轉型的時代,PDF 文件對於共享和保存信息的重要性無法被誇大。

然而,掃描 PDF 的普遍存在,這些 PDF 通常包含圖像而非可搜尋的文字,在提取有價值數據時帶來了重大挑戰。

這就是 Python 脫穎而出的地方,作為一個多才多藝且強大的解決方案,成為自動化各種任務的首選編程語言,而從掃描文件中提取信息就是一個典型的例子。

Python 的靈活性和強大功能使用户能夠有效地處理掃描內容的複雜性,提供了一種精簡的方法來訪問和利用基於圖像的 PDF 中的數據。

Python 是最常用的程式語言之一,具有先進的功能,請造訪[Python 維基百科頁面](https://en.wikipedia.org/wiki/Python_(programming_language)以瞭解 Python 程式語言及其結構化格式。

在本文中,我們將討論如何使用IronPDF for Python PDF Library在 Python 程式語言中讀取掃描的 PDF。

如何在 Python 中閱讀掃描的 PDF

  1. PyCharm中創建一個新專案。

  2. 首先安裝IronPDF PDF Library以閱讀掃描的PDF檔案。

  3. 導入所需的依賴項。

  4. 使用 "PdfDocument.FromFile" 方法載入掃描的 PDF 文件。

  5. 使用 "ExtractAllText" 方法從掃描的 PDF 中提取所有文本。

  6. 使用 print() 方法列印 PDF 文件中的所有文字。

IronPDF for Python

IronPDF for Python 是由 Iron Software 開發的一個強大庫,能夠無縫整合 PDF 生成和操作功能到 Python 應用程式中。

這款多功能工具使開發人員能夠輕鬆創建、修改和互動使用 PDF 文件,支持動態報告生成、HTML 到 PDF 轉換以及從現有 PDF 文件中提取內容等任務。

IronPDF 提供易於使用的 API、完整的文件和多樣的功能,使將進階 PDF 功能整合到 Python 專案中的過程變得簡單,對於希望透過專業級文件自然語言處理功能來提升應用程式的開發者來說,它是一項無價的資源。

IronPDF 功能

IronPDF for Python 配備了一系列功能,使其成為生成 PDF 和操作文本文件結構的強大工具。

其一些主要功能包括:

  1. HTML 到 PDF 轉換:將 HTML 內容,包括 CSS 和圖像,轉換為高品質的 PDF 文件,使開發人員可以在其 PDF 生成過程中利用現有的基於網路的內容,並創建可搜索的 PDF 文件。

  2. 文字及影像操作:輕鬆新增及操作PDF文件中的文字、影像及其他元素,提供細緻的控制以調整產生PDF的版面配置及外觀。

  3. 文件合併與分割:將多個 PDF 文件合併為單一檔案,或將大型 PDF 拆分為較小、更易於管理的檔案,提供文件組織的靈活性。

  4. PDF 表單:以程式化方式創建和填寫互動式 PDF 表單,便利商務應用程式中的表單相關任務自動化。

  5. 安全功能:實施加密和密碼保護以確保 PDF 文件的安全,確保敏感資訊保持機密且防止未經授權的訪問。

  6. 文字提取:從 PDF 文件中提取文字內容,用於分析或索引,讓開發人員能夠使用 IronPDF 的文字識別功能處理 PDF 文件中的文本數據。

安裝 IronPDF for Python

在開始程式碼教學之前,讓我們先看看如何安裝 IronPDF for Python。

首先,確保系統中已安裝 Python,並且您擁有像 PyCharm 這樣好的 Python 編譯器,同時還需要安裝 PIP 以安裝 IronPDF for Python。

  1. 首先,建立一個新的 Python 專案或打開一個現有的專案。

    1. 打開控制台,運行以下命令並按下回車鍵。
pip install ironpdf
  1. 就這樣,IronPDF for Python 已整合到您的 Python 專案中。

使用 IronPDF for Python 閱讀掃描的 PDF 文件

在本節中,我們將看到您如何使用 IronPDF 從掃描的 PDF 文件中提取文本

from ironpdf import *     License.LicenseKey = " Your License Ket "
# Load Scanned PDF document
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
py
PYTHON

上述程式碼範例從掃描的PDF文件中提取文字。 以下是上述程式碼的分解。

  1. 導入 IronPDF 模組:
from ironpdf import *
py
PYTHON

此行從IronPDF庫中匯入必要的模組和類別。 星號(*)表示應從模組導入所有類和函數。

  1. 設定授權金鑰:
License.LicenseKey = " Your License Key "
py
PYTHON

此行設定了IronPDF的授權金鑰。 您需要將「Your License Key」替換為您從Iron Software獲得的實際授權金鑰。

許可證密鑰是使用IronPDF所必需的,通常在您購買產品時提供。

  1. 載入掃描的 PDF 文件:
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
py
PYTHON

此行會載入位於指定檔案路徑("C:/Users/buttw/INV_2023_00008.pdf")的掃描 PDF 文件。 PdfDocument.FromFile 方法用於從指定的文件創建一個 PdfDocument 對象。

  1. 從 PDF 文件中提取文字:
all_text = pdf.ExtractAllText()
py
PYTHON

這行使用 ExtractAllText 方法 從所有頁面中提取已加載 PDF 文件的所有文本內容。 提取的文字然後儲存在all_text變數中。

  1. 列印擷取文字:
print(all_text)
py
PYTHON

最後,這行將提取的文字打印到控制台。 all_text 變數包含掃描的 PDF 文件的文字內容。

輸入 PDF

如何在 Python 中讀取掃描的 PDF(開發者教程):圖 1

輸出文本

如何在 Python 中读取扫描的 PDF(开发者教程):图 2

結論

在數位文件處理領域,Python 程式語言作為一個多功能解決方案,能夠克服由包含圖像而非可搜尋文本的掃描 PDF 所帶來的挑戰。

Python 的靈活性與 IronPDF for Python 的強大功能相結合,為開發人員提供了一個令人信服的途徑,能夠將 PDF 生成、操作和提取功能無縫整合到他們的項目中。

IronPDF 由 Iron Software 開發,在這方面顯示了其價值,提供了如從多種文件類型轉換為 PDF 檔案、HTML 到 PDF 頁面轉換、文字和圖片處理以及從掃描的 PDF 中利用 OCR 技術提取文字等功能。

展示的程式碼範例演示了使用IronPDF來從掃描的PDF頁面讀取文本的簡單實現,展示了在Python應用程式中提升文件處理能力和高效資料提取的潛力。

隨著對高級 PDF 處理需求的不斷增長,IronPDF for Python 成為了一個寶貴的工具,使開發人員能夠輕鬆駕馭掃描內容的複雜性。

IronPDF for Python 為開發者提供試用許可證,這是了解 IronPDF 功能的絕佳機會。

有關從掃描的 PDF 中提取文本的完整教程可以在這裡找到。

查克尼思·賓
軟體工程師
Chaknith 致力於 IronXL 和 IronBarcode。他在 C# 和 .NET 方面擁有豐富的專業知識,協助改進軟體並支持客戶。他從用戶互動中獲得的洞察力有助於提高產品、文檔和整體體驗。
< 上一頁
如何在 Python 中向 PDF 添加頁碼
下一個 >
Python 中的 PDFtoText:逐步教程

準備開始了嗎? 版本: 2025.5 剛剛發布

查看許可證 >