使用IRONPDF FOR PYTHON

如何在 Python 中讀取掃描的 PDF 文件

發佈 2024年1月14日
分享:

在數位化轉型的時代,PDF 文件對於共享和保存信息的重要性無法被誇大。

然而,普遍存在的掃描的PDF檔案,這些文件通常包含圖片而非可搜尋文本,因此在提取有價值的數據時面臨重大挑戰。

這就是 Python 脫穎而出的地方,作為一個多才多藝且強大的解決方案,成為自動化各種任務的首選編程語言,而從掃描文件中提取信息就是一個典型的例子。

Python 的靈活性和強大功能使用户能夠有效地處理掃描內容的複雜性,提供了一種精簡的方法來訪問和利用基於圖像的 PDF 中的數據。

Python 是最常用的程式設計語言之一,其功能先進,請造訪Python 維基百科頁面了解 Python 程式語言及其結構化格式。

在本文中,我們將討論如何使用協助在 Python 程式語言中閱讀掃描的 PDF。IronPDF適用於 Python 的 PDF 庫。

如何在 Python 中閱讀掃描的 PDF

  1. 在 中建立一個新項目PyCharm.

  2. 首先安裝IronPDF PDF Library以閱讀掃描的PDF檔案。

  3. 導入所需的依賴項。

  4. 使用 "PdfDocument.FromFile" 方法載入掃描的 PDF 文件。

  5. 使用 "ExtractAllText" 方法從掃描的 PDF 中提取所有文本。

  6. 使用打印將所有文本從 PDF 文件中打印出來()方法。

IronPDF for Python

IronPDFfor Python 是由 Iron Software 開發的一個強大庫,使 PDF 生成和操作功能無縫集成到 Python 應用程序中。

這款多功能工具使開發人員能夠輕鬆創建、修改和互動使用 PDF 文件,支持動態報告生成、HTML 到 PDF 轉換以及從現有 PDF 文件中提取內容等任務。

IronPDF 提供易於使用的 API、完整的文件和多樣的功能,使將進階 PDF 功能整合到 Python 專案中的過程變得簡單,對於希望透過專業級文件自然語言處理功能來提升應用程式的開發者來說,它是一項無價的資源。

IronPDF 功能

IronPDF for Python 配備了一系列功能,使其成為生成 PDF 和操作文本文件結構的強大工具。

其一些主要功能包括:

  1. HTML 到 PDF 的轉換: 將 HTML 內容,包括 CSS 和圖像,轉換為高品質的 PDF 文件,使開發人員能夠在 PDF 生成過程中利用現有的基於網頁的內容,並創建可搜索的 PDF 文件。

  2. 文字和圖片處理:輕鬆在PDF文件中新增和操作文字、圖片及其他元素,提供對生成PDF的版面佈局和外觀的精細控制。

  3. 文件合併與分割: 將多個 PDF 文件合併為單個檔案,或將大型 PDF 拆分為較小、更易管理的檔案,提供文件組織的靈活性。

  4. PDF 表單: 程式化地創建和填寫互動式 PDF 表單,促進商業應用程式中與表單相關任務的自動化。

  5. 安全功能: 實施加密和密碼保護來保護 PDF 文件,確保敏感資訊保持機密並防止未經授權的訪問。

  6. 文字提取: 從 PDF 文件中提取文字內容以進行分析或索引,讓開發人員能夠使用 IronPDF 的文字識別功能處理 PDF 文件中的文字數據。

安裝 IronPDF for Python

在開始程式碼教學之前,讓我們先看看如何安裝 IronPDF for Python。

首先,確保系統中已安裝 Python,並且您擁有像 PyCharm 這樣好的 Python 編譯器,同時還需要安裝 PIP 以安裝 IronPDF for Python。

  1. 首先,建立一個新的 Python 專案或打開一個現有的專案。

    1. 打開控制台,運行以下命令並按下回車鍵。
pip install ironpdf
  1. 就這樣,IronPDF for Python 已整合到您的 Python 專案中。

使用 IronPDF for Python 閱讀掃描的 PDF 文件

在本節中,我們將看到如何幫助您提取文字使用IronPDF從掃描的PDF檔案中。

from ironpdf import *     License.LicenseKey = " Your License Ket "
# Load Scanned PDF document
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上述程式碼範例從掃描的PDF文件中提取文字。 以下是上述程式碼的分解。

  1. 匯入IronPDF模組:
from ironpdf import *
PYTHON

此行從IronPDF庫中匯入必要的模組和類別。 星号(*)表示應從模組中匯入所有類別和函數。

  1. 設定授權密鑰:
License.LicenseKey = " Your License Key "
PYTHON

此行設定了IronPDF的授權金鑰。 您需要將 "Your License Key" 替換為您從 Iron Software 獲得的實際授權金鑰。

許可證密鑰是使用IronPDF所必需的,通常在您購買產品時提供。

  1. 載入掃描的 PDF 文件:
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
PYTHON

此行程式碼會載入位於指定文件路徑的掃描 PDF 文件("C:/Users/buttw/INV_2023_00008.pdf"). PdfDocument.FromFile 方法用來從給定的文件創建一個 PdfDocument 對象。

  1. 從 PDF 文件中提取文字:
all_text = pdf.ExtractAllText()
PYTHON

這行程式碼使用IronPDF從已載入的PDF文件中提取所有文字內容。ExtractAllText 方法從所有頁面。 提取的文字隨後儲存在 all_text 變數中。

  1. 列印擷取的文字:
print(all_text)
PYTHON

最後,這行將提取的文字打印到控制台。 all_text 變數包含掃描的 PDF 文件的文本內容。

輸入 PDF

如何在 Python 中讀取掃描 PDF(開發者教程):圖 1

輸出文本

如何在 Python 中讀取掃描的 PDF(開發者教程):圖 2

結論

在數位文件處理領域,Python 程式語言作為一個多功能解決方案,能夠克服由包含圖像而非可搜尋文本的掃描 PDF 所帶來的挑戰。

Python 的靈活性與 IronPDF for Python 的強大功能相結合,為開發人員提供了一個令人信服的途徑,能夠將 PDF 生成、操作和提取功能無縫整合到他們的項目中。

IronPDF由Iron Software開發的產品在這方面顯得尤為重要,提供了從各種文檔類型轉換為PDF文件、HTML轉換為PDF頁面、文本和圖像操作,以及基於OCR從掃描的PDF中提取文本等功能。

展示的程式碼範例演示了使用IronPDF來從掃描的PDF頁面讀取文本的簡單實現,展示了在Python應用程式中提升文件處理能力和高效資料提取的潛力。

隨著對高級 PDF 處理需求的不斷增長,IronPDF for Python 成為了一個寶貴的工具,使開發人員能夠輕鬆駕馭掃描內容的複雜性。

IronPDF for Python 提供 یک試用授權對於開發者來說,這是一個了解IronPDF功能的好機會。

完整的從掃描文件中提取文字的教程可以在此找到這裡.

< 上一頁
如何在 Python 中向 PDF 添加頁碼
下一個 >
Python 中的 PDFtoText:逐步教程

準備開始了嗎? 版本: 2024.11.1 剛剛發布

免費 pip 安裝 查看許可證 >