使用IRONPDF FOR PYTHON

如何從 PDF 中擷取數據於 Python

查克尼思·賓

2023年11月14日

已更新 2024年9月28日

一個強大的 Python 套件稱為 IronPDF，可用於從 PDF 文件中提取數據、圖像、單選按鈕、列表框小部件（而非複選框小部件）和其他信息。本文將展示如何使用此程式庫來將互動表單與數據分組，並生成新的 PDF 檔案和 PDF 表單。

如何從 PDF 中提取數據 Python

獲取 PDF 檔案以提取文字進行資料處理。
在 PyCharm 中創建一個專案。
為您的專案配置必要的 Python 庫。
從 PDF 文件中的特定頁面提取信息。
打印從 PDF 文件中提取的文本內容。

2. IronPDF

IronPDF for Python 函式庫透過促進高效的 PDF 數據處理及提供多種 PDF 操作，無縫地增強 Python 程式設計。其整合能力延伸到各種框架，擴展了開發圖形用戶界面的能力。

Python 是一種多功能的程式語言，能夠快速且輕鬆地創建使用者友好的圖形介面，因此成為許多開發人員的首選。它的動態特性使其從其他程式語言中脫穎而出。將 IronPDF 庫引入 Python 是一個簡單的過程，允許高效的 PDF 資料處理和處理。

為快速且安全地開發完整功能的圖形用戶界面，開發人員可以利用多種預先安裝的工具和流行的 Python 庫，包括 PyQt、wxWidgets、Kivy 等。

此外，IronPDF 庫無縫整合了來自其他框架的各種功能，特別是在 .NET Core 的背景下，還擴展了對 Python 和其他多種程式語言的支援。有關 Python IronPDF 的進一步資訊，可造訪官方網站。

IronPDF for Python 庫簡化了網站創建和管理的過程，特別是在使用 Django、Flask 和 Pyramid 等框架進行基於 Python 的網絡開發時。這是一個有價值的工具，這些受歡迎的網站和線上服務（如Reddit、Mozilla和Spotify）依賴此工具來增強其功能和特性。

2.1 IronPDF 功能

HTML、HTML5、ASPX 和 Razor/MVC View 是少數幾種可以使用 IronPDF 轉換為 PDF 格式的格式。此外，IronPDF 提供了從圖片和 HTML 頁面生成 PDF 文件的便利功能。

IronPDF 工具包可以協助完成各種任務，包括創建互動式 PDF，促進互動表單的填寫和提交，高效合併和分割 PDF 文件，準確提取文本和圖像，對 PDF 文件進行全面的文本搜索，將PDF 轉換為圖像，以及靈活地自定義字體大小、邊框和背景顏色。 IronPDF 還可以輕鬆地實現 PDF 文件的轉換。

IronPDF 更進一步擴展對用戶代理、代理伺服器、Cookie、HTTP 標頭和表單變數的支持，從而增強HTML 登錄表單驗證。它使用用戶名和密碼來保護用戶訪問以確保PDF中包含的文本安全。

PDF 文件列印可以從許多來源生成，例如字串、流或網址，只需幾行程式碼即可完成。

IronPDF 可以透過轉換互動元素來產生固化的 PDF 文件，確保文件內容保持不可更改且可檢視，但不可編輯。

3. 設定和安裝

3.1 安裝 Python 並創建虛擬環境

請確保您的個人電腦上已安裝 Python 程式設計語言。這很重要，因為各種任務經常需要 Python 函式庫。若要達成此目標，請造訪官方 Python 網站並下載與您的作業系統相容的最新版本。這確保您擁有正確的工具來有效使用 Python 庫。

安裝 Python 後，建立虛擬環境以隔離專案所需的庫，因為某些專案可能需要一些 Python 的必要庫。 venv模組可讓您構建和維護虛擬環境，這在您處理多個 Python 程式庫時，能幫助您的轉換專案擁有一個整潔、獨立的工作區。

3.2 在 PyCharm 中建立新專案

您可以靈活地使用任何文本編輯器或編程環境編寫 Python 代碼，例如Visual Studio Code、PyCharm或Sublime Text。然而，本文使用 PyCharm，一個用於編寫 Python 代碼的 IDE，來創建一個 Python 項目。

在啟動 PyCharm IDE 後，選擇New Project。

如何在 Python 中從 PDF 提取資料，圖1：在 PyCharm IDE 中創建新 Python 專案

使用 PyCharm IDE 創建新的 Python 專案

選擇新專案後，您將看到一個新視窗，允許您指定專案的環境和位置。下面的圖片可能會提供更清晰的說明。

在設定專案位置和環境詳細資訊後，點擊建立，您將進入 PyCharm 的介面。在這裡，您將找到您的專案結構和程式碼檔案。這是您管理和開發專案的工作區。此指南使用的是 Python 3.9 版本。

如何從 PDF 中提取資料 (Python 篇)，圖 2：主要的 Python 檔案

主要的 Python 檔案

3.3 IronPDF 的庫要求

Python 函式庫 IronPDF 通常與 .NET 6.0 接口。因此，要有效使用 IronPDF for Python，您的計算機必須安裝 .NET 6.0 執行時。

對於 Linux 和 Mac 使用者，在使用此 Python 模組之前可能需要先安裝 .NET。如需獲取所需的運行時環境指導，請造訪此Microsoft 下載頁面。

3.4 安裝 IronPDF 庫

您必須安裝「ironpdf」套件來處理 PDF 檔案，包括建立、編輯和開啟它們。要在 PyCharm 中執行此操作，請打開終端視窗並輸入此命令：

pip install ironpdf

請參考下方截圖以安裝ironpdf套件。

如何在 Python 中從 PDF 中提取數據，圖 3：IronPDF 安裝

IronPDF 安裝

4. 從 PDF 文件提取文本

IronPDF for Python 函式庫有效地將 PDF 頁面轉換為 PDF 頁面物件，簡化了從 PDF 文件中提取文字內容的過程。

4.1 從 PDF 文件提取所有文本數據

在此範例中，展示了使用IronPDF從現有PDF中提取文本的過程。在此情況下，下面的 PDF 文件用於此示範。

第一種方法專注於從 PDF 文件中提取所有文字。編寫以下代碼，以便輕鬆地對輸入的 PDF 進行完整的數據提取：

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()

py

PYTHON

如上面的程式碼所示，FromFile 方法起了關鍵作用。它從現有位置載入 PDF 文件，以將其轉換為PdfDocument對象。使用此物件，可以存取 PDF 頁面內的文字內容和圖像。要從給定的 PDF 文件中提取所有文本，使用一個名為 ExtractAllText 的方法。提取的文本然後存儲在字符串中，準備進行進一步處理。

4.2 分頁文字擷取

以下是第二種方法的程式碼，它顯式地從 PDF 文件的每一頁中提取文字。

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
for xpage in range(pdf.PageCount):
    print(pdf.ExtractTextFromPage(xpage))

py

PYTHON

此範例程式碼最初會載入整個 PDF 檔案，並將其轉換為名為 pdf 的 PdfDocument 物件。為確保 PDF 文件中的每個特定頁面按順序處理，會使用其頁碼或頁面索引在pdf對象中訪問每個頁面。首先，使用其pdf對象的PageCount方法確定輸入 PDF 中的總頁數。

藉由此頁數，一個 for 迴圈將透過每頁進行迭代，呼叫 ExtractTextFromPage 函式從 PDF 文件的每一頁中提取文本。提取的文本可以存儲在字串變量中或者顯示在用戶螢幕上。因此，此方法允許從每個單獨的 PDF 頁面有組織地提取文本。這些方法來自 IronPDF，一個專為 PDF 任務設計的 Python 函式庫，突顯了它輕鬆且徹底地從 PDF 文件中提取文本的能力。這種便利性有許多實際應用，並提高了 PDF 在不同領域的實用性。

5. 結論

IronPDF 庫採用強大的安全措施來減輕潛在風險並確保數據安全。它在所有廣泛使用的瀏覽器上有效運行且沒有任何特定限制。 IronPDF 讓開發人員能夠以最少量的 Python 代碼有效地生成和解析 PDF 文件。為了滿足開發人員的各種需求，IronPDF 庫提供了一系列許可選擇，包括免費的開發者許可證以及可供購買的附加開發許可證。

Lite 套件的價格為 $749，並提供永久授權。您還享有30天退款保證、一年的軟體維護以及獲得更新的機會。購買後，無需額外收費。您可以在生產、預備和開發中使用此授權。 IronPDF 也提供具有時間和共享限制的免費許可。您可以試用30天，且無浮水印。關於IronPDF的成本及如何獲取試用版本，請訪問IronPDF的授權頁面。

查克尼思·賓

立即與工程團隊聊天

軟體工程師

Chaknith 致力於 IronXL 和 IronBarcode。他在 C# 和 .NET 方面擁有豐富的專業知識，協助改進軟體並支持客戶。他從用戶互動中獲得的洞察力有助於提高產品、文檔和整體體驗。

< 上一頁
如何在 Python 中從 PDF 提取圖片

下一個 >
如何逐行提取 PDF 文本