使用IRONPDF FOR PYTHON

如何從 PDF 中擷取數據於 Python

已更新 2024年9月28日
分享:

一個名為 IronPDF 的強大 Python 套件可用於提取數據、圖像、單選按鈕、列表框小工具。(而不是複選框小部件)以及來自 PDF 文件的其他信息。 本文將演示如何使用此函式庫將互動表單與資料分組並生成新的 PDF 文件和 PDF 表單。

如何從 PDF 中提取數據 Python

  1. 獲取 PDF 文件以提取文字進行數據處理。

  2. 在 PyCharm 中建立一個專案。

  3. 為您的專案配置必要的 Python 函式庫。

  4. 從 PDF 文件的特定頁面中提取信息。

  5. 打印從 PDF 文件中提取的文本內容。

2. IronPDF

這個IronPDFPython 函式庫透過促進有效的 PDF 數據處理,無縫增強 Python 編程,並提供多種 PDF 操作。 其整合能力擴展到各種框架,增加了開發圖形用戶界面的功能。

Python 是一種多功能的程式語言,可以快速輕鬆地建立使用者友好的圖形介面,使其成為許多開發人員的首選。 它的动态特性使其与其他编程语言有所不同。 引入IronPDF庫到Python是一個簡單的過程,能夠有效地處理和處理PDF數據。

為了快速且安全地開發全功能的圖形用戶界面,開發人員可以利用廣泛的預裝工具和熱門的 Python 庫,包括 PyQt、wxWidgets、Kivy 等多種選擇。

此外,IronPDF 函式庫無縫整合了來自其他框架的多種功能,特別是在 .NET Core 的上下文中,這為 Python 和其他數種程式語言提供了支援。 如需進一步瞭解 Python IronPDF,請訪問官方網站.

IronPDF for Python 庫簡化了網站創建和管理的過程,尤其是在使用如 Django、Flask 和 Pyramid 等框架進行基於 Python 的網站開發時。 這是一個有價值的工具,這些熱門網站和線上服務,例如 Reddit、Mozilla 和 Spotify,都依賴它來增強其功能和特色。

2.1 IronPDF 功能

HTML、HTML5、ASPX 和 Razor/MVC 視圖是可使用 IronPDF 轉換為 PDF 格式的部分格式。 此外,IronPDF 提供了方便的功能,可以生成 PDF 文件從圖像和 HTML 頁面中。

IronPDF 工具包可協助各種任務,包括創建互動式 PDF 以及促進互動式表單填寫和提交,高效的合併分割PDF 文件,準確文字和圖像提取PDF 檔案中的綜合文字搜尋,轉換PDF 轉換成影像,以及自訂字體大小、邊框和背景顏色的靈活性。 IronPDF 也可以輕鬆完成 PDF 文件的轉換。

IronPDF 更進一步,擴展對用戶代理、代理伺服器、Cookie、HTTP 標頭和表單變數的支持,從而增強HTML 登入表單驗證. 它使用用戶名和密碼來保護用戶訪問權限保護PDF中的文本。

一個PDF 檔案列印可以從多種來源生成,例如字串、資料流或 URL,且只需幾行程式碼即可完成。

IronPDF 可以生成平面化 PDF 文件通過轉換交互元素,確保文檔的內容保持不可更改及可查看,但不可編輯。

3. 配置和設置

3.1 安裝 Python 並建立虛擬環境

確保您的個人電腦上已安裝 Python 程式語言。 這很重要,因為 Python 庫常常被需要用來完成各種任務。 要達成此目的,請訪問Python 官方網站並下載與您的操作系統相容的最新版本。 這確保您擁有合適的工具以有效地使用 Python 庫。

在安裝 Python 後,建立虛擬環境來隔離專案所需的庫,因為某些專案可能需要 Python 的一些必要庫。 venv 模組可以幫助您構建和管理虛擬環境,這將使您的轉換項目擁有整潔且獨立的工作空間,特別是在處理多個 Python 函式庫時。

3.2 在 PyCharm 中建立新專案

您可以靈活地使用任何文字編輯器或編程環境來編寫 Python 代碼,例如Visual Studio Code, PyCharm,或Sublime Text. 然而,這篇文章使用 PyCharm,一個用於撰寫 Python 語言程式的 IDE,來創建一個 Python 專案。

啟動 PyCharm IDE 後,選擇新建專案

如何從 PDF 中提取數據在 Python 中,圖 1:PyCharm IDE 創建新的 Python 專案

使用 PyCharm IDE 創建新的 Python 專案

選擇新專案後,您將看到一個新視窗,允許您指定專案的環境和位置。 下圖可能會提供更多的清晰度。

在設定專案位置和環境詳情後,點擊 Create,您將進入 PyCharm 的介面。 在這裡,你會找到專案的結構和程式碼檔案。 這是您管理和開發項目的工作區。 本指南中使用的版本是 Python 3.9。

如何從 PDF 中提取數據(Python),圖 2:主 Python 文件

主要的 Python 文件

3.3 IronPDF 的庫需求

Python庫IronPDF通常與.NET 6.0介面。因此,為了有效地使用IronPDF for Python,您的電腦必須安裝.NET 6.0執行環境。

對於 Linux 和 Mac 用戶,在使用此 Python 模組之前,可能需要安裝 .NET。 如需關於獲取所需運行時環境的指導,請訪問此頁面。Microsoft 下載頁面.

3.4 安裝 IronPDF 庫

您必須安裝「ironpdf」套件來處理 PDF 文件,包括創建、編輯和打開它們。 要在 PyCharm 中執行此操作,請打開終端窗口並輸入以下命令:

 pip install ironpdf

請參考以下螢幕截圖以安裝 ironpdf 套件。

如何從 PDF 中提取數據在 Python 中, 圖3:IronPDF 安裝

IronPDF 安裝

4. 從 PDF 文件中提取文字

IronPDF for Python 庫能高效地將 PDF 頁面轉換為 PDF 頁面物件,簡化了從 PDF 文件中提取文本內容的過程。

4.1 從 PDF 文件中提取所有文字資料

在此範例中,將演示使用IronPDF從現有PDF中提取文本的過程。 在此情況下,以下 PDF 文件將用於此展示。

第一種方法側重於從 PDF 文件中提取所有文字。撰寫以下程式碼,以便輕鬆地對輸入的 PDF 執行完整的數據提取:

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
PYTHON

如上面程式碼所示,FromFile 方法扮演了關鍵角色。 它從現有位置加載 PDF 文件,將其轉換為 PdfDocument 對象。 使用此物件,您可以存取 PDF 頁面中的文字內容和圖像。 要從給定的 PDF 文件中提取所有文本,請使用名為 ExtractAllText 的方法。 提取的文本隨後存儲在一個字符串中,準備進行進一步處理。

4.2 一頁一頁的文字擷取

以下是第二種方法的代碼,該方法明確地從 PDF 文件的每一頁中提取文本。

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
for xpage in range(pdf.PageCount):
    print(pdf.ExtractTextFromPage(xpage))
PYTHON

此範例程式碼最初會載入整個 PDF 檔案,並將其轉換為名為 pdfPdfDocument 對象。 為確保依次處理 PDF 文件中的每個特定頁面,每個頁面均需透過其頁碼或頁索引在 pdf 物件中訪問。 首先,使用其 pdf 對象的 PageCount 方法確定輸入 PDF 中的總頁數。

在這個頁面計數中,for 迴圈會遍歷每個頁面,調用 ExtractTextFromPage 函數以從 PDF 文件的每個頁面中提取文本。 提取的文字可以儲存在字符串變量中或顯示在使用者的螢幕上。 因此,該方法能夠從每個單獨的 PDF 頁面中有序地提取文本。 這些方法來自 IronPDF,一個專為 PDF 任務設計的 Python 庫,突顯其從 PDF 文件中輕鬆而徹底地提取文本的能力。 這種可及性有許多實際應用,並提高了PDF在不同領域的實用性。

5. 結論

這個IronPDF該程式庫採用了強大的安全措施以減少潛在風險並確保數據安全。 它能有效運行於所有廣泛使用的瀏覽器上,沒有任何特定限制。 IronPDF使開發人員能夠以最少的Python代碼高效生成和解析PDF文檔。 為了滿足開發人員的多種需求,IronPDF 庫提供了一系列授權選擇,包括免費的開發者授權以及可供購買的額外開發授權。

Lite 套件的價格為 $749,並為您提供永久授權。 您還可享有30天退款保證、一年的軟體維護,以及獲取更新的機會。 購買後,無需支付額外費用。 您可以在生产、测试和开发中使用此许可证。 IronPDF 也提供具有一些時間和分享限制的免費許可證。 您可以試用 30 天且無浮水印。 有關 IronPDF 的費用及如何獲取試用版本,請造訪 IronPDF 的授權頁面.

< 上一頁
如何在 Python 中從 PDF 提取圖片
下一個 >
如何逐行提取 PDF 文本

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >