使用IRONPDF FOR PYTHON

如何從 PDF 中提取表格在 Python 中

本文將演示如何使用 IronPDF,這是一個強大的 PDF 處理庫,輕鬆從任何 PDF 文件中的複雜表格中提取數據。

IronPDF

Python 為程式設計師提供了比其他語言更多的靈活性,並允許開發者輕鬆且高效地設計圖形用戶介面。 因此,將 IronPDF 程式庫整合到 Python 是一個簡單的過程。 要快速且安全地創建一個功能齊全的圖形用戶界面,可以使用多種預先安裝的工具,包括 PyQt、wxWidgets、Kivy 以及各種其他套件和庫。

IronPDF 簡化了 Python 網頁設計和開發。 這主要是由於可用的 Python 網頁開發框架豐富,例如 Django、Flask 和 Pyramid。 一些值得注意的網站和在線服務使用了這些框架,包括Reddit、Mozilla和Spotify。

IronPDF 的功能

以下是一些IronPDF的功能:

  • PDF 檔案可以從多種來源建立,例如 HTML、HTML5、ASP、PHP 等。 此外,圖像檔案可以與 HTML 檔案一起轉換為 PDF
  • IronPDF 可用於創建互動式 PDF 文件。 它提供的功能包括分割和合併 PDF 檔案,從 PDF 檔案中提取文字和影像將 PDF 頁面光柵化為影像,將 PDF 轉換為 HTML,列印 PDF 檔案,填寫和提交互動表單,以及分割合併 PDF 檔案。
  • 使用 IronPDF,可以從 URL 生成文件。 它還支援使用者代理登入,透過 HTML 登入表單、代理伺服器、Cookie、HTTP 標頭、特別的網路登入憑證、表單變數和使用者代理。
  • IronPDF 程式允許檢視和註解 PDF 檔案。
  • IronPDF 允許從文件中提取圖像。
  • IronPDF 為用戶提供了在文件中添加標題、頁腳、文字、照片、書籤水印等功能的能力。
  • 使用 IronPDF,您可以在新文件或現有文件中拆分和合併頁面。
  • 無需使用 Acrobat 觀察器即可將文件轉換為 PDF 對象。
  • IronPDF 允許從 CSS 檔案創建 PDF 文件。
  • 可以使用包含媒體類型定義的 CSS 文件搭配 IronPDF 來創建文件。

配置 Python 環境

設置 Python

確保您的電腦上已安裝 Python。 要下載並設置您操作系統的最新版本 Python,請前往Python 官方網站。 安裝完成 Python 後,通過創建虛擬環境來隔離您項目的需求。 藉助venv模組,您可以創建和管理虛擬環境,為您的轉換專案提供整潔有序的工作空間。

在 PyCharm 中新建專案

在本教程中,建議使用 PyCharm,一個適用於 Python 開發的 IDE。

啟動 PyCharm 開發環境後,從菜單中選擇「New Project」,如下圖所示。

如何從 PDF 中提取表格(Python 版本),圖 1:PyCharm IDE

PyCharm IDE

如下面圖片所示,當您選擇「新專案」時,會出現一個新視窗,並允許您定義專案的位置和 Python 環境。

如何在 Python 中從 PDF 提取表格,圖 2:在 PyCharm 中創建一個新專案

在 PyCharm 中創建新項目

選擇專案的位置和環境後,點擊建立按鈕以啟動專案。 可以在新啟動的視窗中打開 Python 檔案以輸入您的程式碼。 本指南使用 Python 3.9。

如何在 Python 中從 PDF 中提取表格,圖 3:主要的 Python 文件

主要的 Python 檔案

IronPDF 程式庫需求

IronPDF for Python 依賴於 .NET 6.0 作為其核心技術。 因此,為了使用 IronPDF for Python,您的電腦必須安裝 .NET 6.0 運行時。 Linux 和 Mac 使用者可能需要安裝 .NET 才能使用此 Python 模組。 從 Microsoft 下載必要的運行環境

IronPDF Library Setup

必須安裝 ironpdf 套件才能建立、編輯和開啟擴展名為 ".pdf" 的文件。 要在 PyCharm 中安裝套件,請開啟終端視窗並輸入以下指令:

pip install ironpdf

下圖顯示了ironpdf套件的安裝過程。

如何從 PDF 中提取表格(Python),圖 4:安裝 IronPDF 套件

安裝 IronPDF 套件

從 PDF 文件中提取表格數據

我們可以使用 IronPDF for Python 函式庫輕鬆地從 PDF 文件中提取數據。 IronPDF 有助於分析文本數據並從 PDF 文件中提取表格。 以下是一段示範程式碼,展示了如何從 PDF 表格中提取數據,並使用提供的圖像作為參考。

如何用Python從PDF中提取表格,圖5:來自PDF文件的樣本數據

PDF 檔案的示例數據

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)
py
PYTHON

提供的程式碼演示了如何使用 IronPDF 僅需幾行 Python 程式碼從 PDF 文件中提取表格。 首先,我們來匯入 IronPDF 庫,以存取其功能並獲取所有 IronPDF 的功能。 接下來,借助PdfDocument類別,可以處理現有的PDF文件,並允許對它們執行各種操作。

使用FromFile函數時,可用於加載輸入PDF文件的參數。 之後,使用ExtractAllText函式從所有頁面的PDF檔案中擷取所有表格資料。 接著,使用Split功能將提取的表格數據分成多行,並顯示在控制台屏幕上。

如何在 Python 中從 PDF 提取表格,圖 6:提取的數據

提取的數據

在上面的輸出中,數據是逐行顯示的,展示了如何提取表格數據。 透過瀏覽IronPDF產品文件以了解更多。

結論

IronPDF 庫提供強大的安全措施,以將潛在風險降至最低並確保數據安全。 它與所有流行的瀏覽器兼容,不限於任何特定瀏覽器。 使用 IronPDF,程式設計師可以僅需幾行程式碼即可高效地建立和讀取 PDF 檔案。 為滿足開發人員的多樣化需求,IronPDF庫提供多種許可選項,包括免費開發者許可證和可購買的額外開發許可證。

Lite 套件,價格為 $749,包含永久性授權、一個月的退貨保證、一年的軟體維護及升級可能性。 在初次購買後沒有其他費用,這些授權可以在生產、預備和開發環境中使用。 IronPDF 也提供具有某些時間和重新分發限制的免費許可證。 用戶可以在真實環境中測試產品,免費試用期間不包含浮水印。 有關 IronPDF 試用版成本和許可的詳細資訊,請點擊以下許可頁面

查克尼思·賓
軟體工程師
Chaknith 致力於 IronXL 和 IronBarcode。他在 C# 和 .NET 方面擁有豐富的專業知識,協助改進軟體並支持客戶。他從用戶互動中獲得的洞察力有助於提高產品、文檔和整體體驗。
< 上一頁
如何在 Python 中編寫 PDF 文件
下一個 >
如何在 Python 中從 URL 下載 PDF

準備開始了嗎? 版本: 2025.5 剛剛發布

查看許可證 >