from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

使用IRONPDF FOR PYTHON

如何從 PDF 中提取表格在 Python 中

里根普恩

2023年7月22日

已更新 2024年9月21日

本文將演示如何使用 IronPDF，這是一個強大的 PDF 處理庫，輕鬆從任何 PDF 文件中的複雜表格中提取數據。

IronPDF

Python 為程式設計師提供了比其他語言更多的靈活性，並允許開發者輕鬆且高效地設計圖形用戶介面。因此，將 IronPDF 程式庫整合到 Python 是一個簡單的過程。要快速且安全地創建一個功能齊全的圖形用戶界面，可以使用多種預先安裝的工具，包括 PyQt、wxWidgets、Kivy 以及各種其他套件和庫。

IronPDF 簡化了 Python 網頁設計和開發。這主要是由於可用的 Python 網頁開發框架豐富，例如 Django、Flask 和 Pyramid。一些值得注意的網站和在線服務使用了這些框架，包括Reddit、Mozilla和Spotify。

如何從 PDF 中提取表格在 Python 中

下載用於從 PDF 中提取表格的 Python 模組
使用 從文件 導入PDF文件的方法
從這些表格中提取文本 提取所有文本 方法
遍歷提取的文本以拆分行列
將提取的文本輸出到控制台或文本文件

IronPDF 的功能

以下是一些功能IronPDF:

PDF 文件可以從各種來源創建例如 HTML、HTML5、ASP、PHP 等。另外，圖像文件可以轉換為PDF以及 HTML 檔案。
IronPDF 可用於創建互動式 PDF 文件。它提供了分割和合併PDF文件等功能，提取文本和圖片從 PDF 檔案中，將 PDF 頁面光柵化成圖像將 PDF 轉換為 HTML、打印 PDF 文件、填寫和提交互動表單，和分割和合併PDF 檔案。
使用 IronPDF，可以從 URL 生成文件。它還支援使用者代理登入，透過 HTML 登入表單、代理伺服器、Cookie、HTTP 標頭、特別的網路登入憑證、表單變數和使用者代理。
IronPDF 程式允許進行檢查和注释PDF文件。
IronPDF 允許從文件中提取圖像。
IronPDF 讓用戶能夠添加頁眉、頁腳、文字和照片，書籤, 浮水印，以及更多內容到文件中。
使用 IronPDF，您可以在新文件或現有文件中拆分和合併頁面。
無需使用 Acrobat 觀察器即可將文件轉換為 PDF 對象。
IronPDF 允許從 CSS 檔案創建 PDF 文件。
可以使用包含媒體類型定義的 CSS 文件搭配 IronPDF 來創建文件。

配置 Python 環境

設置 Python

確保您的電腦上已安裝 Python。要下載並安裝適用於您的作業系統的最新版本 Python，請前往官方 Python 網站. 安裝完成 Python 後，通過創建虛擬環境來隔離您項目的需求。在 venv 模組的幫助下，您可以創建和管理虛擬環境，為轉換項目提供整潔且有序的工作空間。

在 PyCharm 中新建專案

在本教程中，建議使用 PyCharm，一個適用於 Python 開發的 IDE。

啟動 PyCharm 開發環境後，從菜單中選擇「New Project」，如下圖所示。

如何從 PDF 中提取表格在 Python 中，圖 1：PyCharm IDE

PyCharm IDE

如下面圖片所示，當您選擇「新專案」時，會出現一個新視窗，並允許您定義專案的位置和 Python 環境。

如何從 PDF 中提取表格在 Python 中，圖2：在 PyCharm 中創建一個新項目

在 PyCharm 中創建一個新項目

選擇專案的位置和環境後，點擊建立按鈕來啟動專案。可以在新啟動的視窗中打開 Python 檔案以輸入您的程式碼。本指南使用 Python 3.9。

如何從PDF中提取表格（使用Python），圖3：主Python文件

主 Python 檔案

IronPDF 程式庫需求

IronPDF for Python 依賴於 .NET 6.0 作為其核心技術。因此，為了使用 IronPDF for Python，您的電腦必須安裝 .NET 6.0 運行時。 Linux 和 Mac 使用者可能需要安裝 .NET 才能使用此 Python 模組。從 Microsoft 下載必要的運行時環境.

IronPDF 庫設置

需要安裝 ironpdf 套件才能創建、編輯和打開擁有 ".pdf" 擴展名的文件。要在 PyCharm 中安裝套件，請開啟終端視窗並輸入以下指令：

pip install ironpdf

下面的螢幕截圖顯示了ironpdf套件的安裝過程。

如何從 PDF 中提取表格（使用 Python），圖 4：安裝 IronPDF 套件

安裝IronPDF套件

從 PDF 文件中提取表格數據

我們可以使用 IronPDF for Python 函式庫輕鬆地從 PDF 文件中提取數據。 IronPDF 有助於分析文本數據並從 PDF 文件中提取表格。以下是一段示範程式碼，展示了如何從 PDF 表格中提取數據，並使用提供的圖像作為參考。

如何從 PDF 中提取表格（Python），圖 5：來自 PDF 文件的示例數據

從 PDF 文件中的範例數據

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

PYTHON

提供的程式碼演示了如何使用 IronPDF 僅需幾行 Python 程式碼從 PDF 文件中提取表格。首先，我們來匯入 IronPDF 庫，以存取其功能並獲取所有 IronPDF 的功能。接下來，借助 PdfDocument 類別，可以處理現有的 PDF 檔案並對其執行各種操作。

使用 FromFile 函數時，可以提供載入輸入 PDF 文件的參數。之後，使用 ExtractAllText 函數從 PDF 檔案中的所有頁面提取所有表格數據。然後，使用 Split 函數將提取的表格數據分割成多行，並在控制台螢幕上顯示。

如何從 PDF 中提取表格在 Python 中，圖 6：提取的數據

提取的數據

在上面的輸出中，數據是逐行顯示的，展示了如何提取表格數據。了解更多關於IronPDF的信息通過瀏覽產品文檔.

結論

IronPDF 庫提供強大的安全措施，以將潛在風險降至最低並確保數據安全。它與所有流行的瀏覽器兼容，不限於任何特定瀏覽器。使用 IronPDF，程式設計師可以僅需幾行程式碼即可高效地建立和讀取 PDF 檔案。為滿足開發人員的多樣化需求，IronPDF庫提供多種許可選項，包括免費開發者許可證和可購買的額外開發許可證。

Lite 套裝，價格為 $749，包括永久授權、30 天退款保證、一年軟體維護和升級可能性。在初次購買後沒有其他費用，這些授權可以在生產、預備和開發環境中使用。 IronPDF 也提供具有某些時間和重新分發限制的免費許可證。用戶可以在真實環境中測試產品，並使用免費試用不包含浮水印的期間。如需有關 IronPDF 試用版的費用和授權的詳細資訊，請點擊以下內容授權頁面.

里根普恩

立即與工程團隊聊天

軟體工程師

Regan 畢業於雷丁大學，擁有電子工程學士學位。在加入 Iron Software 之前，他的工作角色讓他專注於單一任務；而他在 Iron Software 工作中最喜歡的是他所能承擔的工作範圍，無論是增加銷售價值、技術支持、產品開發或市場營銷。他喜歡了解開發人員如何使用 Iron Software 庫，並利用這些知識不斷改進文檔和開發產品。

< 上一頁
如何在 Python 中編寫 PDF 文件

下一個 >
如何在 Python 中從 URL 下載 PDF