使用IRONPDF FOR PYTHON

如何從 PDF 中提取表格在 Python 中

發佈 2023年7月22日
分享:

介紹

在文件共享方面,可攜式文件格式 (PDF)由 Adobe 創建的 PDF 對於保存富含文字和美觀信息的完整性至關重要。要訪問線上 PDF 文件,通常需要特定的程序。對於當今許多重要的數位出版物,PDF 文件是必要的。許多企業使用 PDF 文件來製作專業文件和發票。開發人員經常使用庫來創建滿足特定消費者需求的 PDF 文件。現代庫的發展簡化了生成 PDF 的過程。在為需要創建 PDF 的項目選擇合適的庫時,考慮構建、閱讀和轉換功能以確保無縫整合和最佳性能是至關重要的。Python 庫有很多,但在本文中,我們將使用 IronPDF,一個功能強大的 PDF 處理庫。

2.0 IronPDF

Python 提供了比其他語言顯著更多的靈活性,允許開發者輕鬆且高效地設計圖形用戶界面。因此,將 IronPDF 庫整合到 Python 中是一個簡單的過程。要快速且安全地創建一個功能齊全的圖形用戶界面,可以利用一系列預裝的工具,包括 PyQt、wxWidgets、Kivy 以及其他各種軟件包和庫。

IronPDF 簡化了 Python 網頁設計和開發。這主要是由於有大量可用的 Python 網頁開發框架,如 Django、Flask 和 Pyramid。一些著名的網站和在線服務使用了這些框架,包括 Reddit、Mozilla 和 Spotify。

2.1 IronPDF 的功能

以下是一些 IronPDF 的功能 IronPDF* PDF 文件可以從 HTML、HTML5、ASP、PHP 等來源創建。此外,圖像文件也可以與 HTML 文件一起轉換為 PDF。

  • IronPDF 支援創建互動式 PDF 文件。其功能包括拆分和合併 PDF 文件、從 PDF 文件中提取文字和圖像、將 PDF 頁面光柵化為圖像、將 PDF 轉換為 HTML、列印 PDF 文件、填寫和提交互動式表單、以及拆分和合併 PDF 文件。
  • 使用 IronPDF 可以從 URL 生成文件。它還支援使用 HTML 登錄表單、代理、Cookie、HTTP 頭、特殊網絡登錄憑證、表單變數和用戶代理登錄的用戶代理。
  • IronPDF 程序允許檢查和註釋 PDF 文件。
  • IronPDF 支援從文件中提取圖像。
  • IronPDF 提供用户在文檔中添加頁眉、頁腳、文字、照片、書籤、水印等功能。
  • 使用 IronPDF,您可以在新的或現有的文檔中拆分和合併頁面。
  • 可以將文件轉換為 PDF 對象而無需 Acrobat Viewer。
  • IronPDF 支援從 CSS 文件創建 PDF 文件。
  • 可以使用包含媒體類型定義的 CSS 文件創建文檔。

3.0 配置Python環境

3.1 設置 Python

確保您的電腦上已經安裝了 Python。要下載並設置適用於您的作業系統的最新版本的 Python,請前往官方的 Python 網站。 網站一旦安裝了 Python,請通過創建虛擬環境來分離項目的需求。使用 venv 模組,您可以創建和管理虛擬環境,為您的轉換項目提供一個整潔、有組織的工作區。

3.2 在 PyCharm 中建立新專案

在本教程中,我們將使用 PyCharm,一個用於 Python 開發的 IDE。

啟動 PyCharm IDE 後,從菜單中選擇「New Project」,如下圖所示。

如何從 PDF 中提取表格在 Python 中:圖 1

如下面的圖片所示,當您選擇「New Project」時,將會出現一個新窗口,讓您設定專案的位置和 Python 環境。

如何在 Python 中從 PDF 提取表格:圖 2

選擇專案的位置和環境後,點擊「Create」按鈕來初始化。 Python 文件可以在新打開的窗口中打開,供您輸入代碼。本指南使用 Python 3.9。

如何從PDF中提取表格在Python中:圖3

3.3 IronPDF 庫需求

IronPDF for Python 依賴 .NET 6.0 作為其核心技術。因此,為了使用 IronPDF Python,您的電腦必須安裝 .NET 6.0 運行時。Linux 和 Mac 用戶可能需要先安裝 .NET 才能使用這個 Python 模組。要獲取所需的運行時環境,請訪問此 連結.

3.4 IronPDF Library Setup

需要安裝 ironpdf 套件才能創建、編輯和打開具有“.pdf”擴展名的文件。要在 PyCharm 中安裝該套件,請打開終端窗口並輸入以下命令:

 pip install ironpdf

以下截圖說明了安裝 ironpdf 套件的過程。

如何在 Python 中從 PDF 中提取表格:圖 4

4.0 從 PDF 文件中提取表格數據

我們可以使用 IronPDF Python 程式庫輕鬆地從 PDF 文件中提取數據。IronPDF 有助於分析文本數據和從 PDF 文件中提取表格。以下是一段範例代碼,演示了如何利用提供的圖片作為參考來從 PDF 表格中提取數據。

如何在 Python 中從 PDF 提取表格:圖 5

from ironpdf import *
pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)
PYTHON

所提供的代碼展示了如何使用 IronPDF 來從 PDF 文件中提取表格,只需幾行 Python 代碼。首先,我們導入 IronPDF 庫以訪問其功能。通過利用該庫,我們可以訪問 IronPDF 的所有功能。接下來,借助 PdfDocument 類,我們可以處理現有的 PDF 文件,從而能夠對其進行各種操作。

使用 FromFile 函數時,可以加載輸入 PDF 文件的參數。通過將文件位置作為參數傳遞,我們可以加載已存在的 PDF 文件。之後,我們利用 ExtractAllText 函數來提取 PDF 文件中所有頁面的全部表格數據。隨後,我們使用 Split 函數將提取的表格數據分成多行,並顯示在控制台螢幕上。

如何從 PDF 提取表格在 Python 中:圖 6

在上述輸出中,數據逐行顯示,展示了如何提取表格數據。如果您想了解更多關於IronPDF的信息,請查看以下內容 文章.

5.0 結論

IronPDF 庫提供了強大的安全措施來最小化潛在的風險並確保數據安全。它與所有流行的瀏覽器兼容,並不限制於特定的瀏覽器。使用 IronPDF,程式設計師可以通過簡單幾行代碼有效地創建和閱讀 PDF 文件。為了滿足開發者的多樣化需求,IronPDF 庫提供了各種許可選項,包括免費的開發者許可和可購買的額外開發許可。

Lite 套餐,價格為 $749,包括永久許可、30天退款保證、一年的軟體維護和升級可能性。首次購買後不收取額外費用,這些許可可以用於生產、過渡和開發環境。IronPDF 也提供免費的許可,但對使用時間和重新分發有限制。用戶可以在真實環境中測試產品。 免費試用 試用期不包括浮水印。若想了解有關 IronPDF 試用版本的成本和許可證的詳細資訊,請點擊以下連結 連結.

< 上一頁
如何在 Python 中編寫 PDF 文件
下一個 >
如何在 Python 中從 URL 下載 PDF

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >