使用IRONPDF FOR PYTHON

如何在 Python 中解析 PDF 文件

1.0 介紹

現代的庫已經簡化了 PDF 的創建過程。 在選擇 PDF 專案的程式庫時,請考慮建置、讀取和轉換功能,以實現最佳的整合和效能。 Python 提供像 IronPDF 這樣的工具,可以高效解析現有的 PDF。

2.0 IronPDF

Python是一種程式語言,使開發人員能夠快速且輕鬆地構建圖形用戶界面。 與其他語言相比,它為程式設計師提供了更大的活力。 因此,將 IronPDF 庫與 Python 整合是一個簡單的過程。

為了快速且安全地建立一個功能完整的圖形用戶界面,開發人員可以利用包括 PyQt、wxWidgets、Kivy 以及許多其他套件和庫在內的多個預安裝工具。 值得注意的是,IronPDF 並不是純粹的 Python PDF 庫; 相反地,它允許包括來自其他框架(如 .NET Core)的各種功能。

IronPDF 簡化了 Python 網站設計和開發,特別是由於 Django、Flask 和 Pyramid 等 Python 網頁開發範式的流行。 包括 Reddit、Mozilla 和 Spotify 在內的知名網站和線上服務已使用這些框架。 您可以在 IronPDF for Python 網站 上了解有關 Python 的更多資訊。

2.1 IronPDF 的功能

  • IronPDF 能夠從各種來源生成 PDF 文件,包括 HTML、HTML5、ASPX 和 Razor/MVC 檢視。 它提供從 HTML 頁面和圖像創建 PDF 的功能。
  • IronPDF 工具包提供了一系列工具,用於創建互動式 PDF、填寫和提交互動式表單拆分合併 PDF 文件、從 PDF 文件中提取文本和圖像、在 PDF 文件中搜索特定單詞、將 PDF 頁面柵格化為圖像、將 PDF 轉換為 HTML。
  • IronPDF 支援使用者代理、代理伺服器、Cookie、HTTP 標頭和形狀變數,允許 HTML 登入表單驗證。
  • 存取受保護的文件 在 IronPDF 中是透過使用使用者名稱和密碼授權的。
  • IronPDF 有助於從各種來源(如字串、資料流、網址等)生成 PDF 文件並僅需幾行程式碼即可列印

3.0 設置 Python

3.1 環境設定

確保您的電腦上已安裝 Python。 訪問官方 Python 網站下載並安裝適合您操作系統的最新版本的 Python。 安裝 Python 之後,建立一個虛擬環境來隔離專案的依賴項。 使用「venv」模組來建立和管理虛擬環境,為您的轉換專案提供一個乾淨且獨立的工作空間。

在 PyCharm 中創建新項目 3.2

為了這次演示,我們將使用 PyCharm,一個用於撰寫 Python 代碼的 IDE。

啟動 PyCharm IDE 後,點擊「New Project」。

如何在 Python 中解析 PDF 檔案,圖 1:PyCharm 歡迎畫面

PyCharm 歡迎畫面

當您選擇「新專案」時,將出現一個新視窗,使您可以指定專案的位置和其環境。 此新視窗可在下方的截圖中看到。

如何在Python中解析PDF文件,圖2:PyCharm中的新專案畫面

PyCharm 中的新專案畫面

在設定專案位置和環境路徑後,點擊建立按鈕開始新專案。 這將開啟一個新窗口,程序可以在其中開發。 本教學建議使用 Python 3.9。

如何在 Python 中解析 PDF 檔案,圖 3:在 PyCharm 中打開的主要檔案

在 PyCharm 中打開的一個主要檔案

3.3 IronPDF 函式庫要求

IronPDF 是一個 Python 庫,主要依賴於 .NET 6.0。因此,若要使用 IronPDF for Python,您的電腦必須安裝 .NET 6.0 執行時。 在 Linux 和 Mac 用戶使用此 Python 模組之前,可能需要安裝 .NET。 您可以從.NET 網站獲取所需的運行時環境。

3.4 IronPDF 庫設置

需要安裝「ironpdf」封包以便建立、編輯和打開擴展名為「.pdf」的檔案。 要在 PyCharm 中安裝套件,請開啟終端視窗並輸入以下指令:

pip install ironpdf
pip install ironpdf
SHELL

下面的截圖顯示了'ironpdf'套件的設定。

如何在 Python 中解析 PDF 檔案,圖 4:終端顯示使用 pip 安裝 IronPDF

顯示使用 pip 安裝 IronPDF 的終端機

4.0 使用 IronPDF 解析 PDF

借助IronPDF庫,可以從PDF文件中提取文本。 IronPDF 提供多種文本提取技術。 第一種方法是將頁面上的所有內容作為一個單字符串檢索。 第二種方法是從第一頁開始,逐頁閱讀內容。 以下程式碼片段顯示了一種使用 IronPDF 檢查當前 PDF 檔案的模式。

有兩種方法可以從 PDF 中提取數據:

  1. 按頁從 PDF 中提取。

  2. 將整個 PDF 提取為文本。

    以下是我們將在本文中使用的 PDF 檔案。 它有兩頁。

    如何在 Python 中解析 PDF 檔案,圖 5:每頁上方帶有頁碼的 PDF

    在每頁頂部有頁碼的 PDF

4.0.1 按頁面提取文本

下面提供的範例代碼演示了如何使用頁碼從 PDF 文件中檢索數據。

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
py
PYTHON

程式碼片段示範了使用 FromFile 函數來讀取 PDF 文件並建立 PDF 文件物件。 此物件允許存取 PDF 中的文字和圖像。 要從特定頁面提取文本,可以使用ExtractTextFromPage方法,並將頁碼作為參數提供。 此方法將返回一個包含指定頁面上所有文字的字串。 輸出將顯示如下。

如何在 Python 中解析 PDF 文件,圖 6:帶有文本輸出 Page 1 的終端截圖

終端機的螢幕截圖,文字輸出為「Page 1」

結果中高亮顯示的矩形框是從第1頁的PDF文件中提取的數據,其索引為0。

4.0.2 從所有頁面提取

快速且輕鬆地將所有 PDF 內容作為字串獲取的第一種方法如下代碼範例所示。

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
py
PYTHON

上面展示的範例程式碼解釋了如何從現有的檔案路徑讀取 PDF 並使用FromFile函數將其轉換為 PDF 檔案物件。 PDF 的純文字將透過物件的 ExtractAllText 函數提取並轉換為字串,然後在終端機上打印提取的文字。 結果將顯示如下。

在 Python 中解析 PDF 文件的方法,圖 7:終端的截圖,顯示文字輸出 Page 1 和 Page 2

終端機截圖,顯示文字輸出「Page 1」和「Page 2」

結果中突出顯示的矩形框包含從 PDF 文件所有頁面提取的數據文本。

我們能夠藉助IronPDF使用C#創建PDF。 要了解更多關於IronPDF的信息,請訪問IronPDF網站

5.0 結論

為了降低風險並確保數據保護,IronPDF 庫提供強大的安全措施。 與所有常用的瀏覽器兼容,且不限於任何特定瀏覽器。 IronPDF 使程式設計師只需使用幾行程式碼即可輕鬆建立和讀取 PDF 檔案。 為了滿足開發人員的各種需求,IronPDF庫提供多種授權選項,包括免費的開發者授權以及可購買的額外開發授權。

$749 Lite 套件附帶永久許可證、30 天退款保證、一年的軟體支援和升級可能性。 超出首次購買,沒有額外收費。 生產、預備和開發環境皆使用這些授權。 IronPDF 也提供具有一些時間和重新分發限制的免費授權。 在免費試用期間,使用者可以在實際使用中測試產品,而不會有浮水印。 有關 IronPDF 試用版本的成本和許可的更多詳情,請訪問IronPDF 許可頁面

查克尼思·賓
軟體工程師
Chaknith 致力於 IronXL 和 IronBarcode。他在 C# 和 .NET 方面擁有豐富的專業知識,協助改進軟體並支持客戶。他從用戶互動中獲得的洞察力有助於提高產品、文檔和整體體驗。
< 上一頁
如何在 Python 中拆分 PDF 文件
下一個 >
如何在 Python 中從 PDF 中提取發票數據

準備開始了嗎? 版本: 2025.5 剛剛發布

查看許可證 >