使用IRONPDF FOR PYTHON

如何在 Python 中解析 PDF 文件

已更新 2024年9月28日
分享:

1.0 介紹

現代的庫已經簡化了 PDF 的創建過程。 在選擇 PDF 專案的程式庫時,請考慮建置、讀取和轉換功能,以實現最佳的整合和效能。 Python 提供像 IronPDF 這樣的工具,可以高效解析現有的 PDF。

2.0 IronPDF

Python是一種程式語言,使開發人員能夠快速且輕鬆地構建圖形用戶界面。 與其他語言相比,它為程式設計師提供了更大的活力。 因此,將 IronPDF 庫與 Python 整合是一個簡單的過程。

為了快速且安全地建立一個功能完整的圖形用戶界面,開發人員可以利用包括 PyQt、wxWidgets、Kivy 以及許多其他套件和庫在內的多個預安裝工具。 值得注意的是,IronPDF 並不是純粹的 Python PDF 庫; 相反地,它允許包括來自其他框架(如 .NET Core)的各種功能。

IronPDF 簡化了 Python 網站設計和開發,特別是由於 Django、Flask 和 Pyramid 等 Python 網頁開發範式的流行。 包括 Reddit、Mozilla 和 Spotify 在內的知名網站和線上服務已使用這些框架。 您可以在 IronPDF 的 Python 相關頁面上了解更多信息IronPDF for Python 網站.

2.1 IronPDF 的功能

  • IronPDF 能够生成 PDF 檔案來自各種來源,包括 HTML、HTML5、ASPX 和 Razor/MVC View。 它提供從 HTML 頁面和圖像創建 PDF 的功能。
  • IronPDF 工具組提供了一系列工具,用於創建互動式 PDF 等任務。填寫及提交互動表單, 分割合併PDF 文件,Extract text and images從 PDF 檔案中提取,搜尋 PDF 檔案中的特定單字,將 PDF 頁面光柵化為圖像將 PDF 轉換為 HTML。
  • IronPDF 支援使用者代理、代理伺服器、Cookie、HTTP 標頭和形狀變數,允許 HTML 登入表單驗證。

    *訪問受保護的文件在 IronPDF 中,授權是通過使用用戶名和密碼進行的。

  • IronPDF 有助於生成 PDF 文件並列印只需幾行代碼即可從各種來源(如字串、流、URL 等)中生成。

3.0 設置 Python

3.1 環境設定

確保您的電腦上已安裝 Python。 訪問官方 Python 網站下載並安裝適合您作業系統的最新版本 Python。 安裝 Python 之後,建立一個虛擬環境來隔離專案的依賴項。 使用「venv」模組來建立和管理虛擬環境,為您的轉換專案提供一個乾淨且獨立的工作空間。

在 PyCharm 中創建新項目 3.2

為了這次演示,我們將使用 PyCharm,一個用於撰寫 Python 代碼的 IDE。

啟動 PyCharm IDE 後,點擊「New Project」。

如何在 Python 中解析 PDF 文件,圖 1:PyCharm 歡迎畫面

PyCharm 歡迎畫面

當您選擇「新專案」時,將出現一個新視窗,使您可以指定專案的位置和其環境。 此新視窗可在下方的截圖中看到。

如何在 Python 中解析 PDF 文件,圖 2:PyCharm 中的新專案畫面

PyCharm 的新專案畫面

點擊創建按鈕來開始一個新專案,設置完專案位置和環境路徑後。 這將開啟一個新窗口,程序可以在其中開發。 本教學建議使用 Python 3.9。

如何在 Python 中解析 PDF 文件,圖 3:在 PyCharm 中打開的主文件

在 PyCharm 中打開的主文件

3.3 IronPDF 函式庫要求

IronPDF 是一個 Python 庫,主要依賴於 .NET 6.0。因此,若要使用 IronPDF for Python,您的電腦必須安裝 .NET 6.0 執行時。 在 Linux 和 Mac 用戶使用此 Python 模組之前,可能需要安裝 .NET。 您可以從以下來源獲取所需的運行時環境.NET網站.

3.4 IronPDF 庫設置

需要安裝「ironpdf」封包以便建立、編輯和打開擴展名為「.pdf」的檔案。 要在 PyCharm 中安裝套件,請開啟終端視窗並輸入以下指令:

pip install ironpdf

下面的截圖顯示了'ironpdf'套件的設定。

如何在 Python 中解析 PDF 文件,圖 4:一個終端顯示使用 pip 安裝 IronPDF

通過 pip 安裝 IronPDF 的終端顯示

4.0 使用 IronPDF 解析 PDF

借助IronPDF庫,可以從PDF文件中提取文本。 IronPDF 提供多種文本提取技術。 第一種方法是將頁面上的所有內容作為一個單字符串檢索。 第二種方法是從第一頁開始,逐頁閱讀內容。 以下程式碼片段顯示了一種使用 IronPDF 檢查當前 PDF 檔案的模式。

有兩種方法可以從 PDF 中提取數據:

  1. 按頁從 PDF 中提取。

  2. 將整個 PDF 提取為文本。

    以下是我們將在本文中使用的 PDF 檔案。 它有兩頁。

    如何在 Python 中解析 PDF 文件,圖 5:每頁頂部都有頁碼的 PDF

    每頁頂部帶有頁碼的 PDF

4.0.1 按頁面提取文本

下面提供的範例代碼演示了如何使用頁碼從 PDF 文件中檢索數據。

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
PYTHON

程式碼片段示範了使用 FromFile 函數來讀取 PDF 文件並建立 PDF 文件物件。 此物件允許存取 PDF 中的文字和圖像。 若要從特定頁面提取文字,可以使用 ExtractTextFromPage 方法,並提供頁碼作為參數。 此方法將返回一個包含指定頁面上所有文字的字串。 輸出將顯示如下。

如何在 Python 中解析 PDF 文件,圖 6:終端的螢幕截圖,文本輸出為「Page 1」

終端機螢幕截圖,文字輸出為 "Page 1"

結果中高亮顯示的矩形框是從第1頁的PDF文件中提取的數據,其索引為0。

4.0.2 從所有頁面提取

快速且輕鬆地將所有 PDF 內容作為字串獲取的第一種方法如下代碼範例所示。

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上面顯示的範例程式碼解釋了如何從現有的檔案路徑讀取 PDF,並使用 FromFile 函數將其轉換為 PDF 檔案物件。 PDF 的純文字將通過對象的 ExtractAllText 函數提取並轉換成字串,然後在終端上打印提取的文本。 結果將顯示如下。

如何在 Python 中解析 PDF 檔案,圖 7:終端機截圖,文字輸出「Page 1」,和「Page 2」

終端機截圖,文字輸出 "Page 1",以及 "Page 2"

結果中突出顯示的矩形框包含從 PDF 文件所有頁面提取的數據文本。

我們能夠藉助IronPDF使用C#創建PDF。 若要了解有關 IronPDF 的更多資訊,請造訪IronPDF 網站.

5.0 結論

為了降低風險並確保數據保護,IronPDF 庫提供強大的安全措施。 與所有常用的瀏覽器兼容,且不限於任何特定瀏覽器。 IronPDF 使程式設計師只需使用幾行程式碼即可輕鬆建立和讀取 PDF 檔案。 為了滿足開發人員的各種需求,IronPDF庫提供多種授權選項,包括免費的開發者授權以及可購買的額外開發授權。

$749 Lite 包含永久授權、30 天退款保證、一年軟體支援以及升級可能性。 超出首次購買,沒有額外收費。 生產、預備和開發環境皆使用這些授權。 IronPDF 也提供具有一些時間和重新分發限制的免費授權。 在免費試用期間,使用者可以在實際使用中測試產品,而不會有浮水印。 有關 IronPDF 試用版本的價格和許可的更多詳細資訊,請訪問IronPDF 授權頁面.

< 上一頁
如何在 Python 中拆分 PDF 文件
下一個 >
如何在 Python 中從 PDF 中提取發票數據

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >