使用IRONPDF FOR PYTHON

如何在 Python 中從 PDF 提取特定文本

查克尼思·賓
查克尼思·賓
2023年8月2日
已更新 2024年9月21日
分享:

本文將演示如何使用 IronPDF for Python 庫從 PDF 文件中提取文本元素。

IronPDF

Python 是一種程式語言,讓開發者可以簡單快速地建立圖形使用者介面。 與其他語言相比,Python 對程式設計師來說更加動態。 因此,將 IronPDF 函式庫添加到 Python 是一個簡單的過程。 包括 PyQt、wxWidgets、Kivy 以及許多其他套件和 Python 函式庫在內的大量預安裝工具,可以用於快速且安全地構建一個完整的圖形用戶界面。 IronPDF 內建 Python,並且允許整合其他框架的功能,如 .NET Core。

IronPDF 使網站開發更簡單。 這主要是因為廣泛採用如 Django、Flask 和 Pyramid 的 Python 網路開發範式。 Reddit、Mozilla 和 Spotify 只是使用這些框架的一小部分網站和線上服務。

IronPDF 功能

  • 使用 IronPDF,可以從多種來源創建 PDF 文件,包括 HTML、HTML5、ASPX 和 Razor/MVC 視圖。點擊此處了解更多。 它提供了將HTML頁面圖像轉換為PDF文件的能力。
  • 利用 IronPDF 工具包可以進行多項活動,包括創建互動 PDF、完成與提交互動表單拆分合併PDF 文件、提取文本和圖像、在 PDF 文件中搜索文本、將 PDF 光柵化為圖像、改變字體大小、使用 ChatGPT 進行自然語言處理以及轉換 PDF 頁面屬性。
  • IronPDF 提供 HTML 登入表單驗證,支援用戶代理、代理伺服器、Cookie、HTTP 標頭和表單變數。
  • IronPDF 使用用戶名和密碼來提供用戶訪問受保護的文件
  • 只需幾行代碼,IronPDF 就可以從多種來源列印 PDF 文件,包括字串、流或 URL。

設置 Python

環境配置

確保您的電腦上已安裝 Python。 要下載及安裝與您的操作系統相容的最新版本 Python,請前往官方 Python 網站。 在安裝 Python 後,建立虛擬環境以分離您專案的需求。 使用venv模組創建和管理虛擬環境,為您的轉換專案提供一個整潔、獨立的工作空間。

在 PyCharm 中的新倡議

在此示範中,建議使用 PyCharm 作為開發 Python 程式碼的 IDE。

在啟動 PyCharm IDE 後,選擇「New Project」。

如何在 Python 中從 PDF 提取特定文本,圖 1:PyCharm

PyCharm

當您選擇「新專案」時,將會開啟一個新窗口,允許您設置專案的位置和環境。 這可能會在下面的圖像中看到。

如何在 Python 中從 PDF 中提取特定文本,圖 2:新專案

新專案

選擇好專案位置和環境路徑後,點擊建立按鈕開始新專案。 然後,程序可以在一個新窗口中創建,該窗口將隨之打開。 本課使用 Python 3.9。

如何從 PDF 中提取特定文本(Python),圖 3:建立 Python 專案

建立 Python 專案

IronPDF 程式庫需求

Python 函式庫 IronPDF 大多使用 .NET 6.0。因此,為了使用 IronPDF for Python,必須在您的電腦上安裝 .NET 6.0 執行時。 Linux 和 Mac 使用者在使用此 Python 模組之前可能需要安裝 .NET。 請訪問這個Microsoft 的下載頁面以獲取所需的運行時環境。

IronPDF Library Setup

要生成、修改和打開「.pdf」擴展名的文件,必須安裝「ironpdf」套件。 開啟終端窗口,輸入以下指令以在 PyCharm 中安裝套件:

:PackageInstall

下圖顯示了ironpdf套件的安裝。

如何從 PDF 中提取特定文本到 Python,圖 4:安裝 IronPDF

安裝 IronPDF

從 PDF 文件中提取特定數據

可以利用IronPDF庫從PDF文件中提取文本。 IronPDF 提供多種文字提取方法。 第一種方法是將整個頁面的內容作為單個字符串檢索。 第二種策略是逐頁檢查內容,從第一頁開始。 可以使用IronPDF庫來調查現有的PDF文件。 下面的程式碼片段顯示如何使用 IronPDF 檢查即時的 PDF 文件。

從 PDF 中提取信息有兩種選擇:

  1. 從 PDF 逐頁提取

  2. 將整個 PDF 轉換為文本

    以下是本文的示例PDF文件。

    如何在 Python 中從 PDF 提取特定文本,圖 5:輸入 PDF

    輸入 PDF

從 PDF 中逐頁提取內容

以下示例代碼顯示如何使用頁碼從PDF文件中獲取數據。

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

該代碼片段顯示如何使用FromFile函數讀取PDF文件並構建PDF對象。 此物件可用於存取 PDF 的文字和圖像。 通過將頁碼作為參數傳遞給ExtractTextFromPage函數,可以從特定頁面檢索文本。 此方法將返回包含所選頁面上所有文字的字符串。 然後,使用 Python 的 split 函數將提取的文本中的所有新行拆分。 之後,檢查提取文本中的每一行是否包含所需的關鍵字。 如果關鍵字匹配,它會在命令提示符中顯示特定行。 否則,它將忽略該行並繼續到下一行。文字提取的輸出將如下所示。

將整個 PDF 轉換為文本

以下程式碼範例展示了第一種方法,用以快速簡便地將所有 PDF 內容作為字串獲取。

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

上面的範例程式碼演示了如何使用FromFile函數從現有的檔案路徑讀取PDF並將其轉換為PDF檔案物件。 因此,我們可以使用這個PDF閱讀器對象來查看PDF中的文字和圖像。 該物件的ExtractAllText函式將用於從PDF中提取資料為純文字,將其轉換為字串,並使用類似上述的邏輯來找到特定的關鍵字,以在終端中顯示結果。 結果顯示如下。

如何從 PDF 中提取特定文字(Python),圖 6:輸出

輸出

上面的代碼/輸出顯示,給定的 PDF 文件包含姓名和年齡,但結果僅顯示 PDF 文件中可用的姓名。

結論

IronPDF 庫提供強大的安全機制,以減少威脅並保證數據安全。 它不僅限於任何一個瀏覽器,且與所有廣泛使用的瀏覽器兼容。 只需幾行代碼,程序員就可以使用IronPDF快速生成和讀取PDF文件。 IronPDF 庫提供多種授權選項,包括免費的開發人員授權和可購買的額外開發授權,以滿足開發人員的多樣化需求。

Lite 套件中,包括永久授權、30 天退款保證、一年的軟體維護和升級選項。 這些許可證可用於所有環境。 此外,IronPDF 提供免費授權,但附有一些重新分發的限制。 一個試用許可證允許用戶在沒有浮水印的情況下評估產品。

查看可用的 IronPDF 授權以獲取更多關於商業授權的資訊。

查克尼思·賓
軟體工程師
Chaknith 致力於 IronXL 和 IronBarcode。他在 C# 和 .NET 方面擁有豐富的專業知識,協助改進軟體並支持客戶。他從用戶互動中獲得的洞察力有助於提高產品、文檔和整體體驗。
< 上一頁
如何在 Python 中編輯 PDF 檔案
下一個 >
如何在 Python 中扁平化 PDF 文件

準備開始了嗎? 版本: 2025.4 剛剛發布

查看許可證 >