跳過到頁腳內容
使用 IRONPDF FOR PYTHON

如何從 Python 中的 PDF 提取特定文本

本文將示範如何使用 IronPDF for Python 程式庫從 PDF 文件中擷取文字元素。

IronPDF。

Python 是一種程式語言,它使開發人員能夠輕鬆快速地建立圖形使用者介面。 與其他語言相比,Python 對程式設計師來說也更具動態性。 因此,將 IronPDF 庫添加到 Python 中是一個簡單的過程。 預先安裝了大量工具,包括 PyQt、wxWidgets、Kivy 以及許多其他軟體包和 Python 庫,可用於快速、安全地建立完整的 GUI。 IronPDF 整合了 Python,並且允許整合來自其他框架(例如 .NET Core)的功能。

IronPDF 讓網站開發更輕鬆。 主要原因是像 Django、Flask 和 Pyramid 這樣的 Python Web 開發範式得到了廣泛應用。 Reddit、Mozilla 和 Spotify 只是眾多使用這些框架的網站和線上服務的例子。

IronPDF。 功能

  • 使用 IronPDF,可以從各種來源建立PDF 文件,包括 HTML、HTML5、ASPX 和 Razor/MVC View。 它能夠將 HTML 頁面圖像轉換為 PDF 文件
  • IronPDF 工具包可以幫助完成許多操作,例如建立互動式 PDF、填寫和提交互動式表單拆分合併PDF 文件、提取文字和圖像、在 PDF 文件中搜尋文字、將 PDF 柵格化為圖像、更改字體大小、使用 ChatGPT 進行自然語言處理以及轉換 PDF 頁面屬性等等。 IronPDF 提供 HTML 登入表單驗證,支援使用者代理、代理、cookie、HTTP 標頭和表單變數。 IronPDF 使用使用者名稱和密碼為使用者提供受保護文件的存取權限。
  • 只需幾行程式碼,IronPDF 即可從各種來源(包括字串、串流或 URL)列印 PDF 檔案。

安裝 Python

環境配置

請確保您的電腦上已安裝 Python。 若要下載並安裝與您的作業系統相容的最新版 Python,請造訪Python 官方網站。 安裝好 Python 後,創建一個虛擬環境,將專案的需求隔離。 使用venv模組建立和管理虛擬環境,為您的轉換專案提供一個整潔、獨立的工作場所。

PyCharm 的新舉措

本次示範推薦使用 PyCharm 作為 Python 程式碼開發 IDE。

啟動 PyCharm IDE 後,選擇"新建專案"。

如何在 Python 中從 PDF 中提取特定文本,圖 1:PyCharm PyCharm

選擇"新建項目"後,將開啟一個新窗口,您可以在其中設定項目的位置和環境。 這可能在下圖中看到。

如何在 Python 中從 PDF 中提取特定文本,圖 2:新項目新項目

選擇專案位置和環境路徑後,按一下"建立"按鈕開始新專案。 然後,可以在新開啟的視窗中建立該程式。 本課程使用 Python 3.9 版本。

如何在 Python 中從 PDF 中提取特定文本,圖 3:建立Python 項目

IronPDF。庫要求

Python 函式庫 IronPDF 主要使用 .NET 6.0。因此,要使用 IronPDF for Python,您的電腦上必須安裝 .NET 6.0 執行階段。 Linux 和 Mac 使用者可能需要先安裝 .NET 才能使用此 Python 模組。 請造訪微軟的這個下載頁面,以取得所需的執行環境。

IronPDF。庫設定

若要產生、修改和開啟副檔名為".pdf"的文件,必須安裝"ironpdf"軟體包。 開啟終端機窗口,輸入以下指令在 PyCharm 中安裝軟體包:

pip install ironpdf
pip install ironpdf
SHELL

ironpdf軟體套件的安裝過程如下圖所示。

如何在 Python 中從 PDF 中提取特定文本,圖 4:安裝 IronPDF安裝 IronPDF

從PDF文件中提取特定數據

使用 IronPDF 庫,可以從 PDF 文件中提取文字。 IronPDF 提供多種文字擷取方法。 第一種方法是將整個頁面的內容作為單一字串檢索出來。 第二種策略是逐頁瀏覽內容,從第一頁開始。 可以使用 IronPDF 庫來分析現有的 PDF 文件。 下面的程式碼片段展示如何使用 IronPDF 檢查即時 PDF 檔案。

從PDF文件中提取資訊有兩種方法:

  1. 從PDF文件中逐頁提取內容
  2. 將整個 PDF 檔案轉換為文字

本文的範例PDF文件如下所示。

如何在 Python 中從 PDF 中提取特定文本,圖 5:輸入 PDF輸入 PDF

從PDF文件中逐頁提取內容

下面提供的範例程式碼展示如何使用頁碼從 PDF 檔案中取得資料。

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

該程式碼片段展示如何讀取 PDF 檔案並使用FromFile函數建立 PDF 物件。 該物件可用於存取 PDF 的文字和圖像。 透過將頁碼作為參數傳遞給ExtractTextFromPage函數,可以從特定頁面檢索文字。 此方法將傳回包含所選頁面上所有單字的字串。 然後,使用 Python 中的split函數將提取的文字中的所有換行符分割開來。 之後,檢查提取文字中的每一行是否包含所需的關鍵字。 如果關鍵字匹配,則會在命令提示字元中顯示特定行。 否則,它將忽略該行並繼續處理下一行。文字擷取的輸出結果如下所示。

將整個 PDF 檔案轉換為文字

以下程式碼範例示範了快速簡單地將所有 PDF 內容作為字串取得的第一種方法。

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

上面的範例程式碼示範如何使用FromFile函數從現有檔案路徑讀取 PDF 並將其轉換為 PDF 檔案物件。 因此,我們可以使用此 PDF 閱讀器物件來查看 PDF 中的文字和圖像。 該物件的ExtractAllText函數將用於從 PDF 中提取資料到純文本,將其轉換為字串,並使用與上述類似的邏輯來查找特定關鍵字,以便在終端中顯示結果。 結果顯示如下。

如何在 Python 中從 PDF 中提取特定文本,圖 6:輸出

上述程式碼/輸出表明,給定的 PDF 文件包含姓名和年齡,但結果僅顯示 PDF 文件中可用的名稱。

結論

IronPDF 庫提供強大的安全機制,以減少威脅並確保資料安全。 它不局限於任何特定瀏覽器,並且兼容所有廣泛使用的瀏覽器。 只需幾行程式碼,程式設計師就可以使用 IronPDF 快速產生和讀取 PDF 文件。 IronPDF 庫提供一系列許可選項,包括免費的開發者許可證和可供購買的額外開發許可證,以滿足開發者的各種需求。

Lite 套餐包含永久許可證、30 天退款保證、一年軟體維護和升級選項。 這些許可證可在所有環境下使用。 此外,IronPDF 還提供一些帶有再分發限制的免費授權。 試用許可證允許使用者在不帶浮水印的情況下評估產品。

查看 IronPDF 提供的許可證,以了解更多關於商業許可的資訊。

常見問題解答

如何使用 Python 從 PDF 擷取特定文字?

您可以使用 IronPDF 的 Python 函式庫從 PDF 中提取文字。它提供了使用 ExtractTextFromPage 逐頁提取文字或使用 ExtractAllText 從整個文件中提取文字的功能。

在 Python 專案中設定 IronPDF 的步驟為何?

首先,安裝 .NET 6.0 runtime(如果尚未安裝)。然後,在您的開發環境中設定 Python,例如 PyCharm。使用 pip install ironpdf 安裝 IronPDF,開始將 PDF 功能整合到您的專案中。

IronPdf 是否與 Django 和 Flask 等框架相容?

是的,IronPDF 與 Python Web 開發框架(如 Django 和 Flask)整合得很好,為在 Web 應用程式中處理 PDF 提供了多樣化的選擇。

IronPDF 與 Python 的使用有哪些授權選項?

IronPdf 提供一系列授權選項,包括供個人使用的免費開發人員授權,以及提供額外功能和優點的各種商業授權。

如何安裝 IronPDF for Python?

使用 pip 套件管理程式安裝 IronPDF,方法是在您的終端機或指令提示執行指令 pip install ironpdf

建議在何種開發環境下使用 IronPDF 與 Python?

PyCharm 是使用 IronPDF 開發 Python 應用程式的推薦整合開發環境 (IDE),這是因為 PyCharm 功能全面且支援 Python。

適用於 Python 的 IronPDF 函式庫有哪些主要功能?

IronPDF for Python 提供的功能包括從 HTML 建立 PDF、將影像轉換為 PDF、表單處理、文字與影像擷取,以及 PDF 合併。

處理 PDF 檔案的 IronPDF 函式庫安全性如何?

IronPDF 的設計具有強大的安全功能,可確保 PDF 檔案的安全處理。它支援加密和密碼保護,以保障敏感資訊的安全。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。