跳過到頁腳內容
使用 IRONPDF FOR PYTHON

如何從 Python 中的 PDF 提取特定文本

本文將演示如何利用 IronPDF for Python 程式庫從 PDF 文件中提取文本元素。

IronPDF

Python 是一種程式設計語言,可以讓開發人員簡單快速地創建圖形用戶界面。 與其他語言相比,Python 對程式開發人員來說更加動態。 因此,將 IronPDF 程式庫添加到 Python 是一個簡單的過程。 許多預安裝的工具,包括 PyQt、wxWidgets、Kivy 和許多額外的包及 Python 程式庫,可以用來快速且安全地構建一個完整的 GUI。 IronPDF 結合了 Python,還允許整合其他框架的功能,比如 .NET Core。

IronPDF 使網站開發變得更簡單。 這主要是因為 Python 網頁開發範式的廣泛採用,例如 Django、Flask 和 Pyramid。 Reddit、Mozilla 和 Spotify 等網站和在線服務就是一些使用這些框架的例子。

IronPDF 特性

  • 使用 IronPDF,可從多個來源創建 PDF 文件,包括 HTML、HTML5、ASPX 和 Razor/MVC 觀點。 It offers the ability to convert HTML pages and images into PDF files.
  • Creating interactive PDFs, completing and submitting interactive forms, splitting and combining PDF files, extracting text and images, searching text within PDF files, rasterizing PDFs to images, changing font sizes, natural language processing using ChatGPT, and converting PDF pages property are just a few of the activities that the IronPDF toolkit can help with.
  • IronPDF 提供 HTML 登錄表單驗證,支持用戶代理、代理、Cookies、HTTP 頭信息和表單變數。
  • IronPDF 使用用戶名和密碼授權用戶訪問受保護的文件
  • 使用少量代碼,IronPDF 可以從多個來源(包括字符串、流或 URL)打印 PDF 文件。

設置 Python

環境配置

確保在您的計算機上已安裝 Python。 要下載並安裝與您的操作系統兼容的最新 Python 版本,請訪問官方 Python 網站。 在安裝 Python 後創建虛擬環境以分隔您的項目的需求。 使用venv模塊創建和管理虛擬環境,為您的轉換項目提供乾淨獨立的工作環境。

在 PyCharm 中創建新項目

在本演示中,推薦使用 PyCharm 作為開發 Python 代碼的 IDE。

啟動 PyCharm IDE 後,選擇“新項目”。

如何從 Python 中的 PDF 提取特定文本,圖 1:PyCharm PyCharm

選擇“新項目”後,將打開一個新窗口,允許您設置項目的位置和環境。 以下圖像可能會顯示這一點。

如何從 Python 中的 PDF 提取特定文本,圖 2:新項目 新項目

選擇項目位置和環境路徑後,單擊創建按鈕以開始新項目。 然後,程序可以在隨之打開的新窗口中創建。 在此課程中使用的是 Python 3.9。

如何從 Python 中的 PDF 提取特定文本,圖 3:創建 Python 項目 創建 Python 項目

IronPDF 庫要求

Python 庫 IronPDF 大量使用 .NET 6.0。因此,必須在您的計算機上安裝 .NET 6.0 運行時以便使用 IronPDF for Python。 在使用此 Python 模塊之前,Linux 和 Mac 用戶可能需要安裝 .NET。 請訪問此Microsoft 下載頁面獲取所需的運行時環境。

IronPDF 庫設置

要生成、修改和打開“.pdf”擴展名的文件,需要安裝“ironpdf”包。 打開終端窗口,輸入以下命令以在 PyCharm 中安裝該包:

pip install ironpdf
pip install ironpdf
SHELL

铁pdf包的安裝如下面的屏幕截圖所示。

如何從 Python 中的 PDF 提取特定文本,圖 4:安裝 IronPDF 安裝 IronPDF

從 PDF 文件中提取特定數據

可以利用 IronPDF 庫從 PDF 文件中提取文本。 IronPDF 提供多種文本提取方法。 第一種方法是將整個頁面的內容檢索為單個字符串。 第二種策略是逐頁瀏覽內容,從第一頁開始。 可以使用 IronPDF 庫研究現有的 PDF 文件。 以下代碼片段展示了如何使用 IronPDF 檢查現場 PDF 文件。

有兩種從 PDF 中提取信息的方法:

  1. 按頁從 PDF 中提取
  2. 將整個 PDF 轉換為文本

以下是本文的示例 PDF 文件。

如何從 Python 中的 PDF 提取特定文本,圖 5:輸入 PDF 輸入 PDF

按頁從 PDF 提取

下方提供的示例代碼展示了如何使用頁碼從 PDF 文件中獲取數據。

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

代碼片段展示了如何使用FromFile函數讀取 PDF 文件並構建 PDF 對象。 此對象可用於訪問 PDF 的文本和圖像。 通過將頁號作為參數傳遞給ExtractTextFromPage函數,可以從特定頁面檢索文本。 此方法將返回一個包含所選頁面上所有單詞的字符串。 然後,使用 Python 中的split函數從提取的文本中拆分出所有新行。 之後,檢查提取的文本中的每一行是否包含所需的關鍵字。 如果關鍵詞匹配,則在命令提示符中顯示特定行。 否則,它將忽略該行並移到下一行。文本提取的輸出將顯示如下。

將整個 PDF 轉換為文本

以下代碼示例演示了第一種快速簡便地將所有 PDF 內容作為字符串獲得的方法。

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

上面的示例代碼演示了如何使用FromFile函數從現有文件路徑讀取 PDF 並將其轉換為 PDF 文件對象。 因此,我們可以使用此 PDF 閱讀器對象查看 PDF 中的文本和圖像。 對象的ExtractAllText函數將用於將數據從 PDF 提取為純文本,將其轉換為字符串,並使用類似上面的邏輯來找到特定關鍵字以在終端中顯示結果。 結果如下所示。

如何從 Python 中的 PDF 提取特定文本,圖 6:輸出 輸出

上述代碼/輸出顯示,給定的 PDF 文檔包含姓名和年齡,但結果僅顯示 PDF 文檔中的姓名。

結論

IronPDF 庫提供強大的安全機制以減少威脅並確保數據安全。 它不受限於任何特定瀏覽器,且與所有廣泛使用的瀏覽器兼容。 開發人員使用少量代碼即可快速生成和閱讀 PDF 文件。 IronPDF 庫提供一系列許可選項,包括免費的開發人員許可證和可供購買的其他開發許可證,以滿足開發人員的不同需求。

Lite 包包括永久許可、30 天退款保證、一年軟件維護和升級選項。 這些許可證可在所有環境中使用。 此外,IronPDF 提供了一些具有重新分發限制的免費許可。 一個試用許可證允許用戶在沒有水印的情況下評估產品。

查看可用的 IronPDF 許可證以獲取有關商業許可的更多信息。

常見問題解答

如何使用 Python 從 PDF 中提取特定文本?

您可以使用 IronPDF 的 Python 庫從 PDF 中提取文本。它提供了功能,可以使用 ExtractTextFromPage 按頁提取文本,或使用 ExtractAllText 從整個文檔中提取文本。

在 Python 項目中設置 IronPDF 的步驟是什麼?

首先,如果尚未安裝,請安裝 .NET 6.0 運行時。然後,在您的開發環境中設置 Python,例如 PyCharm。使用 pip install ironpdf 安裝 IronPDF,以開始將 PDF 功能集成到您的項目中。

IronPDF 與 Django 和 Flask 等框架兼容嗎?

是的,IronPDF 與 Django 和 Flask 等 Python 網絡開發框架集成良好,提供了處理 Web 應用程序中的 PDF 的多功能選擇。

有哪些使用 IronPDF 與 Python 的許可選項?

IronPDF 提供多種許可選項,包括個人使用的免費開發者許可和提供附加功能和利益的各種商業許可。

如何安裝 IronPDF for Python?

使用 pip 包管理器安裝 IronPDF,方法是在終端或命令提示符中運行命令 pip install ironpdf

推薦的開發環境是什麼,適用於使用 IronPDF 與 Python?

PyCharm 是開發 Python 應用程序使用 IronPDF 的推薦集成開發環境(IDE),因為它具有全面的功能和對 Python 的支持。

IronPDF 的 Python 庫有哪些關鍵功能?

IronPDF for Python 提供創建 PDF、從 HTML 轉換圖像為 PDF、表單處理、文本和圖像提取以及 PDF 合併等功能。

IronPDF 庫在處理 PDF 文件時的安全性如何?

IronPDF 設計具有強大的安全功能,確保 PDF 文件的安全處理。它支持加密和密碼保護以保護敏感信息。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。