使用IRONPDF FOR PYTHON

如何在 Python 中從 PDF 提取特定文本

坎納帕特·烏頓潘

2023年8月2日

已更新 2024年9月21日

本文將演示如何使用 IronPDF for Python 庫從 PDF 文件中提取文本元素。

IronPDF

Python 是一種程式語言，讓開發者可以簡單快速地建立圖形使用者介面。與其他語言相比，Python 對程式設計師來說更加動態。因此，將 IronPDF 函式庫添加到 Python 是一個簡單的過程。包括 PyQt、wxWidgets、Kivy 以及許多其他套件和 Python 函式庫在內的大量預安裝工具，可以用於快速且安全地構建一個完整的圖形用戶界面。 IronPDF 內建 Python，並且允許整合其他框架的功能，如 .NET Core。

IronPDF 使網站開發更簡單。這主要是因為廣泛採用如 Django、Flask 和 Pyramid 的 Python 網路開發範式。 Reddit、Mozilla 和 Spotify 只是使用這些框架的一小部分網站和線上服務。

IronPDF 功能

使用 IronPDF，可以將 PDF 文件從各種來源創建，包括 HTML、HTML5、ASPX 和 Razor/MVC 視圖。提供功能來轉換HTML頁面和將圖像轉換為 PDF 文件.
創建互動式 PDF、填寫和提交互動表單, 分割和结合PDF 文件，Extract text and images在 PDF 文件中搜索文本，將 PDF 光柵化為圖像更改字體大小、使用ChatGPT進行自然語言處理以及轉換PDF頁面屬性只是IronPDF工具包可以協助的一些活動。
IronPDF 提供 HTML 登入表單驗證，支援用戶代理、代理伺服器、Cookie、HTTP 標頭和表單變數。
IronPDF 使用用戶名和密碼為用戶提供訪問權限至受保護的文件.
只需幾行代碼，IronPDF 就可以從多種來源列印 PDF 文件，包括字串、流或 URL。

設置 Python

環境配置

確保您的電腦上已安裝 Python。要下載並安裝與您的操作系統相容的最新版本的 Python，請前往官方 Python 網站. 在安裝 Python 後，建立虛擬環境以分離您專案的需求。使用 venv 模組創建和管理虛擬環境，為您的轉換專案提供一個整潔、獨立的工作空間。

在 PyCharm 中的新倡議

在此示範中，建議使用 PyCharm 作為開發 Python 程式碼的 IDE。

在啟動 PyCharm IDE 後，選擇「New Project」。

如何在 Python 中從 PDF 中提取特定文本，圖 1：PyCharm

PyCharm

當您選擇「新專案」時，將會開啟一個新窗口，允許您設置專案的位置和環境。這可能會在下面的圖像中看到。

如何在 Python 中從 PDF 中提取特定文本，圖 2：新專案

新專案

選擇專案位置和環境路徑後，點擊 Create 按鈕以開始新專案。然後，程序可以在一個新窗口中創建，該窗口將隨之打開。本課使用 Python 3.9。

如何在 Python 中從 PDF 中提取特定文本，圖 3：創建 Python 專案

創建 Python 專案

IronPDF 程式庫需求

Python 函式庫 IronPDF 大多使用 .NET 6.0。因此，為了使用 IronPDF for Python，必須在您的電腦上安裝 .NET 6.0 執行時。 Linux 和 Mac 使用者在使用此 Python 模組之前可能需要安裝 .NET。訪問此頁面從 Microsoft 下載頁面以取得所需的執行環境。

IronPDF 庫設置

要生成、修改和打開「.pdf」擴展名的文件，必須安裝「ironpdf」套件。開啟終端窗口，輸入以下指令以在 PyCharm 中安裝套件：

:PackageInstall

ironpdf 軟體包的安裝顯示在下方的截圖中。

如何從 PDF 中提取特定文本（使用 Python），圖 4：安裝 IronPDF

安裝 IronPDF

從 PDF 文件中提取特定數據

可以利用IronPDF庫從PDF文件中提取文本。 IronPDF 提供多種文字提取方法。第一種方法是將整個頁面的內容作為單個字符串檢索。第二種策略是逐頁檢查內容，從第一頁開始。可以使用IronPDF庫來調查現有的PDF文件。下面的程式碼片段顯示如何使用 IronPDF 檢查即時的 PDF 文件。

從 PDF 中提取信息有兩種選擇：

從 PDF 逐頁提取
將整個 PDF 轉換為文本
以下是本文的示例PDF文件。
輸入 PDF

從 PDF 中逐頁提取內容

以下示例代碼顯示如何使用頁碼從PDF文件中獲取數據。

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

PYTHON

此程式碼片段展示瞭如何使用 FromFile 函數讀取PDF文件並建立PDF物件。此物件可用於存取 PDF 的文字和圖像。通過將頁碼作為參數傳遞給 ExtractTextFromPage 函數，可以從特定頁面檢索文本。此方法將返回包含所選頁面上所有文字的字符串。然後，使用 Python 中的 split 函數將提取出的文本按新行分割。之後，檢查提取文本中的每一行是否包含所需的關鍵字。如果關鍵字匹配，它會在命令提示符中顯示特定行。否則，它將忽略該行並繼續到下一行。文字提取的輸出將如下所示。

將整個 PDF 轉換為文本

以下程式碼範例展示了第一種方法，用以快速簡便地將所有 PDF 內容作為字串獲取。

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

PYTHON

上面的示例代碼演示瞭如何使用 FromFile 函數從現有的文件路徑讀取 PDF 並將其轉換為 PDF 文件對象。因此，我們可以使用這個PDF閱讀器對象來查看PDF中的文字和圖像。對象的 ExtractAllText 函數將用於從 PDF 提取數據為純文本，將其轉換為字串，並使用類似上面的邏輯來查找特定關鍵字，以在終端中顯示結果。結果顯示如下。

如何在 Python 中從 PDF 中提取特定文本，圖 6：輸出

輸出

上面的代碼/輸出顯示，給定的 PDF 文件包含姓名和年齡，但結果僅顯示 PDF 文件中可用的姓名。

結論

IronPDF 庫提供強大的安全機制，以減少威脅並保證數據安全。它不僅限於任何一個瀏覽器，且與所有廣泛使用的瀏覽器兼容。只需幾行代碼，程序員就可以使用IronPDF快速生成和讀取PDF文件。 IronPDF 庫提供多種授權選項，包括免費的開發人員授權和可購買的額外開發授權，以滿足開發人員的多樣化需求。

永久許可證、30天退款保證、一年軟體維護和升級選項包含在內的輕量套件. 這些許可證可用於所有環境。此外，IronPDF 提供免費授權，但附有一些重新分發的限制。 A試用授權允許用戶在沒有浮水印的情況下評估產品。

請查看可用的 IronPDF 授權如需更多有關商用授權的資訊。

坎納帕特·烏頓潘

立即與工程團隊聊天

軟體工程師

在成為軟體工程師之前，Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間，Kannapat 也成為了車輛機器人實驗室的成員，該實驗室隸屬於生物生產工程學系。2022 年，他利用自己的 C# 技能，加入了 Iron Software 的工程團隊，專注於 IronPDF 的開發。Kannapat 珍視這份工作，因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外，Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時，Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。

< 上一頁
如何在 Python 中編輯 PDF 檔案

下一個 >
如何在 Python 中扁平化 PDF 文件