使用IRONPDF FOR PYTHON

如何在 Python 中從 PDF 提取文本

坎納帕特·烏頓潘

2023年7月4日

已更新 2024年9月21日

本文將示範如何使用IronPDF在Python中從PDF文件中提取所有文本，並為您提供完成此任務所需的知識和Python代碼片段以高效完成此任務。

如何在 Python 中從 PDF 提取文本

下載從 PDF 中提取文本的 Python 模組
使用 從文件 導入PDF文件的方法
從導入的 PDF 中提取文本，使用 提取文本 方法
從特定頁面中提取文本 從頁面提取文本 方法
將提取的文本輸出到控制台或文本文件

IronPDF - Python 函式庫

IronPDF for Python是一個強大的Python PDF資料庫，允許開發者從PDF文件中提取文本。使用 IronPDF，您可以自動化從 PDF 文件中提取文字內容的數據部分，使得處理數據和分析 PDF 文件中包含的信息更加輕鬆。

IronPDF為Python程式設計師提供了使用Python操作、從PDF檔案中提取數據以及與PDF檔案互動的能力，使自動化各種PDF相關任務變得更加容易。無論您需要生成 PDF、修改現有 PDF、從內容中提取數據、提取圖像，或進行其他 PDF 操作，IronPDF 通過其直觀的 API 和強大的功能簡化了此過程。

主要功能

IronPDF for Python 程式庫的一些功能包括：

*創建新的 PDF 檔案從頭開始

*编辑現有的 PDF 文件

*提取文字、元數據和圖片從 PDF 文件中

將 PDF 文件轉換為其他格式
*安全 PDF 文件使用密碼和限制
*拆分和合併PDFs

先決條件

在使用 IronPDF 進行文本擷取之前，請確保具備以下前置條件：

Python 安裝：確保您的系統上已安裝 Python。 IronPDF 與 Python 3.x 版本相容，因此請確保您安裝了相容的 Python。
IronPDF 函式庫：使用 Python 套件管理工具 pip 安裝 IronPDF 函式庫。打開您的命令行介面並執行以下命令：

    :ProductInstall

注意： 必須將 Python 添加到 PATH 環境變數中，才能使用 pip 命令。

整合開發環境(集成開發環境)：雖然並非絕對必要，但使用 IDE 可以大大提升您的開發體驗。它提供代碼完成、調試和更精簡的工作流程等功能。一個受歡迎的 Python 開發 IDE 是 PyCharm。您可以從 JetBrains 網站下載並安裝 PyCharm[https://www.jetbrains.com/pycharm/**](https://www.jetbrains.com/pycharm/).
文字編輯器：或者，如果您偏好使用輕量級的文字編輯器，您可以選擇任何您喜歡的文字編輯器，例如 Visual Studio Code、Sublime Text 或 Atom。這些編輯器提供語法高亮顯示以及其他對 Python 開發有用的功能。您也可以使用 Python 自帶的 IDLE 應用程式。

使用 PyCharm 創建 Python 專案

在安裝 PyCharm IDE 後，請按照以下步驟建立一個 PyCharm Python 專案：

啟動 PyCharm： 從系統的應用程式啟動器或桌面捷徑打開 PyCharm。
建立新專案： 點擊「建立新專案」或開啟現有的 Python 專案。
PyCharm IDE
配置專案設定： 為您的專案提供一個名稱，並選擇建立專案目錄的位置。選擇專案的 Python 直譯器。然後點擊「Create」。
在 Pycharm 中創建一個新的 Python 專案
創建源文件： PyCharm 會創建專案結構，包括一個主 Python 文件和一個用於額外源文件的目錄。開始撰寫程式碼並點擊運行按鈕或按下 Shift+F10 來執行腳本。

使用 IronPDF 在 Python 中從 PDF 提取文本

現在讓我們深入了解使用 IronPDF 在 Python 程式語言中從 PDF 檔案中提取純文字的步驟。

匯入所需的庫文件

首先，在您的 Python 腳本中導入必要的庫。在這種情況下，代碼範例需要導入 IronPDF 庫，該庫提供了處理 PDF 文件的功能。

import ironpdf

import ironpdf

PYTHON

設置授權金鑰

要使用IronPDF從PDF文件中提取全文，我們需要擁有IronPDF的許可。使用以下命令套用許可證或試用金鑰：

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

PYTHON

注意： 沒有授權金鑰的情況下，IronPDF 從 PDF 擴展文件中提取數據的功能僅限於少數字符。獲取授權金鑰的方法是通过購買 IronPDF或註冊一個免費試用.

載入 PDF 文件

接下來，使用 PdfDocument.FromFile 來載入 PDF 文件。()method from IronPDF. 將 PDF 檔案的路徑作為此方法的參數提供。這將把 PDF 文件加載到PdfDocument` 物件中。

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")

PYTHON

輸入檔案

要從輸入的 PDF 文件中提取文本並在螢幕上打印，使用以下文件：

如何在 Python 中將 PDF 轉換為文本（教程），圖 3：輸入檔案

輸入檔案

從 PDF 文件中提取文本

一旦載入 PDF 文件，您可以使用 ExtractText 方法提取文本內容。此方法將提取的文本作為字串返回。

text = pdf.ExtractText()

text = pdf.ExtractText()

PYTHON

處理和使用提取的文本

現在您已經從 PDF 中提取了文字，您可以根據需求進行處理和使用。您可以執行解析文本、分析文本、將其存儲於資料庫或用於進一步數據處理等任務。

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text

PYTHON

輸出

如何在 Python 中將 PDF 轉換為文字（教程），圖 4：從控制台提取的文字

從控制台提取的文本

從 PDF 文件的特定頁面提取文本

IronPDF 還提供了一種方便的方法，從 PDF 文件中的特定頁面提取文本。本節將探討如何使用 IronPDF 提供的 ExtractTextFromPage 方法從特定頁面提取文本。

以下代碼演示了如何從特定頁面提取文本：

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)

PYTHON

在上述範例程式碼中，pdf 代表載入 PDF 文件後獲得的 PdfDocument 物件。從頁面中提取文本()` 方法用於從讀取 PDF 時的特定頁面提取文本，通過作為參數傳遞的頁面索引來指示。在這種情況下，文字是從第二頁或頁面號碼2中提取的, 這對應於頁面索引1。

如何在 Python 中將 PDF 轉換為文本（教程），圖 5：從第 2 頁提取文本

從第 2 頁提取文本

結論

本文探討如何使用IronPDF在Python中從PDF文件中提取文本。它涵蓋了必要的步驟，包括匯入所需的函式庫或函式庫群，載入 PDF 文件，提取文本內容，以及處理提取出的文本。

憑藉IronPDF強大的文本提取功能，您可以自動提取PDF中的文本並進一步處理，從而輕鬆地處理和分析PDF文檔中的文本信息。其直觀的 API 和廣泛的功能使其成為 Python 開發中各種 PDF 相關任務的理想選擇。

IronPDF 可供開發用途免費使用，但需要授權後才能用於商業用途。要在生產模式中用於測試，請獲取一個免費試用. 下載並安裝最新版本的IronPDF for Python試試看。

坎納帕特·烏頓潘

立即與工程團隊聊天

軟體工程師

在成為軟體工程師之前，Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間，Kannapat 也成為了車輛機器人實驗室的成員，該實驗室隸屬於生物生產工程學系。2022 年，他利用自己的 C# 技能，加入了 Iron Software 的工程團隊，專注於 IronPDF 的開發。Kannapat 珍視這份工作，因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外，Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時，Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。

< 上一頁
如何在 Python 中從 URL 下載 PDF

下一個 >
如何在 Python 中查看 PDF 文件