使用IRONPDF FOR PYTHON

如何在 Python 中從 PDF 提取文本

已更新 2024年9月21日
分享:

本文將示範如何使用IronPDF在Python中從PDF文件中提取所有文本,並為您提供完成此任務所需的知識和Python代碼片段以高效完成此任務。

IronPDF - Python 函式庫

IronPDF for Python是一個強大的Python PDF資料庫,允許開發者從PDF文件中提取文本。 使用 IronPDF,您可以自動化從 PDF 文件中提取文字內容的數據部分,使得處理數據和分析 PDF 文件中包含的信息更加輕鬆。

IronPDF為Python程式設計師提供了使用Python操作、從PDF檔案中提取數據以及與PDF檔案互動的能力,使自動化各種PDF相關任務變得更加容易。 無論您需要生成 PDF、修改現有 PDF、從內容中提取數據、提取圖像,或進行其他 PDF 操作,IronPDF 通過其直觀的 API 和強大的功能簡化了此過程。

主要功能

IronPDF for Python 程式庫的一些功能包括:

*創建新的 PDF 檔案從頭開始

*编辑現有的 PDF 文件

*提取文字、元數據和圖片從 PDF 文件中

先決條件

在使用 IronPDF 進行文本擷取之前,請確保具備以下前置條件:

  1. Python 安裝:確保您的系統上已安裝 Python。 IronPDF 與 Python 3.x 版本相容,因此請確保您安裝了相容的 Python。

  2. IronPDF 函式庫:使用 Python 套件管理工具 pip 安裝 IronPDF 函式庫。 打開您的命令行介面並執行以下命令:
    :ProductInstall

注意: 必須將 Python 添加到 PATH 環境變數中,才能使用 pip 命令。

  1. 整合開發環境(集成開發環境):雖然並非絕對必要,但使用 IDE 可以大大提升您的開發體驗。 它提供代碼完成、調試和更精簡的工作流程等功能。 一個受歡迎的 Python 開發 IDE 是 PyCharm。 您可以從 JetBrains 網站下載並安裝 PyCharm[https://www.jetbrains.com/pycharm/**](https://www.jetbrains.com/pycharm/).

  2. 文字編輯器:或者,如果您偏好使用輕量級的文字編輯器,您可以選擇任何您喜歡的文字編輯器,例如 Visual Studio Code、Sublime Text 或 Atom。 這些編輯器提供語法高亮顯示以及其他對 Python 開發有用的功能。 您也可以使用 Python 自帶的 IDLE 應用程式。

使用 PyCharm 創建 Python 專案

在安裝 PyCharm IDE 後,請按照以下步驟建立一個 PyCharm Python 專案:

  1. 啟動 PyCharm: 從系統的應用程式啟動器或桌面捷徑打開 PyCharm。

  2. 建立新專案: 點擊「建立新專案」或開啟現有的 Python 專案。

    如何在 Python 中將 PDF 轉換為文字 (教程),圖 1:PyCharm IDE

    PyCharm IDE

  3. 配置專案設定: 為您的專案提供一個名稱,並選擇建立專案目錄的位置。 選擇專案的 Python 直譯器。 然後點擊「Create」。

    如何在 Python 中將 PDF 轉換為文本(教程),圖 2:在 Pycharm 中創建一個新的 Python 專案

    在 Pycharm 中創建一個新的 Python 專案

  4. 創建源文件: PyCharm 會創建專案結構,包括一個主 Python 文件和一個用於額外源文件的目錄。 開始撰寫程式碼並點擊運行按鈕或按下 Shift+F10 來執行腳本。

使用 IronPDF 在 Python 中從 PDF 提取文本

現在讓我們深入了解使用 IronPDF 在 Python 程式語言中從 PDF 檔案中提取純文字的步驟。

匯入所需的庫文件

首先,在您的 Python 腳本中導入必要的庫。 在這種情況下,代碼範例需要導入 IronPDF 庫,該庫提供了處理 PDF 文件的功能。

import ironpdf
PYTHON

設置授權金鑰

要使用IronPDF從PDF文件中提取全文,我們需要擁有IronPDF的許可。 使用以下命令套用許可證或試用金鑰:

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

注意: 沒有授權金鑰的情況下,IronPDF 從 PDF 擴展文件中提取數據的功能僅限於少數字符。獲取授權金鑰的方法是通过購買 IronPDF或註冊一個免費試用.

載入 PDF 文件

接下來,使用 PdfDocument.FromFile 來載入 PDF 文件。()method from IronPDF. 將 PDF 檔案的路徑作為此方法的參數提供。 這將把 PDF 文件加載到PdfDocument` 物件中。

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")
PYTHON

輸入檔案

要從輸入的 PDF 文件中提取文本並在螢幕上打印,使用以下文件:

如何在 Python 中將 PDF 轉換為文本(教程),圖 3:輸入檔案

輸入檔案

從 PDF 文件中提取文本

一旦載入 PDF 文件,您可以使用 ExtractText 方法提取文本內容。 此方法將提取的文本作為字串返回。

text = pdf.ExtractText()
PYTHON

處理和使用提取的文本

現在您已經從 PDF 中提取了文字,您可以根據需求進行處理和使用。 您可以執行解析文本、分析文本、將其存儲於資料庫或用於進一步數據處理等任務。

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text
PYTHON

輸出

如何在 Python 中將 PDF 轉換為文字(教程),圖 4:從控制台提取的文字

從控制台提取的文本

從 PDF 文件的特定頁面提取文本

IronPDF 還提供了一種方便的方法,從 PDF 文件中的特定頁面提取文本。本節將探討如何使用 IronPDF 提供的 ExtractTextFromPage 方法從特定頁面提取文本。

以下代碼演示了如何從特定頁面提取文本:

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)
PYTHON

在上述範例程式碼中,pdf 代表載入 PDF 文件後獲得的 PdfDocument 物件。 從頁面中提取文本()` 方法用於從讀取 PDF 時的特定頁面提取文本,通過作為參數傳遞的頁面索引來指示。 在這種情況下,文字是從第二頁或頁面號碼2中提取的, 這對應於頁面索引1。

如何在 Python 中將 PDF 轉換為文本(教程),圖 5:從第 2 頁提取文本

從第 2 頁提取文本

結論

本文探討如何使用IronPDF在Python中從PDF文件中提取文本。 它涵蓋了必要的步驟,包括匯入所需的函式庫或函式庫群,載入 PDF 文件,提取文本內容,以及處理提取出的文本。

憑藉IronPDF強大的文本提取功能,您可以自動提取PDF中的文本並進一步處理,從而輕鬆地處理和分析PDF文檔中的文本信息。 其直觀的 API 和廣泛的功能使其成為 Python 開發中各種 PDF 相關任務的理想選擇。

IronPDF 可供開發用途免費使用,但需要授權後才能用於商業用途。 要在生產模式中用於測試,請獲取一個免費試用. 下載並安裝最新版本的IronPDF for Python試試看。

< 上一頁
如何在 Python 中從 URL 下載 PDF
下一個 >
如何在 Python 中查看 PDF 文件

準備開始了嗎? 版本: 2024.11.1 剛剛發布

免費 pip 安裝 查看許可證 >