使用IRONPDF FOR PYTHON

如何在 Python 中從 PDF 提取文本

發佈 2023年7月4日
分享:

PDF (可攜式文件格式)

PDF 是一種廣泛使用的文件格式,用於在不同平臺和設備之間展示和交換文件。這些文件保留了文件的佈局、格式、字體和圖像,使其在共享文件時能夠確保其完整性和一致性。PDF 通常用於各種用途,包括商業報告、電子書、發票、法律文件、使用手冊等等。

然而,由於格式的複雜性,以程式方式處理 PDF 文件的內容可能具有挑戰性。目前有各種受歡迎的 python 庫可供使用,其中之一是功能強大的 Python 庫 IronPDF

在本文中,我們將學習如何使用 IronPDF 在 Python 中提取 PDF 文件中的所有文本,並為你提供完成此任務所需的知識和 python 代碼片段。

IronPDF - Python Library

IronPDF for Python IronPDF是一個功能強大的Python PDF庫,允許開發人員從PDF文件中提取文本。使用IronPDF,您可以自動化PDF文件中文字內容的數據提取部分,使得處理數據和分析PDF文件中的信息變得更加容易。

IronPDF為Python程式設計師提供了操作、從PDF文件中提取數據和與PDF文件交互的能力,從而使各種PDF相關的任務更易於自動化。無論您需要生成PDF、修改現有PDF、從內容中提取數據以及圖像,還是執行其他PDF操作,IronPDF都能通過其直觀的API和強大的功能簡化這一過程。

主要特點

IronPDF Python 庫的一些特點包括:

  • 從零開始創建 PDF 文件
  • 編輯現有的 PDF 文件
  • 從 PDF 文件中提取文本和圖像
  • 將 PDF 文件轉換成其他格式
  • 使用密碼和權限保護 PDF 文件

先決條件

在使用 IronPDF 進行文字抽取之前,請確保您已具備以下先決條件:

  1. Python 安裝:確保您的系統已安裝 Python。IronPDF 與 Python 3.x 版本相容,因此請確保您已安裝相容的 Python 版本。

  2. IronPDF 庫:使用 Python 的套件管理工具 pip 安裝 IronPDF 庫。打開命令行界面並執行以下命令:
    :ProductInstall

注意: 必須將 Python 添加到 PATH 環境變數中,才能使用 pip 命令。

  1. 集成開發環境 (集成開發環境)雖然不是絕對必要,但使用 IDE 可以極大地提升你的開發體驗。它提供了如代碼完成、調試和更精簡的工作流程等功能。一個受歡迎的 Python 開發 IDE 是 PyCharm。你可以從 JetBrains 網站下載並安裝 PyCharm。 https://www.jetbrains.com/pycharm/4. 文字編輯器:或者,如果您喜歡使用輕量級的文字編輯器,您可以選擇任何您喜歡的文字編輯器,例如 Visual Studio Code、Sublime Text 或 Atom 這些編輯器提供語法突顯和其他對 Python 開發有用的功能。您也可以使用 python 自帶的 IDLE 應用程式。

使用 PyCharm 創建 Python 專案

安裝 PyCharm IDE 後,按照以下步驟創建一個 PyCharm Python 專案:

  1. 啟動 PyCharm:從系統的應用程式啟動器或桌面快捷方式開啟 PyCharm。

  2. 創建新專案:點擊「Create New Project」或打開現有的 Python 專案。

    如何在 Python 中將 PDF 轉換為文本(教程):圖1

  3. 配置專案設定: 為您的專案提供一個名稱並選擇建立專案目錄的位置。選擇您的專案使用的Python解釋器。然後點擊「Create」。

    如何在 Python 中將 PDF 轉換為文本(教程):圖 2

  4. 創建源文件: PyCharm 將創建項目結構,包括一個主 Python 文件和一個附加源文件的目錄。開始編寫代碼,然後點擊運行按鈕或按 Shift+F10 執行腳本。

使用 IronPDF 在 Python 中從 PDF 擷取文字

現在讓我們深入了解使用 IronPDF 在 Python 程式語言中從 PDF 文件中擷取純文字的步驟。

匯入所需的函式庫

首先,在您的 Python 腳本中匯入必要的函式庫。在這種情況下,我們需要匯入 IronPDF 函式庫,它提供了處理 PDF 檔案的功能。

import ironpdf
PYTHON

設定許可金鑰

為了使用 IronPDF 從 PDF 文件中提取完整文本,我們需要有 IronPDF 的許可證。使用以下命令應用許可金鑰或試用金鑰:

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

注意:沒有授權密鑰的情況下,IronPDF 從 PDF 擴展檔案中提取數據僅限於少數字符。取得授權密鑰,請 購買 IronPDF 或註冊一個 免費試用.

加載 PDF 文件

接下來,使用 PdfDocument.FromFile 加載 PDF 文件()將 PDF 檔案的路徑作為參數提供給來自 IronPDF 的方法。這將把 PDF 檔案載入到 PdfDocument 對象中。

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")
PYTHON

進入檔案

要從輸入的 PDF 檔案中提取文字並將其顯示在螢幕上,可以使用以下文件:

如何在 Python 中將 PDF 轉換為文本(教程):圖 3

從 PDF 文件中提取文本

一旦 PDF 文件加載完成,您可以使用 ExtractText 方法提取文本內容。此方法將提取的文本作為字符串返回。

text = pdf.ExtractText()
PYTHON

處理和利用提取的文字

現在您已經從 PDF 中提取了文字,您可以根據需求來處理和利用這些文字。您可以執行一些任務,例如解析文字、分析文字、將其存儲在資料庫中,或用於進一步的資料處理。

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text
PYTHON

輸出

如何在 Python 中將 PDF 轉換為文字(教程):圖 4

從 PDF 文件中的特定頁面提取文本

IronPDF 也提供了一種方便的方法來從 PDF 文件中的特定頁面提取文本。在本節中,我們將探討如何使用 IronPDF 提供的 ExtractTextFromPage 方法從特定頁面提取文本。

以下代碼演示如何從特定頁面提取文本:

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)
PYTHON

在上述範例代碼中,pdf 代表載入 PDF 文件後獲得的 PdfDocument 對象。`ExtractTextFromPage()該方法用於從PDF的特定頁面提取文本,通過作為參數傳遞的頁面索引來指示。在這種情況下,我們從第二頁(或頁碼2)提取文本,這對應於頁面索引1。

如何在 Python 中將 PDF 轉換為文字(教學):圖 5

結論

在本文中,我們探討了如何使用 IronPDF 在 Python 中從 PDF 文件中提取文本。我們介紹了必要的步驟,包括導入所需的庫或多個庫、加載 PDF 文件、提取文本內容以及處理提取的文本。

憑藉 IronPDF 強大的文本提取功能,您可以自動化從 PDF 中提取文本並進一步處理,使您能夠輕鬆地處理和分析 PDF 文件中的文本信息。其直觀的 API 和廣泛的功能使其成為 Python 開發中處理 PDF 相關任務的理想選擇。

IronPDF 可免費用於開發目的,但用於商業用途需要授權。要在生產模式中進行測試,請獲取一個 免費試用. 下載並安裝最新版本的 IronPDF for Python 試試看。

< 上一頁
如何在 Python 中從 URL 下載 PDF
下一個 >
如何在 Python 中查看 PDF 文件

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >