跳過到頁腳內容
使用 IRONPDF FOR PYTHON

如何在 Python 中將 PDF 轉換為文本(教程)

本文將示範如何使用 IronPDF for Python(最強大的 PDF 庫之一)來提取 PDF 文件中的任何文字。

2.0 如何使用 Python 從 PDF 擷取文字?

1.從 Python 下載頁面安裝最新版本的 Python

  1. 開啟任一 Python IDE 工具
  2. 安裝 .NET Core 執行階段
  3. 安裝 IronPDF for Python 函式庫,或從 PyPI 下載頁面下載。
  4. 從PDF文件中提取文本

2.1 什麼是 Python 版 IronPDF?

由於 Python 是一種比其他語言更具動態性的語言,因此將 IronPDF 庫整合到 Python 中非常簡單,它使開發人員能夠快速輕鬆地創建圖形使用者介面。 它預先安裝了大量工具,包括 PyQT、wxWidgets、kivy 以及許多其他軟體包和函式庫,所有這些都可以用來快速、安全地創建完整的 GUI。

IronPDF for Python 是一個極為有效率的函式庫,特別適用於 Web 開發。 造成這種情況的部分原因在於 Python Web 開發範式眾多,例如 Django、Flask 和 Pyramid。 這些框架已被許多網站和線上服務使用,包括 Reddit、Mozilla 和 Spotify。

2.2 IronPDF 的特點

  • PDF 檔案可以從多種來源創建,包括 HTML、HTML5、ASP 和 PHP 網站。 除了 HTML 檔案外,還可以將圖片檔案轉換為 PDF
  • IronPDF 讓您可以建立互動式 PDF 文件、填寫和傳送互動式表單分割合併PDF 文件、從 PDF 文件中提取文字和圖像、在 PDF 文件中搜尋特定單字、將 PDF 頁面柵格化為圖像、將 PDF 轉換為 HTML 以及列印 PDF 文件。 IronPDF 可以開啟 PDF 檔案並從 URL 列印。 此外,它還允許使用者代理透過 HTML 登入表單、代理、cookie、HTTP 標頭、自訂網頁登入憑證、表單變數和使用者代理程式進行登入。
  • 可以使用 IronPDF 從文件中擷取影像。 使用 IronPDF,可以非常輕鬆地在文件中添加頁首和頁尾、文字和圖片、書籤浮水印等等。
  • 使用 IronPDF,可以在新文件或現有文件中合併和分離頁面。
  • 無需使用 Acrobat 檢視器,即可將文件轉換為 PDF 物件。
  • 可以使用 CSS 檔案來建立 PDF 文件。
  • 可以使用媒體類型 CSS 檔案建立文件。

2.3 導入 IronPDF 庫

為了導入 IronPDF,請在將要使用 IronPDF 的來源檔案開頭新增以下導入語句:

from ironpdf import *
from ironpdf import *
PYTHON

2.4 設定許可證密鑰(如需要)

雖然 IronPDF for Python 可以免費使用,但它會為免費用戶的 PDF 檔案添加平鋪背景浮水印。 若要使用 IronPDF 建立無浮水印 PDF,您必須向庫提供合法的許可證金鑰。 以下程式碼片段展示如何使用許可證金鑰設定庫:

# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

在建立 PDF 檔案或變更其內容之前,請確保已配置許可證金鑰。 LicenseKey方法應該在任何其他程式碼行之前呼叫。 若要取得免費試用許可證金鑰,請造訪許可證頁面

2.5 設定日誌文件

一個名為"Default"的文字檔案可以儲存 Python 腳本目錄中 Custom.log 產生的日誌訊息。 以下程式碼片段可用於設定LogFilePath屬性,並自訂日誌檔案名稱和位置:

# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用 IronPDF 擷取 PDF 文本

IronPDF for Python 庫可以將 PDF 頁面轉換為 PDF 對象,並支援從 PDF 文件(包括掃描的 PDF 文件)中提取文字。 以下範例展示如何使用 IronPDF 讀取現有 PDF 檔案。

第一種方法是提取 PDF 中所有可用的文字; 下面提供了一個程式碼範例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
PYTHON

如上面的程式碼所示, FromFile方法是一個 PDF 閱讀器對象,它會載入現有的 PDF 文件並將其轉換為 PDF 文件對象。 此物件可用於讀取 PDF 頁面上的文字和圖像。 該物件提供了一個名為ExtractAllText的方法,該方法從整個 PDF 文件中提取所有文本,並將文本保存在一個可以處理的字串中。 然後使用print功能顯示文字。

如何在 Python 中將 PDF 轉換為文字(教程),圖 1:顯示文本 顯示文字

下面提供了第二種方法的程式碼範例,該方法可以逐頁從PDF文件中提取文字。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
PYTHON

FromFile方法用於從現有文件中載入 PDF 文件並將其轉換為 PDF 文件對象,如上面的程式碼所示。 PDF頁面物件上的ExtractTextFromPage方法可以從PDF檔案的某一頁中提取所有文字。必須提供頁碼作為參數才能從特定頁面提取文字。 然後,在提取文字之後,可以使用page_text來保存可以處理的資訊。

查看更多從 PDF 檔案中提取文字的範例

4.0 結論

相比之下,IronPDF 庫提供了強大的安全措施來降低潛在風險。 它不針對任何特定瀏覽器,可與所有常用瀏覽器相容。 IronPDF 讓程式設計師只需幾行程式碼即可輕鬆產生和讀取 PDF 文件。 IronPDF 庫提供一系列許可選項,包括免費的開發者許可證和可供購買的額外開發許可證,以滿足不同開發者的需求。

IronPDF 提供永久許可證、30 天退款保證、一年軟體支援和升級選項。 首次購買後無需支付其他費用。 這些許可證可用於開發、測試和生產環境。 了解更多產品授權資訊

下載軟體產品。

常見問題解答

如何在 Python 中將 PDF 轉換為文字?

您可以使用 IronPDF 的 PdfDocument.FromFile 方法載入 PDF,然後運用 ExtractAllTextExtractTextFromPage 方法提取所需的文字,在 Python 中將 PDF 轉換為文字。

在 Python 中使用 PDF 函式庫需要哪些設定?

要使用 IronPDF,您需要安裝 Python 和 IDE,以及 .NET Core runtime。您可以透過 PyPI 下載頁面安裝 IronPdf。

我可以使用 Python 擷取 PDF 中特定頁面的文字嗎?

是的,使用 IronPdf,您可以使用 ExtractTextFromPage 方法,通過提供頁碼作為參數,從特定頁面中提取文本。

在 Python 中使用 PDF 函式庫是否有免費的選擇?

IronPDF for Python 提供免費版本,可在 PDF 上加入水印。若要移除水印並解鎖完整功能,您需要授權金鑰。

如何將 PDF 函式庫與 Django 或 Flask 等網頁框架整合?

IronPdf 可與 Django 和 Flask 等 Web 框架無縫整合,讓您在 Web 應用程式專案中產生並處理 PDF。

我應該在 Python PDF 函式庫中尋找哪些功能?

像 IronPDF 這樣全面的 PDF 函式庫應該支援從 HTML 和圖片建立 PDF、抽取文字、填寫表單、合併 PDF 以及新增書籤和水印。

如何在 Python 中為 PDF 函式庫設定授權金鑰?

對於 IronPdf,在執行任何其他程式碼之前,請使用 License.LicenseKey 方法設定授權金鑰,以註冊授權並移除水印。

Python PDF 函式庫是否支援從網頁建立 PDF?

IronPDF 可以從 HTML、HTML5 以及使用 ASP 或 PHP 建立的網頁中建立 PDF,使其成為網頁型 PDF 生成的多功能工具。

如何在 Python 的 PDF 函式庫中啟用除錯功能?

透過設定 Logger.EnableDebugging 為 true 並使用 Logger.LogFilePath 定義日誌檔案路徑,啟用 IronPDF 的除錯功能。

Python PDF 函式庫有哪些安全功能?

IronPDF 可確保安全性和跨瀏覽器相容性,為尋求在 Python 中安全操作 PDF 的開發人員提供可靠的解決方案。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。