跳過到頁腳內容
使用 IRONPDF FOR PYTHON

如何在 Python 中將 PDF 轉換為文本(教程)

本文將演示如何使用IronPDF for Python這個功能強大的PDF庫之一,提取PDF文檔中可用的文字。

class="hsg-featured-snippet">

如何在Python中將PDF轉換為文字

  1. 安裝一個Python庫以將PDF轉換為文字
  2. 加載一個已有的PDF文檔或渲染一個新的PDF文檔
  3. 使用ExtractAllText方法從打開的文件中讀取文本
  4. 使用該方法的另一個重載從特定頁面讀取文本。
  5. 將提取的文字打印到控制台或保存到文本文件中

2.0 如何使用Python從PDF中提取文字?

  1. 從Python下載頁面安裝最新版本的Python
  2. 打開任何Python的IDE工具
  3. 安裝.NET Core運行時
  4. 安裝IronPDF for Python庫或從PyPI下載頁面下載
  5. 從PDF中提取文字

2.1 什麼是IronPDF for Python?

在Python中集成IronPDF庫相當簡單,因為它比其他語言更為動態,開發人員能夠快速輕鬆地創建圖形用戶界面。 它擁有眾多預安裝的工具,包括PyQT、wxWidgets、kivy和大量額外的包和庫,它們都可以用於快速和安全地創建一個完整的GUI。

IronPDF for Python是一個極其高效的庫,特別適用於網頁開發。 這部分歸因於Python中存在如此多的網頁開發範式,如Django、Flask和Pyramid。 這些框架已被包括Reddit、Mozilla和Spotify在內的眾多網站和在線服務使用。

2.2 IronPDF的特點

  • 可以從多個來源如HTML、HTML5、ASP和PHP網站創建一個PDF文件。 除了HTML文件,還可以將圖像文件轉換為PDF
  • IronPDF allows you to build interactive PDF documents, fill out and send interactive forms, split and combine PDF files, extract text and images from PDF files, search for certain words within a PDF file, rasterize PDF pages to images, convert PDF to HTML, and print PDF files.
  • IronPDF可以打開PDF文件並從URL進行打印。 此外,它還允許用戶代理在HTML登錄表單、代理、Cookie、HTTP標頭、用戶自定義網絡登錄憑據、表單變量和用戶代理後登錄。
  • 可以使用IronPDF從文檔中提取圖像。
  • With IronPDF, it is very easy to add headers and footers, text and pictures, bookmarks and watermarks, and more to documents.
  • 可以使用IronPDF使用新的或現有的文檔合併和分離頁面。
  • 無需使用Acrobat查看器就能將文件轉換為PDF對象。
  • 可以使用CSS文件創建PDF文檔。
  • 可以使用媒體類型CSS文件創建文檔。

2.3 引入 IronPDF 庫

在將使用IronPDF的源文件開頭包含以下導入語句以引入IronPDF:

from ironpdf import *
from ironpdf import *
PYTHON

2.4 設置許可密鑰(如需)

雖然IronPDF for Python是免費使用的,但它會在免費用戶的PDF文件上有一個平鋪樣式的水印背景。 您必須給該庫提供合法的許可密鑰才能使用IronPDF創建無水印的PDF。 以下代碼片段展示了如何設置庫與許可密鑰:

# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

在創建PDF文件或對其內容進行更改之前,請確保設置許可密鑰。 LicenseKey方法應在任何其他代碼行之前調用。 To get a free trial license key, visit the licensing page.

2.5 設置日志文件

一個名為“Default”的文本文件可以存儲由Custom.log產生的日志消息在Python腳本的目錄中。 下面的代碼片段可以用於設置LogFilePath屬性並自定義日志文件名和位置:

# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用 IronPDF 提取 PDF 文字

IronPDF for Python庫可以將PDF頁面轉換為PDF對象,並從PDF文件中提取文字,包括掃描的PDF文件。 下面是如何使用IronPDF讀取現有PDF的示例。

第一種方法涉及提取PDF中所有可用的文本; 下面提供了代碼示例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
PYTHON

如上面的代碼所示,FromFile方法是一個PDF閱讀器對象,它加載現有的PDF文件並將其轉換為PDF文檔對象。 此對象可用於讀取PDF頁面上可用的文本和圖像。 該對象提供了一個名為ExtractAllText的方法,從整個PDF文件中提取每一段文字,並將文字存入可處理的字符串中。 然後使用print函數顯示文本。

如何在Python中將PDF轉換為文字(教程),圖1:顯示文本 顯示文本

第二種方法的代碼示例可用於逐頁從PDF文件中提取文本。示例如下。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
PYTHON

FromFile方法用於從現有文件加載PDF文件並將其轉換為PDF文件對象,如上面的代碼所示。 PDF頁面對象上的一個名為ExtractTextFromPage的方法可從PDF文件中的頁面中提取所有文本。必須提供頁碼以從該特定頁面提取文本。 然後,提取文本後可以使用page_text來保存可處理的信息。

查看更多從PDF提取文本的示例

4.0 結論

相較於其他方式,IronPDF庫提供了強大的安全措施來降低潛在風險。 它並未針對任何特定瀏覽器且兼容所有常用瀏覽器。 IronPDF允許程序員只需幾行代碼就能輕鬆生成和閱讀PDF文件。 IronPDF庫提供了一系列許可選擇,包括免費開發人員許可和可供購買的額外開發許可,以滿足不同開發者的需求。

IronPDF包括永久許可、30天退款保證、一年的軟件支持和升級選項。 首次購買後無需支付額外費用。 這些許可可用於開發、預發環境和生產環境。 了解更多產品許可信息

下載軟件產品。

常見問題解答

如何在Python中將PDF轉換為文本?

您可以使用IronPDF的PdfDocument.FromFile方法加載您的PDF,然後使用ExtractAllTextExtractTextFromPage方法提取所需的文本。

使用Python的PDF庫需要哪些設置?

要使用IronPDF,您需要安裝Python和IDE,並安裝.NET Core運行時。IronPDF可以通過PyPI下載頁安裝。

我可以使用Python從PDF的特定頁面提取文本嗎?

可以,使用IronPDF,您可以使用ExtractTextFromPage方法,通過提供頁碼作為參數從指定頁面提取文本。

在Python中使用PDF庫有免費選項嗎?

IronPDF for Python提供了添加水印到PDF的免費版本。若要刪除水印並解鎖完整功能,需要許可密鑰。

如何將PDF庫與Django或Flask等Web框架集成?

IronPDF可以無縫集成到Django和Flask等Web框架中,允許您在Web應用程序項目中生成和操作PDF。

Python PDF庫應具備哪些功能?

像IronPDF這樣全面的PDF庫應支持從HTML和圖像創建PDF,提取文本,填寫表單,合併PDF及添加書籤和水印。

如何在Python中設置PDF庫的許可證密鑰?

對於IronPDF,使用License.LicenseKey方法設置許可證密鑰,在執行任何其他代碼之前註冊您的許可證並移除水印。

Python PDF庫支持從網頁創建PDF嗎?

IronPDF可以從HTML、HTML5和由ASP或PHP構建的網頁創建PDF,使其成為Web基於PDF生成的多功能工具。

如何啟用Python PDF庫中的調試?

通過將Logger.EnableDebugging設置為true並使用Logger.LogFilePath定義日志文件路徑來啟用IronPDF中的調試。

Python PDF庫的安全功能有哪些?

IronPDF保證安全性和跨瀏覽器兼容性,為開發人員提供一種可靠的Python中安全PDF操作解決方案。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。