跳過到頁腳內容
使用 IRONPDF FOR PYTHON

如何在 Python 中將 PDF 轉換為文本(教程)

本文將演示如何使用IronPDF for Python,這是最強大的PDF程式庫之一,從PDF文件中提取任何可用的文本。

2.0 如何使用Python從PDF中提取文本?

  1. 從Python下載頁面安裝最新版本的Python
  2. 打開任何Python的IDE工具
  3. 安裝.NET Core運行時
  4. 安裝IronPDF for Python程式庫或從PyPI下載頁面下載
  5. 從PDF中提取文本

2.1 什麼是IronPDF for Python?

很容易將IronPDF程式庫整合到Python中,因為相較於其他語言,它是一個更具動態性的語言,使得開發人員可以快速輕鬆地創建圖形用戶介面。 它擁有大量預裝的工具,包括PyQT、wxWidgets、kivy和許多額外的套件和程式庫,所有這些都可用於快速且安全地創建一個完整的GUI。

IronPDF for Python是一個非常高效的程式庫,特別適用於Web開發。 這部分歸因於Python網頁開發範式,如Django、Flask和Pyramid的多樣可用性。 這些框架已被多個網站和在線服務使用,包括Reddit、Mozilla和Spotify。

2.2 IronPDF的特點

  • 可以從多種類型的來源創建PDF文件,包括HTML、HTML5、ASP和PHP網站。 除了HTML文件外,也可以將影像文件轉換為PDF
  • IronPDF允許您構建交互式PDF文件,填寫和送出互動表單拆分合併PDF文件,從PDF文件中提取文本和圖片,搜索PDF文件中的特定單詞,將PDF頁面光柵化為影像,將PDF轉換為HTML,並列印PDF文件
  • IronPDF可以打開PDF文件並從URL列印。 此外,它使用戶代理能夠在HTML登入表單、代理、Cookie、HTTP標頭、自定義網絡登入憑證、表單變數和用戶代理後登入。
  • 可以使用IronPDF從文檔中提取影像。
  • 使用IronPDF,您可以非常輕鬆地添加標頭和頁腳、文本和影像、書籤水印,以及更多內容到文檔中。
  • 可以使用IronPDF將頁面組合和分離,無論是新的還是現有的文檔。
  • 不使用Acrobat查看器即可將文檔轉換為PDF對象。
  • 可以使用CSS文件製作PDF文檔。
  • 使用媒體類型CSS文件創建文檔是可能的。

2.3 匯入IronPDF程式庫

在使用IronPDF的源文件開始處添加以下匯入語句,以便匯入IronPDF:

from ironpdf import *
from ironpdf import *
PYTHON

2.4 設置授權金鑰(如果需要)

儘管IronPDF for Python是免費使用,但它會將PDF文件加上帶有平鋪背景的水印以作為免費用戶的標誌。 您必須給程式庫一個合法的授權金鑰才能使用IronPDF創建無水印的PDF。 如何設定帶有授權金鑰的程式庫在下面的代碼片段中顯示:

# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

在創建PDF文件或對其內容進行更改之前,請確保設置好授權金鑰。 LicenseKey方法應該在其他代碼行之前調用。 要獲取免費試用授權金鑰,請訪問授權頁面

2.5 設置日誌文件

名為"Default"的文本文件可以將Custom.log在Python腳本目錄中產生的日誌信息儲存。 可以使用下面的代碼片段來設置LogFilePath屬性並自定義日誌文件名稱和位置:

# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用IronPDF提取PDF文本

IronPDF for Python程式庫可以將PDF頁面轉換為PDF對象,並允許從PDF文件中提取文本,包括掃描的PDF文件。 這裡有一個範例,顯示如何使用IronPDF讀取現有的PDF。

第一個方法涉及提取PDF中所有可用的文本; 下面提供了一段代碼樣本。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
PYTHON

如上面的代碼所示,FromFile方法是一個PDF閱讀器對象,它加載現有的PDF文件並將其轉換為PDF-文件對象。 此對象可用於讀取PDF頁面上可用的文本和圖片。 該對象提供了一個名為ExtractAllText的方法,可以從整個PDF文件中提取所有的文本,並將其保存在一個可處理的字符串中。 然後使用print函數顯示文本。

如何在Python中將PDF轉換為文本(教程),圖1:顯示文本 顯示文本

提供了可以逐頁提取文本的第二種方法的代碼範例,它在下面提供。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
PYTHON

FromFile方法用於加載現有文件中的PDF文件並將其轉換為PDF文件對象,如上面的代碼所示。 PDF頁面對象上的一個名為ExtractTextFromPage的方法從PDF檔案中的一頁中提取所有文本。要從那個特定頁面提取文本,必須將頁碼作為參數提供。 然後,在提取文本後,可以使用page_text來保存可處理的信息。

查看更多範例來從PDF中提取文本。

4.0 結論

IronPDF程式庫相反,提供強大的安全措施以減少潛在風險。 它並非針對某個特定瀏覽器,而是適用於所有常用的瀏覽器。 IronPDF允許程式設計師僅需幾行代碼即可輕鬆生成和讀取PDF文件。 IronPDF程式庫提供了一系列授權選項,包括一個免費的開發者授權和可購買的額外開發授權,用於滿足不同開發者的需求。

IronPDF包含永久授權、30天退款保證、一年的軟體支援和升級選項。 初次購買後沒有額外費用。 這些授權可用於開發、測試和生產環境中。 了解更多關於產品授權的信息

下載軟體產品。

常見問題解答

如何在Python中將PDF轉換為文本?

您可以使用IronPDF的PdfDocument.FromFile方法加載您的PDF,然後使用ExtractAllTextExtractTextFromPage方法提取所需的文本。

使用Python的PDF庫需要哪些設置?

要使用IronPDF,您需要安裝Python和IDE,並安裝.NET Core運行時。IronPDF可以通過PyPI下載頁安裝。

我可以使用Python從PDF的特定頁面提取文本嗎?

可以,使用IronPDF,您可以使用ExtractTextFromPage方法,通過提供頁碼作為參數從指定頁面提取文本。

在Python中使用PDF庫有免費選項嗎?

IronPDF for Python提供了添加水印到PDF的免費版本。若要刪除水印並解鎖完整功能,需要許可密鑰。

如何將PDF庫與Django或Flask等Web框架集成?

IronPDF可以無縫集成到Django和Flask等Web框架中,允許您在Web應用程序項目中生成和操作PDF。

Python PDF庫應具備哪些功能?

像IronPDF這樣全面的PDF庫應支持從HTML和圖像創建PDF,提取文本,填寫表單,合併PDF及添加書籤和水印。

如何在Python中設置PDF庫的許可證密鑰?

對於IronPDF,使用License.LicenseKey方法設置許可證密鑰,在執行任何其他代碼之前註冊您的許可證並移除水印。

Python PDF庫支持從網頁創建PDF嗎?

IronPDF可以從HTML、HTML5和由ASP或PHP構建的網頁創建PDF,使其成為Web基於PDF生成的多功能工具。

如何啟用Python PDF庫中的調試?

通過將Logger.EnableDebugging設置為true並使用Logger.LogFilePath定義日志文件路徑來啟用IronPDF中的調試。

Python PDF庫的安全功能有哪些?

IronPDF保證安全性和跨瀏覽器兼容性,為開發人員提供一種可靠的Python中安全PDF操作解決方案。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me