跳過到頁腳內容
PYTHON PDF 工具

如何在 Python 中讀取 PDF 文件

PDFs,或稱可攜式文件格式文件,已成為共享文檔的通用標準。 由於它們能夠保留文檔的佈局和格式,它們被廣泛使用。 然而,使用像Python這樣的編程語言來處理PDF文件可能有些挑戰。 本文介紹了IronPDF,一個Python PDF庫,允許我們對PDF文檔進行各種操作。

IronPDF for Python PDF Library

IronPDF是一個先進的Python PDF庫,便於處理PDF格式文件。 它提供了一個易於使用的API,用於各種PDF操作。 您可以讀取和寫入PDF文件,將PDF文件轉換為不同格式,合併多個PDF文件,以及更多功能。 它還可以處理頁面對象,從PDF文件的所有頁面中提取文本,旋轉PDF頁面,等功能。

How to Read PDF Files in Python

  1. 使用Pip安裝Python PDF庫。
  2. 在Python腳本中導入Python PDF庫。
  3. 應用PDFReader Python庫的許可證密鑰。
  4. 提供文檔的路徑來加載任何PDF文檔。
  5. 在Python控制台上閱讀PDF內容。

Read a PDF File using IronPDF

使用IronPDF讀取PDF文件涉及幾個步驟。 這裡有一個簡單的指南來幫助您入門:

Step 1 在Visual Studio中創建虛擬環境

使用Python時,創建一個獨立的環境是至關重要的,稱為虛擬環境。 這個環境允許您管理特定於您正在處理的項目的依賴關係,而不干擾其他項目。 在集成開發環境(IDE)如Visual Studio Code中創建虛擬環境變得更加簡便。 要做到這一點,請按照以下步驟操作:

  1. 在Visual Studio Code中打開文件夾。 按下Ctrl+Shift+P打開命令面板。 在命令面板中搜索“Python: Create Environment”。

Python中如何讀取PDF文件:圖1

  1. 選擇第一個選項,然後選擇“Venv”作為環境類型。

Python中如何讀取PDF文件:圖2

  1. 然後選擇Python解釋器,它將開始創建虛擬環境。

Python中如何讀取PDF文件:圖3

現在您有了自己用於Python腳本的獨立工作區,確保項目依賴關係限制在該環境內。

Python中如何讀取PDF文件:圖4

Step 2 安裝IronPDF for Python庫

設置完成虛擬環境後,您可以安裝IronPDF for Python庫。 您可以使用Python包管理器‘pip’來安裝它:

pip install ironpdf
pip install ironpdf
SHELL

Step 3 安裝.NET 6.0

IronPDF for Python需要安裝.NET 6.0 SDK。

請到Microsoft .NET網站下載並安裝.NET 6.0 SDK。

Step 4 導入IronPDF

成功安裝IronPDF之後,下一步就是在您的Python腳本中導入它。 導入庫會使其所有的功能和方法可供在您的腳本中使用。 您可以使用以下代碼行來導入IronPDF:

from ironpdf import *
from ironpdf import *
PYTHON

這行代碼將IronPDF庫中的所有模塊、功能和類導入到您的腳本中。

Step 5 應用許可證密鑰

要充分解鎖IronPDF庫的功能,您需要應用許可證密鑰。 應用許可證密鑰就如同將密鑰分配給License類的LicenseKey屬性一樣簡單。 以下是怎麼做的:

License.LicenseKey = "License-Key-Here"
License.LicenseKey = "License-Key-Here"
PYTHON

“License-Key-Here”替換為您實際的IronPDF許可證密鑰。 設置好許可證密鑰後,您現在已準備好在您的Python腳本中充分利用IronPDF庫的潛力。

Step 6 設置日誌路徑

接下來,為IronPDF操作設置日誌記錄。 通過設置自定義日誌路徑,您可以存儲庫在運行時生成的日誌,以幫助您調試和診斷執行過程中可能出現的問題。 以下是設置方法:

# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

在這段示例代碼中,Logger.EnableDebugging = True開啟了調試,Logger.LogFilePath = "Custom.log"設置輸出日誌文件為"Custom.log",並且Logger.LoggingMode = Logger.LoggingModes.All確保所有類型的日誌信息都被紀錄。

Step 7 加載PDF文檔

用IronPDF加載PDF文檔就如同調用一個方法一樣簡單。 PdfDocument.FromFile方法會將給定路徑中的PDF文檔加載為PDF文件對象。 您只需要提供PDF文件的路徑作為字符串即可:

pdf = PdfDocument.FromFile("PDF B.pdf")
pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

在這段代碼中,pdf將成為代表指定PDF文件的PdfDocument對象。

Step 8 讀取PDF文件內容

IronPDF提供了一個名為ExtractAllText()的方法,可以用來提取PDF文檔中的文本內容。 這特別有用於您需要讀取和分析PDF文件的內容時:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

在這個例子中,all_text將持有來自pdf對象的所有PDF文件文本。 您將能夠在控制台上閱讀PDF內容。

Python中如何讀取PDF文件:圖5

Step 9 加載第二個PDF文件

就像您加載第一個PDF文檔一樣,您也可以加載第二個PDF文檔。 此功能在您想要操作多個PDF文件時特別有用:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

在這段代碼中,pdf_2是代表第二個PDF文件的另一個PdfDocument對象。

Step 10 合併兩個文件

IronPDF的一個強大功能是合併多個PDF文件為單個新的PDF文件。您可以通過PdfDocument.Merge方法輕鬆合併兩個或更多PDF文檔:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

在這個例子中,merged是一個新的PdfDocument對象,它是合併pdfpdf_2的結果。 SaveAs方法然後將此合併文檔保存為“Merged.pdf”。

Python中如何讀取PDF文件:圖6

Step 11 拆分第一個PDF

IronPDF還允許您拆分PDF文檔並將特定頁面提取為新的PDF文件。 這是通過CopyPage方法完成的:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

這裡,page1doc是一個新的PdfDocument對象,包含pdf文檔的首頁。 此頁面再次被保存為“Split1.pdf”的輸出PDF。

Python中如何讀取PDF文件:圖7

Step 12 應用水印

添加水印是IronPDF提供的另一個令人印象深刻的功能。 您可以用上自己想要的文本或圖像為PDF文檔添加水印。 ApplyWatermark方法被用來向pdf對象代表的PDF添加水印。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

在這段示例代碼中,ApplyWatermark向PDF的中央中間添加了一個帶有“示例”文本的紅色水印。 然後,SaveAs將具有水印的文檔保存為“Watermarked.pdf”。

IronPDF Compatibility

IronPDF是一個多功能的Python庫,與多種Python版本兼容。 它支持從Python 3.6起的所有現代Python版本。 IronPDF不僅限於單一操作系統。 它是跨平台的,因此可以在多種操作系統上使用。 無論是Windows,Mac還是Linux,IronPDF都能在這些平台上無縫運行。 這種跨平台的兼容能力是巨大的優勢,讓IronPDF成為開發者首選,不受其操作系統偏好的限制。

結論

總而言之,IronPDF是一個出色的Python庫,簡化了PDF文檔的處理。 無論您需要合併多個PDF,提取文本,拆分PDF文件,還是應用水印,IronPDF都能滿足您的需求。 它對多平台的兼容性和易用性使其成為任何開發人員處理PDF文檔的寶貴工具。

IronPDF提供免費試用。 這個試用期讓您有足夠的機會來試驗其功能,並評估其是否符合您的特定需求。 一旦您進行了測試,可以從$799開始購買許可證。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。