PYTHON PDF 工具

如何在 Python 中讀取 PDF 文件

發佈 2023年7月3日
分享:

PDF,即可攜式文件格式,已成為分享文件的通用標準。它們因能夠保留文件的佈局和格式而被廣泛使用。然而,使用像Python這樣的編程語言來處理PDF文件可能有點困難。這篇文章介紹了IronPDF,一個Python PDF庫,允許我們對PDF文檔執行各種操作。

IronPDF Python PDF Library

IronPDF 是一个高级 Python PDF 庫 使處理 PDF 格式文件變得更簡單。它提供了易於使用的 API 供各種 PDF 操作使用。您可以讀取和寫入 PDF 文件、將 PDF 文件轉換為不同格式、合併多個 PDF 文件,及更多功能。它還可以處理頁面物件,從 PDF 文件的所有頁面中提取文本,旋轉 PDF 頁面等功能。

如何在 Python 中讀取 PDF 檔案

  1. 使用 Pip 安裝 Python PDF 函式庫。

  2. 在 Python 腳本中導入 Python PDF 函式庫。

  3. 使用 PDFReader Python 函式庫申請許可金鑰。

  4. 通過提供文檔的路徑加載任何 PDF 檔案。

  5. 在 Python 控制台上讀取 PDF 內容。

使用 IronPDF 讀取 PDF 檔案

使用 IronPDF 讀取 PDF 檔案需要幾個步驟。以下是幫助你入門的簡單指南:

Step 1 在Visual Studio中創建虛擬環境

使用Python時,創建稱為虛擬環境的獨立環境至關重要。這個環境允許你管理專案所需的資源,而不會干擾其他專案。在整合開發環境中創建虛擬環境變得更加簡單。 (集成開發環境) 如 Visual Studio Code。請按照以下步驟操作:

  1. 在 Visual Studio Code 中打開資料夾。按下 Ctrl+Shift+P 打開命令面板。在命令面板中,搜尋 "Python: Create Environment"。

    如何在 Python 中讀取 PDF 文件:圖 1

  2. 選擇第一個選項,然後選擇「Venv」作為環境類型。

    如何在 Python 中讀取 PDF 文件:圖 2

  3. 接下來,選擇 Python 解釋器,然後它會開始創建虛擬環境。

    如何在 Python 中讀取 PDF 文件:圖 3

現在你的獨立工作空間已經準備好用於你的Python腳本,確保項目依賴項被限制在這個環境內。

如何在 Python 中讀取 PDF 文件:圖 4

步驟 2 安裝 IronPDF Python 庫

設定虛擬環境後,您可以安裝 IronPDF Python 庫。您可以使用 Python 的包安裝工具 'pip' 來安裝它:

 pip install ironpdf

第3步 安裝 .NET 6.0

IronPDF for Python 需要安裝 .NET 6.0 SDK。

請從以下鏈接下載並安裝 .NET 6.0 SDK: 微軟 .NET 網站.

第4步 导入IronPDF

成功安装IronPDF后,下一步就是将其导入您的Python脚本。导入库使其所有功能和方法在脚本中可用。您可以使用以下代码行导入IronPDF:

from ironpdf import *
PYTHON

此行代碼將 IronPDF 庫中所有可用的模組、函數和類別導入到您的腳本中。

第五步 應用許可證密鑰

要完全解鎖 IronPDF 庫的功能,您需要應用許可證密鑰。 應用許可證密鑰就像將密鑰分配給 License 類的 LicenseKey 屬性一樣簡單。 以下是操作方法:

License.LicenseKey = "License-Key-Here"
PYTHON

將「License-Key-Here」替換為您實際的 IronPDF 授權金鑰。設置授權金鑰後,您現在可以在您的 Python 腳本中充分利用 IronPDF 庫的全部潛力。

步驟 6 設置日誌路徑

接下來,為 IronPDF 操作設置日誌記錄。通過設置自定義的日誌路徑,您可以存儲程式庫生成的執行時日誌,幫助您在執行過程中調試和診斷可能發生的問題。以下是設置方法:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

在此程式碼片段中,Logger.EnableDebugging = True 開啟除錯模式,Logger.LogFilePath = "Custom.log" 將輸出日誌檔案設定為 "Custom.log",並且 Logger.LoggingMode = Logger.LoggingModes.All 確保記錄所有類型的日誌資訊。

第七步 載入 PDF 文件

使用 IronPDF 載入 PDF 文件就像呼叫一個方法一樣簡單。PdfDocument.FromFile 方法會將指定路徑的 PDF 文件載入為一個 PDF 文件物件。您只需提供 PDF 文件的路徑作為字串:

pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

在此程式碼中,pdf 成為代表指定 PDF 檔案的 PdfDocument 物件。

第 8 步 讀取 PDF 文件內容

IronPDF 提供了一個名為 ExtractAllText 的方法()這有助於 從PDF中提取文字內容 文件。這在需要閱讀和分析 PDF 文件內容時特別方便:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

在此範例中,all_text 會保存來自 pdf 物件的所有 PDF 檔文字。您將能夠在控制台上讀取 PDF 內容。

如何在 Python 中讀取 PDF 文件:圖5

第9步 加載第二個 PDF 檔案

就像您加載第一個 PDF 文件一樣,您也可以加載第二個 PDF 文件。 當您想要操作多個 PDF 文件時,這個功能很有幫助:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

在此程式碼中,pdf_2 是另一個代表第二個 PDF 文件的 PdfDocument 物件。

第十步 合併兩個文件

IronPDF 的強大功能之一是 合併多個PDF文件 合併為一個新的 PDF 檔。您可以使用 PdfDocument.Merge 方法輕鬆地合併兩個或多個 PDF 文件:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

在這個範例中,merged 是一個新的 PdfDocument 物件,它是合併 pdfpdf_2 的結果。SaveAs 方法然後將合併後的文件儲存為 "Merged.pdf"。

如何在 Python 中讀取 PDF 文件:圖 6

第11步 分割第一個PDF

IronPDF還允許您 拆分 PDF 文件 並使用 CopyPage 方法將特定頁面提取到新的 PDF 文件中。

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

在此,page1doc 是一個新的 PdfDocument 對象,包含 pdf 文件的第一頁。這一頁然後被保存為名為 "Split1.pdf" 的輸出 PDF。

如何在 Python 中讀取 PDF 文件:圖7

第12步 應用浮水印

浮水印是 IronPDF 提供的另一個令人印象深刻的功能。您可以使用所需的文字或圖片來給 PDF 文件加上浮水印。ApplyWatermark 方法用來添加浮水印到 pdf 對象所代表的 PDF。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

在此代码片段中,ApplyWatermark 將帶有文字 "SAMPLE" 的紅色浮水印應用於PDF的中間中心。接著,SaveAs 將這個加過浮水印的文件存為 "Watermarked.pdf"。

IronPDF 相容性

IronPDF 是一個多功能的 Python 函式庫,兼容多種 Python 版本。它支持從 Python 3.6 起的所有現代 Python 版本。IronPDF 不僅限於單一操作系統。它是平台無關的,因此可以在各種操作系統上使用。不論是 Windows、Mac 還是 Linux,IronPDF 都能在這些平台上無縫運行。這種跨平台的相容性是一大優點,使 IronPDF 成為開發者無論其操作系統偏好如何的首選。

結論

總結來說,IronPDF 是一個出色的 Python 庫,簡化了處理 PDF 文件的過程。無論您需要合併多個 PDF、提取文字、拆分 PDF 文件,還是添加水印,IronPDF 都能滿足您的需求。它對多個平台的兼容性和易用性使其成為任何處理 PDF 文件的開發者一個寶貴的工具。

IronPDF 提供了一個 免費試用這個試用期讓您有足夠的時間來嘗試其功能並評估其是否符合您的具體需求。一旦您測試完畢,您可以購買從 $749 起的許可證。

< 上一頁
如何在 Python 中創建 PDF 文件
下一個 >
如何在 Python 中將 HTML 轉換為 PDF

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >