使用IRONPDF FOR PYTHON

如何在 Python 中從 PDF 提取圖片

已更新 2024年9月28日
分享:

本文將使用IronPDF for Python透過Python程式碼從PDF檔案中提取圖像。

IronPDF for Python

IronPDFfor Python 是一個先進且強大的函式庫,為 Python 中的 PDF 文件處理帶來了嶄新的層次。 作為 PDF 任務的綜合解決方案,IronPDF 能夠將高級 PDF 功能無縫整合到應用程式中。

IronPDF 提供了各種工具和 API,用於處理以下任務 כמו創建 PDF文件從頭開始,轉換將 HTML 轉換為高品質 PDF以及通過諸如操作來管理PDF頁面合併, 分割,和編輯。 這些工具既易於使用又高效。 IronPDF 擁有用戶友好的介面和全面的文檔,為開發者開啟無限可能。

無論是製作專業報告和發票、自動化工作流程,還是管理文件,IronPDF 在文件管理和自動化領域提供了寶貴的資產,使其成為任何開發者在 Python 應用中利用 PDF 的強大功能時的必備工具。

如何使用 IronPDF for Python 從 PDF 中提取圖像

  1. 安裝 IronPDF 庫以從 PDF 中提取圖像至 Python。

  2. 使用 PdfDocument.FromFile 方法從本地磁碟加載 PDF 檔案,需提供檔案路徑。

  3. 應用 ExtractAllImages 方法從 PDF 文件中提取圖像。

  4. 使用迴圈遍歷在 PDF 中找到的所有提取圖像。

  5. 將這些從 PDF 文件中提取的影像按需求的影像格式儲存。

先決條件

在深入了解使用 Python 從 PDF 獲取圖像的世界之前,讓我們先安裝必要的先決條件:

  1. Python 安裝:確保你有一個Python在您的系統上安裝了解釋器。 從 PDF 獲取圖像的過程需要 Python 3.0 或更新版本。 確保您有相容的 Python 安裝。

  2. IronPDF Library: 要利用強大的功能IronPDF,您需要使用 Python 封裝管理器 pip 安裝它。 只需打開命令行介面並執行以下命令:
    :ProductInstall
  1. 整合開發環境(集成開發環境)雖然不是強制性的,但使用 IDE 可以大大提升您的開發體驗。 IDE 提供如程式碼補全、除錯及更精簡工作流程等功能。 一個非常受歡迎的 Python 開發 IDE 是 PyCharm。 您可以從下載並安裝PyCharmJetBrains 網站.

    一旦這些先決條件到位,您可以透過使用 Python 和 IronPDF 從 PDF 中擷取圖像的逐步指南,探索這個令人興奮的世界。

步驟 1 創建一個新的 Python 專案

以下是在 PyCharm 中創建新 Python 專案的步驟。

  1. 要在 PyCharm 中啟動新的 Python 專案,打開 PyCharm 應用程式,並導航到頂部選單。

  2. 點擊 File,然後從下拉選單中選擇 New Project

    如何從 PDF 中提取圖像在 Python 中,圖 1:PyCharm IDE

    PyCharm IDE

  3. 在點擊 New Project 後,將出現一個標題為 Create Project 的新窗口。

  4. 在此窗口中,在顶部的位置字段中输入您的项目名称。选择环境; 如果您正在使用虛擬環境,請從提供的選項中選擇。

    如何在 Python 中從 PDF 提取圖像, 圖 2:在 PyCharm 中創建一個新的 Python 項目

    在 PyCharm 中創建一個新的 Python 專案

  5. 選擇環境後,點擊 Create 按鈕來創建您的 Python 專案。

    您的 Python 專案現已建立並可用於各種任務,例如提取圖片。

步驟 2 安裝 IronPDF

若要安裝 IronPDF,只需打開終端或單獨的命令提示符並輸入命令 pip install ironpdf,然後按 Enter 鍵。 終端將顯示以下輸出。

如何在 Python 中從 PDF 提取圖片,圖 3:安裝 IronPDF 套件

安裝 IronPDF 套件

步驟 3 使用 IronPDF 從 PDF 文件中提取圖像

IronPDF為開發者提供工具和API,使之能夠順暢地導航PDF並識別和提取嵌入的圖像。 無論是用於分析還是整合,IronPDF 藉助 Python 的靈活性使提取流程更加順暢。 這使得處理 PDF 和基於影像的應用程序變得至關重要。它可以從 PDF 文件中提取所有影像,只需要幾行程式碼就能輕鬆完成。

請參見以下程式碼,使用 Python 編程語言從 PDF 中提取圖像。

from ironpdf import *

# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 

# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()

# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")
PYTHON

此程式碼首先匯入IronPDF庫,然後使用PdfDocument.FromFile方法僅透過檔案路徑從本地加载PDF檔案。 然後它將訪問 PDF 的每一頁,將圖像字節提取為 Image 對象。 然後,這些來自 PDF 頁面的影像物件會使用 SaveAs 方法保存下來。 在上述代碼中,使用者根據圖像索引和圖像擴展名(PNG)分配一個動態的圖像名稱。

比起使用其他的 Python 函式庫更簡單的是PyMuPDF枕頭庫,使用 import fitz 搭配 ExtractImage 提取圖像。()並使用 from PIL import Image 將位元組轉換為 PIL 圖像實例,以將圖像文件保存到磁碟上。 IronPDF只需幾行代碼即可實現這一點。

步驟 4 從 PDF 文件中儲存圖像

從 PDF 文件的所有頁面中提取圖像並以 PNG 格式保存。 您也可以通過調整文件擴展名來匹配所需的圖像文件格式,從而靈活地修改輸出格式以保存可用的圖像對象。

如何從 PDF 中提取圖片(Python),圖4:從範例 PDF 檔案中提取的圖片

從範例 PDF 文件中提取的圖像

結論

Python 與強大的IronPDF,提供了一種用於從 PDF 文件中提取圖像的多功能且高效的解決方案。 利用 Python 的靈活性和 IronPDF 的功能,開發者可以無縫地導航 PDF 文件,定位其中的圖像位元組,並以所需的圖像擴展名保存這些圖像。 該過程包括從 PDF 獲取圖像,並且生成的圖像列表可以根據需要進一步處理和操作。 通過掌握使用 Python 從 PDF 獲取圖像的技術,開發人員可以提升他們的工作流程,自動化文檔管理,並探索各種基於圖像的應用,使其在數位時代成為一項有價值的技能。

要了解有關從 PDF 文件提取圖片的更多功能,請訪問以下內容範例. 您可以探索其他操作,例如將 PDF 檔案內容轉換為圖像的選項,完整的教學可在此找到。如何使用 Python 的文章.

< 上一頁
如何在 Python 中將 PNG 轉換為 PDF 檔案
下一個 >
如何從 PDF 中擷取數據於 Python

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >