from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

IRONPDF FOR PYTHONの使用

PythonでPDFから画像を抽出する方法

チャクニット・ビン

2023年11月14日

更新済み 2024年9月28日

共有:

この記事では、Pythonコードを使用してPDFファイルから画像を抽出するためにIronPDF for Pythonを使用します。

IronPDF for Python

IronPDF for Python は、Python における PDF ドキュメント処理に新たな次元をもたらす最先端で強力なライブラリです。 PDF関連作業の総合ソリューションとして、IronPDFは高度なPDF機能をアプリケーションにシームレスに統合することを可能にします。

IronPDFは、ゼロからPDFを作成することや、HTMLを高品質なPDFに変換すること、または結合、分割、編集といった操作を通じてPDFページを管理するための幅広いツールとAPIを提供しています。これらのツールはユーザーフレンドリーで効率的です。使いやすいインターフェースと豊富なドキュメントを備えたIronPDFは、開発者に多くの可能性をもたらします。

プロフェッショナルなレポートや請求書の作成、自動化されたワークフローの実現、ドキュメントの管理を行う際において、IronPDFはドキュメント管理および自動化の分野で貴重な資産を提供し、PythonアプリケーションでPDFの力を活用しようとする開発者にとって欠かせないツールとなります。

Python向けのIronPDFを使用してPDFから画像を抽出する方法

IronPDFライブラリをインストールして、PythonでPDFから画像を抽出します。
ローカルディスクからファイルパスを使用してPDFファイルを読み込むために、PdfDocument.FromFile メソッドを書きます。
ExtractAllImages メソッドを適用して、PDFファイルから画像を抽出します。
ループを使用して、PDF内に見つかったすべての抽出された画像を反復処理します。
必要な画像拡張子でPDFファイルから抽出されたこれらの画像を保存します。

前提条件

Pythonを使用してPDFから画像を取得する世界に入る前に、必要な前提条件をインストールしましょう。

Pythonのインストール: システムにPythonインタープリターがインストールされていることを確認してください。 PDFから画像を取得するプロセスには、Python 3.0以降のバージョンが必要です。互換性のあるPythonインストールを確保してください。
IronPDFライブラリ：強力なIronPDFの機能を利用するには、Pythonのパッケージマネージャーであるpipを使用してインストールする必要があります。コマンドラインインターフェイスを開き、次のコマンドを実行してください:

    :ProductInstall

    :ProductInstall

SHELL

統合開発環境 (IDE): 必須ではありませんが、IDEを使用すると開発体験が大幅に向上する可能性があります。 IDEsは、コード補完、デバッグ、およびよりスムーズなワークフローなどの機能を提供します。 Python開発において非常に人気のあるIDEの一つはPyCharmです。 PyCharmはJetBrainsのウェブサイトからダウンロードしてインストールできます。

これらの前提条件が整ったら、PythonとIronPDFを使用してPDFから画像を取得するエキサイティングな世界をステップバイステップでガイドします。

ステップ 1: 新しいPythonプロジェクトを作成する

以下は、PyCharmで新しいPythonプロジェクトを作成する手順です。

新しいPythonプロジェクトをPyCharmで開始するには、PyCharmアプリケーションを開き、トップメニューに移動します。
ファイルをクリックし、ドロップダウンメニューから新しいプロジェクトを選択します。

PyCharm IDE
New Project をクリックすると、Create Project というタイトルの新しいウィンドウが表示されます。
このウィンドウで、上部のLocationフィールドにプロジェクト名を入力します。環境を選択してください。仮想環境を使用している場合は、提供されたオプションから選択してください。

PyCharmで新しいPythonプロジェクトを作成する
環境を選択したら、CreateボタンをクリックしてPythonプロジェクトを作成します。

あなたのPythonプロジェクトは作成され、画像の抽出などのさまざまなタスクに使用できる準備ができました。

ステップ2 IronPDFのインストール

IronPDFをインストールするには、ターミナルまたは別のコマンドプロンプトを開き、コマンドpip install ironpdfを入力してから、Enterキーを押します。ターミナルに次の出力が表示されます。

PythonでPDFから画像を抽出する方法、図3: IronPDFパッケージをインストール

IronPDFパッケージをインストールする

ステップ3 IronPDFを使用してPDFファイルから画像を抽出する

IronPDFは、開発者がPDFを操作し、埋め込まれた画像をシームレスに識別および抽出するためのツールとAPIを提供します。解析や統合のために、IronPDFはPythonの柔軟性を活用して抽出を簡略化します。これは、PDFと画像ベースのアプリで作業するために重要です。わずか数行のコードで、PDFファイルからすべての画像を抽出することがとても簡単です。

Pythonプログラミング言語を使用してPDFから画像を抽出するための以下のコードを参照してください。

from ironpdf import *

# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 

# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()

# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")

py

PYTHON

このコードは、最初にIronPDFライブラリをインポートし、PdfDocument.FromFileメソッドを使用してファイルパスのみでローカルスペースからPDFファイルをロードします。次に、各PDFページにアクセスして、画像バイトをImageオブジェクトとして抽出します。これらのPDFページからの画像オブジェクトは、その後SaveAsメソッドを使用して保存されます。上記のコードでは、ユーザーは画像インデックスと画像拡張子をPNGとして動的な画像名を割り当てています。

画像を抽出するためにExtractImage()を使用し、バイトをPILイメージインスタンスに変換してディスクに画像ファイルを保存するためにfrom PIL import Imageを使用するPyMuPDFやPillowライブラリを利用することに比べて、より簡単です。 IronPDFは、わずか数行のコードでこれを実現します。

ステップ 4 PDFファイルから画像を保存します

PDFファイルの全ページから画像が抽出され、PNG形式で保存されます。出力フォーマットを変更して、保存したい画像オブジェクトに対応するファイル拡張子を指定することで、希望する画像ファイル形式に調整する柔軟性もあります。

PythonでPDFから画像を抽出する方法、図4：サンプルPDFファイルから抽出された画像

サンプルPDFファイルから抽出された画像

結論

Pythonと強力なIronPDFを組み合わせることで、PDFファイルから画像を取得するタスクに対して多用途で効率的なソリューションが提供されます。 Pythonの柔軟性とIronPDFの機能を活用することで、開発者はPDFドキュメントをシームレスに操作し、その中の画像バイトを特定し、希望する画像拡張子でこれらの画像を保存することができます。そのプロセスはPDFから画像を取得することを含み、結果として得られる画像リストは必要に応じてさらに処理および操作することができます。 Pythonを使用してPDFから画像を取得する技術を習得することで、開発者はワークフローを強化し、文書管理を自動化し、さまざまな画像ベースのアプリケーションを探索できます。これにより、デジタル時代において非常に価値のあるスキルとなります。

PDFファイルからの画像に関する詳細な機能については、次の例をご覧ください。他の操作として、PDF ファイル内容を画像に変換するオプションを探索できます。完全なチュートリアルはこのPython のハウツー記事で利用可能です。

チャクニット・ビン

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ChaknithはIronXLとIronBarcodeで作業しています。彼はC#と.NETに深い専門知識を持ち、ソフトウェアの改善と顧客サポートを支援しています。ユーザーとの対話から得た彼の洞察は、より良い製品、文書、および全体的な体験に貢献しています。

< 以前
PythonでPNGをPDFファイルに変換する方法

次へ >
PythonでPDFからデータを抽出する方法