フッターコンテンツにスキップ
PYTHON PDFツール

PythonでPDFファイルを読む方法

PDF、またはポータブルドキュメントフォーマットファイルは、ドキュメント共有のための普遍的な標準となりました。 ドキュメントのレイアウトとフォーマットを保持する能力があるため、広く使用されています。 しかし、Pythonのようなプログラミング言語でPDFファイルを扱うのは少し挑戦があるかもしれません。 この記事では、PDFドキュメントに対してさまざまな操作を可能にするPython PDFライブラリであるIronPDFを紹介します。

IronPDF for Python PDF Library

IronPDFはPDF形式のファイルを扱うのを容易にする高度なPython PDFライブラリです。 さまざまなPDF操作のための使いやすいAPIを提供します。 PDFファイルを読み書きしたり、異なるフォーマットに変換したり、複数のPDFファイルを結合したりすることができます。 また、ページオブジェクトを扱ったり、PDFファイルのすべてのページからテキストを抽出したり、PDFページを回転させたりすることもできます。

PythonでPDFファイルを読む方法

  1. Pipを使ってPython PDFライブラリをインストールします。
  2. PythonスクリプトにPython PDFライブラリをインポートします。
  3. PDFReader Pythonライブラリのライセンスキーを適用します。
  4. ドキュメントのパスを指定して任意のPDFドキュメントをロードします。
  5. Pythonコンソール上でPDFコンテンツを読みます。

Read a PDF File using IronPDF

IronPDFを使用してPDFファイルを読むには、いくつかのステップを踏む必要があります。 ここでは、始めるための簡単なガイドです:

Step 1 Create a virtual environment in Visual Studio

Pythonを使って作業する際には、仮想環境と呼ばれる分離された環境を作成することが重要です。 この環境により、作業しているプロジェクトに特化した依存関係を他のプロジェクトに干渉させずに管理できます。 Visual Studio Codeのような統合開発環境(IDE)では、仮想環境の作成がさらに簡単になります。 このためには、以下の手順に従ってください:

  1. Visual Studio Codeでフォルダーを開きます。 Ctrl+Shift+Pを押してコマンドパレットを開きます。 コマンドパレットで"Python: Create Environment"を検索します。

    PythonでPDFファイルを読み取る方法: 図1

  2. 最初のオプションを選択し、次に"Venv"を環境タイプとして選択します。

    PythonでPDFファイルを読み取る方法: 図2

  3. その後、Pythonインタープリタを選択すると仮想環境が作成され始めます。

    PythonでPDFファイルを読み取る方法: 図3

これで、Pythonスクリプト用の分離された作業スペースが用意され、プロジェクト依存関係がこの環境内に限定されます。

PythonでPDFファイルを読み取る方法: 図4

Step 2 Install IronPDF for Python library

仮想環境が設定されたら、IronPDF for Pythonライブラリをインストールする準備が整います。 Pythonパッケージインストーラ"pip"を使ってインストールできます:

pip install ironpdf
pip install ironpdf
SHELL

Step 3 Install .NET 6.0

IronPDF for Pythonは.NET 6.0 SDKのインストールを必要とします。

Microsoft .NETウェブサイトから.NET 6.0 SDKをダウンロードしてインストールしてください。

Step 4 Import IronPDF

IronPDFのインストールが成功した後、次のステップはPythonスクリプトにインポートすることです。 ライブラリをインポートすると、そのすべての関数とメソッドをスクリプトで利用できるようになります。 IronPDFは以下のコード行を使用してインポートできます:

from ironpdf import *
from ironpdf import *
PYTHON

このコード行は、IronPDFライブラリにあるすべてのモジュール、関数、クラスをスクリプトにインポートします。

Step 5 Apply License Key

IronPDFライブラリの機能を完全に解放するには、ライセンスキーを適用する必要があります。 ライセンスキーを適用するのは、キーをLicenseKeyプロパティに割り当てるのと同じくらい簡単です。 こちらが方法です:

License.LicenseKey = "License-Key-Here"
License.LicenseKey = "License-Key-Here"
PYTHON

"License-Key-Here" を実際の IronPDF ライセンスキーに置き換えてください。 ライセンスキーが設定されると、PythonスクリプトでIronPDFライブラリの可能性を最大限に活用する準備が整います。

Step 6 Set Log Path

次に、IronPDF操作のログを設定します。 カスタムログパスを設定することで、ライブラリが生成するランタイムログを保存し、予期しない問題の診断やデバッグに役立ちます。 設定方法は次の通りです:

# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

このスニペットでは、Logger.EnableDebugging = True はデバッグをオンにし、Logger.LogFilePath = "Custom.log" は出力ログファイルを"Custom.log"に設定し、Logger.LoggingMode = Logger.LoggingModes.All はすべての種類のログ情報が記録されることを保証します。

Step 7 Load PDF document

IronPDFを使ってPDFドキュメントをロードするのは、メソッドを呼び出すだけで済むため簡単です。 PdfDocument.FromFile メソッドは、指定されたパスからPDFドキュメントをPDFファイルオブジェクトにロードします。 PDFファイルのパスを文字列として提供するだけです:

pdf = PdfDocument.FromFile("PDF B.pdf")
pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

このコードでは、pdf は指定されたPDFファイルを表すPdfDocument オブジェクトになります。

Step 8 Read PDF File content

IronPDFはPDFドキュメントからテキストコンテンツを抽出するのに役立つExtractAllText()というメソッドを提供しています。 これは、PDFファイルの内容を読んで分析する必要があるときに特に便利です:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

この例では、all_textpdf オブジェクトからすべてのPDFファイルテキストを保持します。 コンソールでPDFコンテンツを読むことができます。

PythonでPDFファイルを読み取る方法: 図5

Step 9 Load Second PDF File

最初のPDFドキュメントをロードしたように、2番目のPDFドキュメントもロードできます。 複数のPDFファイルを操作したいときにこの機能が役立ちます:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

このコードでは、pdf_2 は2番目のPDFファイルを表す別のPdfDocument オブジェクトです。

Step 10 Merge Both files

IronPDFの強力な機能の一つは、複数のPDFファイルを1つの新しいPDFファイルにマージすることです。PdfDocument.Merge メソッドを使用して2つ以上のPDFドキュメントを簡単に結合できます。

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

この例では、mergedpdfpdf_2 をマージした結果の新しいPdfDocument オブジェクトです。 SaveAs メソッドは、このマージされたドキュメントを"Merged.pdf"として保存します。

PythonでPDFファイルを読み取る方法: 図6

Step 11 Split First PDF

IronPDFでは、特定のページを新しいPDFファイルに抽出してPDFドキュメントを分割することもできます。 これは、CopyPage メソッドを使用して行われます:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

ここで、page1docpdf ドキュメントの最初のページを含む新しいPdfDocument オブジェクトです。 このページは"Split1.pdf"という名の出力PDFとして保存されます。

PythonでPDFファイルを読み取る方法: 図7

Step 12 Apply Watermark

ウォーターマークの適用はIronPDFが提供するもう一つの印象的な機能です。 目的のテキストや画像でPDFドキュメントに透かしを入れることができます。 ApplyWatermark メソッドは、pdf オブジェクトで表されるPDFに透かしを追加するために使用されます。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

このスニペットでは、ApplyWatermark がPDFの中央に"SAMPLE"という赤い透かしを適用します。 次に、SaveAs が透かし付きドキュメントを"Watermarked.pdf"として保存します。

IronPDF Compatibility

IronPDFは幅広いPythonバージョンと互換性がある柔軟なPythonライブラリです。 Python 3.6以降のすべての最新Pythonバージョンをサポートしています。 IronPDFは一つのオペレーティングシステムに制限されていません。 プラットフォームに依存せず、さまざまなオペレーティングシステムで使うことができます。 Windows、Mac、Linuxのいずれであっても、IronPDFはこれらのプラットフォーム全体でシームレスに機能します。 このクロスプラットフォーム互換性は大きな利点であり、オペレーティングシステムの好みに関係なく開発者の間でIronPDFを選ぶ理由になります。

結論

結論として、IronPDFはPDFドキュメントを扱うのを簡単にする優れたPythonライブラリです。 複数のPDFを結合したり、テキストを抽出したり、PDFファイルを分割したり、透かしを適用したりする必要がある場合は、IronPDFにお任せください。 複数のプラットフォームとの互換性と使いやすさは、PDFドキュメントを扱うすべての開発者にとって貴重なツールです。

IronPDFは無料試用版を提供しています。 この試用期間は、機能を実験したり、具体的なニーズに合うかどうかを評価したりするのに十分な時間を提供します。 試してみた後、$799 からライセンスを購入することができます。

カーティス・チャウ
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me