フッターコンテンツにスキップ
PYTHON PDFツール

PythonでPDFファイルを読む方法

PDF、またはポータブルドキュメントフォーマットファイルは、ドキュメント共有のための普遍的な標準となりました。 ドキュメントのレイアウトとフォーマットを保持する能力があるため、広く使用されています。 しかし、Pythonのようなプログラミング言語でPDFファイルを扱うのは少し挑戦があるかもしれません。 この記事では、PDFドキュメントに対してさまざまな操作を可能にするPython PDFライブラリであるIronPDFを紹介します。

IronPDF for Python PDF Library

IronPDFはPDF形式のファイルを扱うのを容易にする高度なPython PDFライブラリです。 さまざまなPDF操作のための使いやすいAPIを提供します。 PDFファイルを読み書きしたり、異なるフォーマットに変換したり、複数のPDFファイルを結合したりすることができます。 また、ページオブジェクトを扱ったり、PDFファイルのすべてのページからテキストを抽出したり、PDFページを回転させたりすることもできます。

How to Read PDF Files in Python

  1. Pipを使ってPython PDFライブラリをインストールします。
  2. PythonスクリプトにPython PDFライブラリをインポートします。
  3. PDFReader Pythonライブラリのライセンスキーを適用します。
  4. ドキュメントのパスを指定して任意のPDFドキュメントをロードします。
  5. Pythonコンソール上でPDFコンテンツを読みます。

Read a PDF File using IronPDF

IronPDFを使用してPDFファイルを読むには、いくつかのステップを踏む必要があります。 ここでは、始めるための簡単なガイドです:

Step 1 Create a virtual environment in Visual Studio

Pythonを使って作業する際には、仮想環境と呼ばれる分離された環境を作成することが重要です。 この環境により、作業しているプロジェクトに特化した依存関係を他のプロジェクトに干渉させずに管理できます。 Visual Studio Codeのような統合開発環境(IDE)では、仮想環境の作成がさらに簡単になります。 このためには、以下の手順に従ってください:

  1. Visual Studio Codeでフォルダを開きます。 Ctrl+Shift+Pを押してコマンドパレットを開きます。 コマンドパレットで「Python: Create Environment」を検索します。

PythonでPDFファイルを読む方法: 図1

  1. 最初のオプションを選択し、次に「Venv」を環境タイプとして選択します。

PythonでPDFファイルを読む方法: 図2

  1. その後、Pythonインタープリタを選択すると仮想環境が作成され始めます。

PythonでPDFファイルを読む方法: 図3

これで、Pythonスクリプト用の分離された作業スペースが用意され、プロジェクト依存関係がこの環境内に限定されます。

PythonでPDFファイルを読む方法: 図4

Step 2 Install IronPDF for Python library

仮想環境が設定されたら、IronPDF for Pythonライブラリをインストールする準備が整います。 Pythonパッケージインストーラ「pip」を使ってインストールできます:

pip install ironpdf
pip install ironpdf
SHELL

Step 3 Install .NET 6.0

IronPDF for Pythonは.NET 6.0 SDKのインストールを必要とします。

Microsoft .NETウェブサイトから.NET 6.0 SDKをダウンロードしてインストールしてください。

Step 4 Import IronPDF

IronPDFのインストールが成功した後、次のステップはPythonスクリプトにインポートすることです。 ライブラリをインポートすると、そのすべての関数とメソッドをスクリプトで利用できるようになります。 IronPDFは以下のコード行を使用してインポートできます:

from ironpdf import *
from ironpdf import *
PYTHON

このコード行は、IronPDFライブラリにあるすべてのモジュール、関数、クラスをスクリプトにインポートします。

Step 5 Apply License Key

IronPDFライブラリの機能を完全に解放するには、ライセンスキーを適用する必要があります。 ライセンスキーの適用は、LicenseクラスのLicenseKeyプロパティにキーを割り当てるだけで簡単に行えます。 こちらが方法です:

License.LicenseKey = "License-Key-Here"
License.LicenseKey = "License-Key-Here"
PYTHON

"License-Key-Here"を実際のIronPDFライセンスキーに置き換えます。 ライセンスキーが設定されると、PythonスクリプトでIronPDFライブラリの可能性を最大限に活用する準備が整います。

Step 6 Set Log Path

次に、IronPDF操作のログを設定します。 カスタムログパスを設定することで、ライブラリが生成するランタイムログを保存し、予期しない問題の診断やデバッグに役立ちます。 設定方法は次の通りです:

# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

このスニペットでは、Logger.EnableDebugging = Trueはデバッグをオンにし、Logger.LogFilePath = "Custom.log"は出力ログファイルを「Custom.log」に設定し、Logger.LoggingMode = Logger.LoggingModes.Allはすべての種類のログ情報を記録します。

Step 7 Load PDF document

IronPDFを使ってPDFドキュメントをロードするのは、メソッドを呼び出すだけで済むため簡単です。 PdfDocument.FromFileメソッドは、指定されたパスからPDFドキュメントをPDFファイルオブジェクトにロードします。 PDFファイルのパスを文字列として提供するだけです:

pdf = PdfDocument.FromFile("PDF B.pdf")
pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

このコードでは、pdfは指定されたPDFファイルを表すPdfDocumentオブジェクトになります。

Step 8 Read PDF File content

IronPDFはPDFドキュメントからテキストを抽出するのに役立つExtractAllText()というメソッドを提供しています。 これは、PDFファイルの内容を読んで分析する必要があるときに特に便利です:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

この例では、all_textpdfオブジェクトからのすべてのPDFファイルテキストが格納されます。 コンソールでPDFコンテンツを読むことができます。

PythonでPDFファイルを読む方法: 図5

Step 9 Load Second PDF File

最初のPDFドキュメントをロードしたように、2番目のPDFドキュメントもロードできます。 複数のPDFファイルを操作したいときにこの機能が役立ちます:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

このコードでは、pdf_2は2番目のPDFファイルを表す別のPdfDocumentオブジェクトです。

Step 10 Merge Both files

IronPDFの強力な機能のひとつは、複数のPDFファイルを新しい単一のPDFファイルに統合することです。PdfDocument.Mergeメソッドを使えば2つ以上のPDFドキュメントを簡単に結合することができます:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

この例では、mergedpdfpdf_2をマージした結果である新しいPdfDocumentオブジェクトです。 SaveAsメソッドによって、このマージされたドキュメントは「Merged.pdf」として保存されます。

PythonでPDFファイルを読む方法: 図6

Step 11 Split First PDF

IronPDFでは、特定のページを新しいPDFファイルに抽出してPDFドキュメントを分割することもできます。 これはCopyPageメソッドを使って行われます:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

ここでは、page1docpdfドキュメントの最初のページを含む新しいPdfDocumentオブジェクトです。 このページは「Split1.pdf」という名の出力PDFとして保存されます。

PythonでPDFファイルを読む方法: 図7

Step 12 Apply Watermark

ウォーターマークの適用はIronPDFが提供するもう一つの印象的な機能です。 目的のテキストや画像でPDFドキュメントに透かしを入れることができます。 ApplyWatermarkメソッドはpdfオブジェクトで表されるPDFにウォーターマークを追加するために使用されます。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

このスニペットでは、ApplyWatermarkが「SAMPLE」という赤いウォーターマークをPDFの中央に適用します。 その後、SaveAsによって、このウォーターマークが適用されたドキュメントは「Watermarked.pdf」として保存されます。

IronPDF Compatibility

IronPDFは幅広いPythonバージョンと互換性がある柔軟なPythonライブラリです。 Python 3.6以降のすべての最新Pythonバージョンをサポートしています。 IronPDFは一つのオペレーティングシステムに制限されていません。 プラットフォームに依存せず、さまざまなオペレーティングシステムで使うことができます。 Windows、Mac、Linuxのいずれであっても、IronPDFはこれらのプラットフォーム全体でシームレスに機能します。 このクロスプラットフォーム互換性は大きな利点であり、オペレーティングシステムの好みに関係なく開発者の間でIronPDFを選ぶ理由になります。

結論

結論として、IronPDFはPDFドキュメントを扱うのを簡単にする優れたPythonライブラリです。 複数のPDFを結合したり、テキストを抽出したり、PDFファイルを分割したり、透かしを適用したりする必要がある場合は、IronPDFにお任せください。 複数のプラットフォームとの互換性と使いやすさは、PDFドキュメントを扱うすべての開発者にとって貴重なツールです。

IronPDFは無料試用版を提供しています。 この試用期間は、機能を実験したり、具体的なニーズに合うかどうかを評価したりするのに十分な時間を提供します。 一度試してみたら、$799から始まるライセンスを購入することができます。

Curtis Chau
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。