PythonでPDFファイルを読む方法
PDF、またはポータブルドキュメントフォーマットファイルは、ドキュメント共有のための普遍的な標準となりました。 ドキュメントのレイアウトとフォーマットを保持する能力があるため、広く使用されています。 しかし、Pythonのようなプログラミング言語でPDFファイルを扱うのは少し挑戦があるかもしれません。 この記事では、PDFドキュメントに対してさまざまな操作を可能にするPython PDFライブラリであるIronPDFを紹介します。
IronPDF for Python PDF Library
IronPDFはPDF形式のファイルを扱うのを容易にする高度なPython PDFライブラリです。 さまざまなPDF操作のための使いやすいAPIを提供します。 PDFファイルを読み書きしたり、異なるフォーマットに変換したり、複数のPDFファイルを結合したりすることができます。 また、ページオブジェクトを扱ったり、PDFファイルのすべてのページからテキストを抽出したり、PDFページを回転させたりすることもできます。
PythonでPDFファイルを読む方法
- Pipを使ってPython PDFライブラリをインストールします。
- PythonスクリプトにPython PDFライブラリをインポートします。
- PDFReader Pythonライブラリのライセンスキーを適用します。
- ドキュメントのパスを指定して任意のPDFドキュメントをロードします。
- Pythonコンソール上でPDFコンテンツを読みます。
Read a PDF File using IronPDF
IronPDFを使用してPDFファイルを読むには、いくつかのステップを踏む必要があります。 ここでは、始めるための簡単なガイドです:
Step 1 Create a virtual environment in Visual Studio
Pythonを使って作業する際には、仮想環境と呼ばれる分離された環境を作成することが重要です。 この環境により、作業しているプロジェクトに特化した依存関係を他のプロジェクトに干渉させずに管理できます。 Visual Studio Codeのような統合開発環境(IDE)では、仮想環境の作成がさらに簡単になります。 このためには、以下の手順に従ってください:
- Visual Studio Codeでフォルダーを開きます。 Ctrl+Shift+Pを押してコマンドパレットを開きます。 コマンドパレットで"Python: Create Environment"を検索します。

- 最初のオプションを選択し、次に"Venv"を環境タイプとして選択します。

- その後、Pythonインタープリタを選択すると仮想環境が作成され始めます。

これで、Pythonスクリプト用の分離された作業スペースが用意され、プロジェクト依存関係がこの環境内に限定されます。
![]()
Step 2 Install IronPDF for Python library
仮想環境が設定されたら、IronPDF for Pythonライブラリをインストールする準備が整います。 Pythonパッケージインストーラ"pip"を使ってインストールできます:
pip install ironpdfpip install ironpdfStep 3 Install .NET 6.0
IronPDF for Pythonは.NET 6.0 SDKのインストールを必要とします。
Microsoft .NETウェブサイトから.NET 6.0 SDKをダウンロードしてインストールしてください。
Step 4 Import IronPDF
IronPDFのインストールが成功した後、次のステップはPythonスクリプトにインポートすることです。 ライブラリをインポートすると、そのすべての関数とメソッドをスクリプトで利用できるようになります。 IronPDFは以下のコード行を使用してインポートできます:
from ironpdf import *from ironpdf import *このコード行は、IronPDFライブラリにあるすべてのモジュール、関数、クラスをスクリプトにインポートします。
Step 5 Apply License Key
IronPDFライブラリの機能を完全に解放するには、ライセンスキーを適用する必要があります。 ライセンスキーの適用は、LicenseクラスのLicenseKeyプロパティにキーを割り当てるだけで簡単に行えます。 こちらが方法です:
License.LicenseKey = "License-Key-Here"License.LicenseKey = "License-Key-Here""License-Key-Here"を実際のIronPDFライセンスキーに置き換えます。 ライセンスキーが設定されると、PythonスクリプトでIronPDFライブラリの可能性を最大限に活用する準備が整います。
Step 6 Set Log Path
次に、IronPDF操作のログを設定します。 カスタムログパスを設定することで、ライブラリが生成するランタイムログを保存し、予期しない問題の診断やデバッグに役立ちます。 設定方法は次の通りです:
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.Allこのスニペットでは、Logger.EnableDebugging = Trueはデバッグをオンにし、Logger.LogFilePath = "Custom.log"は出力ログファイルを"Custom.log"に設定し、Logger.LoggingMode = Logger.LoggingModes.Allはすべての種類のログ情報を記録します。
Step 7 Load PDF document
IronPDFを使ってPDFドキュメントをロードするのは、メソッドを呼び出すだけで済むため簡単です。 PdfDocument.FromFileメソッドは、指定されたパスからPDFドキュメントをPDFファイルオブジェクトにロードします。 PDFファイルのパスを文字列として提供するだけです:
pdf = PdfDocument.FromFile("PDF B.pdf")pdf = PdfDocument.FromFile("PDF B.pdf")このコードでは、pdfは指定されたPDFファイルを表すPdfDocumentオブジェクトになります。
Step 8 Read PDF File content
IronPDFはPDFドキュメントからテキストを抽出するのに役立つExtractAllText()というメソッドを提供しています。 これは、PDFファイルの内容を読んで分析する必要があるときに特に便利です:
all_text = pdf.ExtractAllText() # Extracts all text from the PDF document
print(all_text) # Prints the extracted text to the consoleall_text = pdf.ExtractAllText() # Extracts all text from the PDF document
print(all_text) # Prints the extracted text to the consoleこの例では、all_textにpdfオブジェクトからのすべてのPDFファイルテキストが格納されます。 コンソールでPDFコンテンツを読むことができます。

Step 9 Load Second PDF File
最初のPDFドキュメントをロードしたように、2番目のPDFドキュメントもロードできます。 複数のPDFファイルを操作したいときにこの機能が役立ちます:
pdf_2 = PdfDocument.FromFile("PDF A.pdf")pdf_2 = PdfDocument.FromFile("PDF A.pdf")このコードでは、pdf_2は2番目のPDFファイルを表す別のPdfDocumentオブジェクトです。
Step 10 Merge Both files
IronPDFの強力な機能のひとつは、複数のPDFファイルを新しい単一のPDFファイルに統合することです。PdfDocument.Mergeメソッドを使えば2つ以上のPDFドキュメントを簡単に結合することができます:
merged = PdfDocument.Merge(pdf, pdf_2) # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf") # Saves the merged document as 'Merged.pdf'merged = PdfDocument.Merge(pdf, pdf_2) # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf") # Saves the merged document as 'Merged.pdf'この例では、mergedはpdfとpdf_2をマージした結果である新しいPdfDocumentオブジェクトです。 SaveAsメソッドによって、このマージされたドキュメントは"Merged.pdf"として保存されます。

Step 11 Split First PDF
IronPDFでは、特定のページを新しいPDFファイルに抽出してPDFドキュメントを分割することもできます。 これはCopyPageメソッドを使って行われます:
page1doc = pdf.CopyPage(0) # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf") # Saves the copied page as a new document 'Split1.pdf'page1doc = pdf.CopyPage(0) # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf") # Saves the copied page as a new document 'Split1.pdf'ここでは、page1docはpdfドキュメントの最初のページを含む新しいPdfDocumentオブジェクトです。 このページは"Split1.pdf"という名の出力PDFとして保存されます。

Step 12 Apply Watermark
ウォーターマークの適用はIronPDFが提供するもう一つの印象的な機能です。 目的のテキストや画像でPDFドキュメントに透かしを入れることができます。 ApplyWatermarkメソッドはpdfオブジェクトで表されるPDFにウォーターマークを追加するために使用されます。
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")このスニペットでは、ApplyWatermarkが"SAMPLE"という赤いウォーターマークをPDFの中央に適用します。 その後、SaveAsによって、このウォーターマークが適用されたドキュメントは"Watermarked.pdf"として保存されます。
IronPDF Compatibility
IronPDFは幅広いPythonバージョンと互換性がある柔軟なPythonライブラリです。 Python 3.6以降のすべての最新Pythonバージョンをサポートしています。 IronPDFは一つのオペレーティングシステムに制限されていません。 プラットフォームに依存せず、さまざまなオペレーティングシステムで使うことができます。 Windows、Mac、Linuxのいずれであっても、IronPDFはこれらのプラットフォーム全体でシームレスに機能します。 このクロスプラットフォーム互換性は大きな利点であり、オペレーティングシステムの好みに関係なく開発者の間でIronPDFを選ぶ理由になります。
結論
結論として、IronPDFはPDFドキュメントを扱うのを簡単にする優れたPythonライブラリです。 複数のPDFを結合したり、テキストを抽出したり、PDFファイルを分割したり、透かしを適用したりする必要がある場合は、IronPDFにお任せください。 複数のプラットフォームとの互換性と使いやすさは、PDFドキュメントを扱うすべての開発者にとって貴重なツールです。
IronPDFは無料試用版を提供しています。 この試用期間は、機能を実験したり、具体的なニーズに合うかどうかを評価したりするのに十分な時間を提供します。 一度試してみたら、$799から始まるライセンスを購入することができます。










