PYTHON PDFツール

PythonでPDFファイルを読む方法

チャクニット・ビン

2023年7月3日

共有:

PDF、またはPortable Document Formatファイルは、ドキュメントを共有するための普遍的な標準となりました。それらは、ドキュメントのレイアウトと書式設定を保持する能力で広く使用されています。しかし、Pythonのようなプログラミング言語を使用してPDFファイルを扱うのは少し難しい場合があります。この記事では、PDFドキュメントでさまざまな操作を行うことができるPython用のPDFライブラリであるIronPDFを紹介します。

IronPDF Python PDF ライブラリ

IronPDFは、PDF形式のファイルを操作するための高度なPython PDFライブラリです。それは、様々なPDF操作のための使いやすいAPIを提供します。 PDFファイルを読み書きし、PDFファイルを異なる形式に変換し、複数のPDFファイルを結合することができます。さらに多くの機能があります。それはまた、ページオブジェクトを処理し、PDFファイルのすべてのページからテキストを抽出し、PDFページを回転させるなど、他の機能も備えています。

PythonでPDFファイルを読む方法

Pipを使用してPython PDFライブラリをインストールします。
PythonスクリプトでPython PDFライブラリをインポートします。
PDFReader Pythonライブラリのライセンスキーを適用します。
ドキュメントのパスを指定して、任意のPDFドキュメントを読み込みます。
PythonコンソールでPDFコンテンツを読み取る。

IronPDFを使用してPDFファイルを読み取る

IronPDFを使用してPDFファイルを読み取るには、いくつかのステップが必要です。始めるための簡単なガイドはこちらです:

ステップ 1 Visual Studioで仮想環境を作成する

Pythonを使用する際には、仮想環境として知られる隔離された環境を作成することが重要です。この環境では、他のプロジェクトに干渉することなく、作業中のプロジェクトに特有の依存関係を管理することができます。 Visual Studio Codeのような統合開発環境（IDE）で仮想環境を作成することはさらに簡単になります。この操作を行うには、以下の手順に従ってください:

Visual Studio Codeでフォルダーを開きます。コマンドパレットを開くには、Ctrl+Shift+Pを押してください。コマンドパレットで、「Python: Create Environment」を検索してください。
最初のオプションを選択し、その後環境タイプとして「Venv」を選択してください。
その後、Pythonインタプリタを選択して、仮想環境の作成が開始されます。

これで、Pythonスクリプト用の独立したワークスペースが準備できました。この環境内にプロジェクトの依存関係が限定されていることを確保します。

ステップ2：IronPDF Python ライブラリをインストール

仮想環境の設定が完了したら、IronPDF Pythonライブラリをインストールする準備が整いました。 Python パッケージインストーラー「pip」を使用してインストールできます:

`pip install ironpdf`

ステップ3: .NET 6.0 をインストールする

IronPDF for Pythonは、.NET 6.0 SDKをインストールする必要があります。

.NET 6.0 SDKをMicrosoft .NETウェブサイトからダウンロードしてインストールしてください。

手順4：IronPDFをインポート

IronPDF のインストールに成功した後、次のステップはそれをあなたの Python スクリプトにインポートすることです。ライブラリをインポートすると、そのすべての関数やメソッドがスクリプトで使用可能になります。以下のコード行を使用してIronPDFをインポートできます：

from ironpdf import *

py

PYTHON

このコード行は、IronPDFライブラリに含まれるすべてのモジュール、関数、およびクラスをスクリプトにインポートします。

ステップ5 ライセンスキーの適用

IronPDFライブラリの機能を完全に解放するには、ライセンスキーを適用する必要があります。ライセンスキーを適用するのは、キーをLicenseクラスのLicenseKeyプロパティに割り当てるのと同じくらい簡単です。以下の方法で行います:

License.LicenseKey = "License-Key-Here"

py

PYTHON

「License-Key-Here」をあなたの実際のIronPDFライセンスキーに置き換えてください。ライセンスキーが設定されると、PythonのスクリプトでIronPDFライブラリのフルポテンシャルを引き出す準備が整います。

ステップ6 ログパスの設定

次に、IronPDFの操作のためにログ記録を設定します。カスタムログパスを設定することで、ライブラリが生成するランタイムログを保存し、実行中に発生する可能性のある問題をデバッグおよび診断できます。次のように設定します：

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

py

PYTHON

このスニペットでは、Logger.EnableDebugging = True はデバッグを有効にし、Logger.LogFilePath = "Custom.log" は出力ログファイルを「Custom.log」に設定し、Logger.LoggingMode = Logger.LoggingModes.All はすべての種類のログ情報が記録されることを保証します。

ステップ7 PDFドキュメントを読み込む

IronPDFを使用してPDFドキュメントを読み込むのは、メソッドを呼び出すのと同じくらい簡単です。 PdfDocument.FromFile メソッドは、指定されたパスからPDF文書を読み込み、PDFファイルオブジェクトに変換します。 PDF ファイルのパスを文字列として指定するだけです:

pdf = PdfDocument.FromFile("PDF B.pdf")

py

PYTHON

このコードでは、pdf は指定された PDF ファイルを表す PdfDocument オブジェクトになります。

ステップ 8 PDF ファイルの内容を読み取る

IronPDFは、PDFドキュメントからテキストコンテンツを抽出するのに役立つExtractAllText()というメソッドを提供します。これは、PDFファイルの内容を読み取って分析する必要がある場合に特に便利です。

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console

py

PYTHON

この例では、all_text は pdf オブジェクトからすべてのPDFファイルのテキストを保持します。コンソールでPDFコンテンツを読み取ることができます。

PythonでPDFファイルを読み込む方法: 図5

ステップ9：2番目のPDFファイルを読み込む

最初のPDFドキュメントをロードしたのと同じように、2つ目のPDFドキュメントもロードすることができます。この機能は、複数のPDFファイルを操作したい場合に役立ちます。

pdf_2 = PdfDocument.FromFile("PDF A.pdf")

py

PYTHON

このコードでは、pdf_2 は2番目のPDFファイルを表す別の PdfDocument オブジェクトです。

ステップ10 両方のファイルをマージする

IronPDFの強力な機能の一つに、複数のPDFファイルを一つの新しいPDFファイルに結合することがあります。PdfDocument.Merge メソッドを使用することで、2つ以上のPDF文書を簡単に結合できます。

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'

py

PYTHON

この例では、merged は pdf と pdf_2 を結合した結果である新しい PdfDocument オブジェクトです。 SaveAs メソッドは、このマージされたドキュメントを「Merged.pdf」という名前で保存します。

PythonでPDFファイルを読む方法: 図6

ステップ11 最初のPDFを分割

IronPDF は、PDF ドキュメントを分割し、特定のページを新しい PDF ファイルに抽出することも可能です。これは、CopyPage メソッドを使用して行います：

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'

py

PYTHON

ここで、page1doc は pdf ドキュメントの最初のページを含む新しい PdfDocument オブジェクトです。このページは "Split1.pdf" という名前の出力PDFとして保存されます。

PythonでPDFファイルを読む方法: 図7

ステップ 12 ウォーターマークを適用

ウォーターマークは、IronPDFが提供するもう一つの素晴らしい機能です。お好みのテキストや画像でPDFドキュメントにウォーターマークを追加できます。 ApplyWatermark メソッドは、pdf オブジェクトによって表されるPDFにウォーターマークを追加するために使用されます。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")

py

PYTHON

このスニペットでは、ApplyWatermark がPDFの中央に「SAMPLE」というテキストを持つ赤い透かしを適用します。次に、SaveAsでウォーターマークが追加されたドキュメントを「Watermarked.pdf」として保存します。

IronPDFの互換性

IronPDFは、幅広いPythonバージョンに対応する多用途なPythonライブラリです。それはPython 3.6以降のすべての最新のPythonバージョンに対応しています。 IronPDF は特定のオペレーティングシステムに制限されません。それはプラットフォームに依存せず、したがって様々なオペレーティングシステムで使用できます。 Windows、Mac、あるいはLinuxであっても、IronPDFはこれらのプラットフォーム上でシームレスに動作します。このクロスプラットフォーム互換性は大きな利点であり、IronPDFがオペレーティングシステムの好みに関係なく開発者の選択肢となる理由です。

結論

結論として、IronPDFはPDF文書の取り扱いを簡素化する優れたPythonライブラリです。複数のPDFをマージする、テキストを抽出する、PDFファイルを分割する、または透かしを適用する必要がある場合でも、IronPDFが対応します。その複数のプラットフォームとの互換性と使いやすさにより、PDFドキュメントを扱う開発者にとって貴重なツールとなります。

IronPDFは無料試用版を提供しています。この試用期間中に、機能を十分に試し、あなたの特定のニーズに適しているかどうかを評価することができます。試してみたら、$749から始まるライセンスを購入することができます。

チャクニット・ビン

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ChaknithはIronXLとIronBarcodeで作業しています。彼はC#と.NETに深い専門知識を持ち、ソフトウェアの改善と顧客サポートを支援しています。ユーザーとの対話から得た彼の洞察は、より良い製品、文書、および全体的な体験に貢献しています。

< 以前
PythonでPDFファイルを作成する方法

次へ >
PythonでHTMLをPDFに変換する方法