PYTHON PDFツール

PythonでPDFファイルを読む方法

公開済み 2023年7月3日
共有:

PDF、またはPortable Document Formatファイルは、ドキュメントを共有するための普遍的な標準となりました。 それらは、ドキュメントのレイアウトと書式設定を保持する能力で広く使用されています。 しかし、Pythonのようなプログラミング言語を使用してPDFファイルを扱うのは少し難しい場合があります。 この記事では、PDFドキュメントでさまざまな操作を行うことができるPython用のPDFライブラリであるIronPDFを紹介します。

IronPDF Python PDF ライブラリ

IronPDFは高度なPython PDFライブラリPDF形式のファイルの操作を容易にします。 それは、様々なPDF操作のための使いやすいAPIを提供します。 PDFファイルを読み書きし、PDFファイルを異なる形式に変換し、複数のPDFファイルを結合することができます。さらに多くの機能があります。 それはまた、ページオブジェクトを処理し、PDFファイルのすべてのページからテキストを抽出し、PDFページを回転させるなど、他の機能も備えています。

PythonでPDFファイルを読む方法

  1. Pipを使用してPython PDFライブラリをインストールします。

  2. PythonスクリプトでPython PDFライブラリをインポートします。

  3. PDFReader Pythonライブラリのライセンスキーを適用します。

  4. ドキュメントのパスを指定して、任意のPDFドキュメントを読み込みます。

  5. PythonコンソールでPDFコンテンツを読み取る。

IronPDFを使用してPDFファイルを読み取る

IronPDFを使用してPDFファイルを読み取るには、いくつかのステップが必要です。 始めるための簡単なガイドはこちらです:

ステップ 1 Visual Studioで仮想環境を作成する

Pythonを使用する際には、仮想環境として知られる隔離された環境を作成することが重要です。 この環境では、他のプロジェクトに干渉することなく、作業中のプロジェクトに特有の依存関係を管理することができます。 統合開発環境(IDE)内で仮想環境を作成することは、さらに簡単になります。(IDE (統合開発環境))Visual Studio Codeのように。 この操作を行うには、以下の手順に従ってください:

  1. Visual Studio Codeでフォルダーを開きます。 コマンドパレットを開くには、Ctrl+Shift+Pを押してください。 コマンドパレットで、「Python: Create Environment」を検索してください。

    PythonでPDFファイルを読む方法:図1

  2. 最初のオプションを選択し、その後環境タイプとして「Venv」を選択してください。

    PythonでPDFファイルを読み取る方法: 図 2

  3. その後、Pythonインタプリタを選択して、仮想環境の作成が開始されます。

    PythonでPDFファイルを読み取る方法: 図3

    これで、Pythonスクリプト用の独立したワークスペースが準備できました。この環境内にプロジェクトの依存関係が限定されていることを確保します。

    PythonでPDFファイルを読み取る方法: 図4

ステップ2:IronPDF Python ライブラリをインストール

仮想環境の設定が完了したら、IronPDF Pythonライブラリをインストールする準備が整いました。 Python パッケージインストーラー「pip」を使用してインストールできます:

`pip install ironpdf`

ステップ3: .NET 6.0 をインストールする

IronPDF for Pythonは、.NET 6.0 SDKをインストールする必要があります。

以下から.NET 6.0 SDKをダウンロードおよびインストールしてくださいMicrosoft .NET Webサイト.

手順4:IronPDFをインポート

IronPDF のインストールに成功した後、次のステップはそれをあなたの Python スクリプトにインポートすることです。 ライブラリをインポートすると、そのすべての関数やメソッドがスクリプトで使用可能になります。 以下のコード行を使用してIronPDFをインポートできます:

from ironpdf import *
PYTHON

このコード行は、IronPDFライブラリに含まれるすべてのモジュール、関数、およびクラスをスクリプトにインポートします。

ステップ5 ライセンスキーの適用

IronPDFライブラリの機能を完全に解放するには、ライセンスキーを適用する必要があります。 ライセンスキーの適用は、ライセンスキーを License クラスの LicenseKey プロパティに割り当てるだけで簡単です。 以下の方法で行います:

License.LicenseKey = "License-Key-Here"
PYTHON

「License-Key-Here」をあなたの実際のIronPDFライセンスキーに置き換えてください。 ライセンスキーが設定されると、PythonのスクリプトでIronPDFライブラリのフルポテンシャルを引き出す準備が整います。

ステップ6 ログパスの設定

次に、IronPDFの操作のためにログ記録を設定します。 カスタムログパスを設定することで、ライブラリが生成するランタイムログを保存し、実行中に発生する可能性のある問題をデバッグおよび診断できます。 次のように設定します:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

このスニペットでは、Logger.EnableDebugging = True はデバッグを有効にし、Logger.LogFilePath = "Custom.log" は出力ログファイルを "Custom.log" に設定し、Logger.LoggingMode = Logger.LoggingModes.All はすべての種類のログ情報が記録されることを保証します。

ステップ7 PDFドキュメントを読み込む

IronPDFを使用してPDFドキュメントを読み込むのは、メソッドを呼び出すのと同じくらい簡単です。 PdfDocument.FromFile メソッドは、指定されたパスからPDFドキュメントをPDFファイルオブジェクトにロードします。 PDF ファイルのパスを文字列として指定するだけです:

pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

このコードでは、pdf が指定された PDF ファイルを表す PdfDocument オブジェクトになります。

ステップ 8 PDF ファイルの内容を読み取る

IronPDFは、ExtractAllText というメソッドを提供しています()` に役立つPDFからテキストコンテンツを抽出するドキュメント。 これは、PDFファイルの内容を読み取って分析する必要がある場合に特に便利です。

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

この例では、all_textpdfオブジェクトからすべてのPDFファイルのテキストを保持します。 コンソールでPDFコンテンツを読み取ることができます。

PythonでPDFファイルを読み取る方法: 図5

ステップ9:2番目のPDFファイルを読み込む

最初のPDFドキュメントをロードしたのと同じように、2つ目のPDFドキュメントもロードすることができます。 この機能は、複数のPDFファイルを操作したい場合に役立ちます。

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

このコードでは、pdf_2 は 2 番目の PDF ファイルを表す別の PdfDocument オブジェクトです。

ステップ10 両方のファイルをマージする

IronPDFの強力な機能の一つは複数のPDFファイルを結合1つの新しいPDFファイルに結合します。PdfDocument.Mergeメソッドを使用すると、2つ以上のPDFドキュメントを簡単に結合できます。

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

この例では、mergedpdfpdf_2 をマージした結果として新しく作成された PdfDocument オブジェクトです。 SaveAs メソッドは、この結合されたドキュメントを "Merged.pdf" という名前で保存します。

PythonでPDFファイルを読み取る方法: 図6

ステップ11 最初のPDFを分割

IronPDFもまた、あなたがPDFドキュメントを分割する特定のページを新しいPDFファイルに抽出します。 これは CopyPage メソッドを使用して行います。

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

以下の例では、page1doc は新しい PdfDocument オブジェクトであり、pdf ドキュメントの最初のページを含みます。 このページは "Split1.pdf" という名前の出力PDFとして保存されます。

PythonでPDFファイルを読む方法: 図7

ステップ 12 ウォーターマークを適用

ウォーターマークは、IronPDFが提供するもう一つの素晴らしい機能です。 お好みのテキストや画像でPDFドキュメントにウォーターマークを追加できます。 ApplyWatermarkメソッドは、pdfオブジェクトで表されるPDFにウォーターマークを追加するために使用されます。

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

このスニペットでは、ApplyWatermark は PDF の中央に "SAMPLE" と赤色の透かしを適用します。 次に、SaveAsは透かしを入れたドキュメントを「Watermarked.pdf」として保存します。

IronPDFの互換性

IronPDFは、幅広いPythonバージョンに対応する多用途なPythonライブラリです。 それはPython 3.6以降のすべての最新のPythonバージョンに対応しています。 IronPDF は特定のオペレーティングシステムに制限されません。 それはプラットフォームに依存せず、したがって様々なオペレーティングシステムで使用できます。 Windows、Mac、あるいはLinuxであっても、IronPDFはこれらのプラットフォーム上でシームレスに動作します。 このクロスプラットフォーム互換性は大きな利点であり、IronPDFがオペレーティングシステムの好みに関係なく開発者の選択肢となる理由です。

結論

結論として、IronPDFはPDF文書の取り扱いを簡素化する優れたPythonライブラリです。 複数のPDFをマージする、テキストを抽出する、PDFファイルを分割する、または透かしを適用する必要がある場合でも、IronPDFが対応します。 その複数のプラットフォームとの互換性と使いやすさにより、PDFドキュメントを扱う開発者にとって貴重なツールとなります。

IronPDFは無料試用. この試用期間中に、機能を十分に試し、あなたの特定のニーズに適しているかどうかを評価することができます。 お試しいただいた後は、$749から始まるライセンスをご購入いただけます。

< 以前
PythonでPDFファイルを作成する方法
次へ >
PythonでHTMLをPDFに変換する方法

準備はできましたか? バージョン: 2024.11.1 新発売

無料 pip インストール ライセンスを表示 >