IRONPDF FOR PYTHONの使用

PythonでPDFファイルを解析する方法

1.0 はじめに

現代のライブラリはPDF作成を効率化しました。 PDFプロジェクト用のライブラリを選ぶ際には、統合とパフォーマンスを最適化するために、ビルド、読み込み、変換機能を考慮してください。 Pythonは、既存のPDFを効率的に解析できるIronPDFのようなツールを提供しています。

2.0 IronPDF

Pythonは、開発者が迅速かつ容易にグラフィカルユーザーインターフェースを構築できるプログラミング言語です。 他の言語と比べてプログラマーにとってより大きなダイナミズムを提供します。 したがって、IronPDFライブラリをPythonに統合することは簡単なプロセスです。

迅速かつ安全に完全機能のGUIを構築するために、開発者は複数の事前インストールされたツール(PyQt、wxWidgets、Kivy、その他多数のパッケージやライブラリを含む)を活用できます。 注目すべき点として、IronPDFは純粋なPythonのPDFライブラリではありません。 代わりに、.NET Coreなどの他のフレームワークからのさまざまな機能を含めることができます。

IronPDFは、Django、Flask、PyramidのようなPythonウェブ開発パラダイムの人気のおかげで、Pythonウェブデザインおよび開発を簡素化します。 Reddit、Mozilla、Spotifyなどの注目すべきウェブサイトやオンラインサービスがこれらのフレームワークを利用しています。 Python についての詳細は、IronPDF for Python のウェブサイトで学ぶことができます。

IronPDFの特徴

  • IronPDF は、HTML、HTML5、ASPX、および Razor/MVC ビューを含む様々なソースから PDF ファイルを生成 することができます。 HTMLページや画像からPDFを作成する機能を提供します。
  • IronPDFツールキットは、インタラクティブPDFの作成、インタラクティブフォームへの入力と送信、PDFファイルの分割および結合、PDFファイルからのテキストと画像の抽出、PDFファイル内の特定の単語の検索、PDFページを画像にラスタライズ、PDFをHTMLに変換するためのツールを提供します。
  • ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、およびシェイプ変数のサポートにより、IronPDFはHTMLログインフォームの検証を可能にします。
  • 保護されたドキュメントへのアクセス はIronPDFでユーザー名とパスワードを使用して認められます。
  • IronPDF は、文字列、ストリーム、URL などさまざまなソースから数行のコードで PDF ファイルを生成し、印刷するのに役立ちます。

3.0 Pythonのセットアップ

3.1 環境セットアップ

PythonがPCにインストールされていることを確認してください。 最新バージョンのPythonをダウンロードしてインストールするには、公式Pythonウェブサイトを訪問してください。 Pythonがインストールされたら、プロジェクトの依存関係を分離するために仮想環境を設定してください。 「venv」モジュールを使用して仮想環境を作成・管理し、変換プロジェクトにクリーンで独立した作業環境を提供します。

PyCharmでの新規プロジェクト

このデモンストレーションのために、Pythonコードを書くためのIDEであるPyCharmを使用します。

PyCharm IDEを起動したら、「New Project」をクリックしてください。

PythonでPDFファイルを解析する方法、図1: PyCharmのウェルカム画面

PyCharmのウェルカムスクリーン

「New Project」を選択すると、新しいウィンドウが表示され、プロジェクトの場所と環境を指定することができます。 この新しいウィンドウは、以下のスクリーンショットに表示されています。

PythonでPDFファイルを解析する方法、図2: PyCharmの新しいプロジェクト画面

PyCharm の新しいプロジェクト画面

プロジェクトの場所と環境パスを設定した後、Create ボタンをクリックして新しいプロジェクトを開始します。 これにより、プログラムを開発できる新しいウィンドウが開きます。 このチュートリアルはPython 3.9を推奨しています。

PythonでPDFファイルを解析する方法、図3: PyCharmで開かれたメインファイル

PyCharmで開かれたメインファイル

3.3 IronPDFライブラリ要件

PythonライブラリのIronPDFは、主に.NET 6.0に依存しています。したがって、IronPDF for Pythonを利用するには、お使いのPCに.NET 6.0ランタイムがインストールされている必要があります。 LinuxとMacのユーザーがこのPythonモジュールを使用する前に、.NETをインストールする必要があるかもしれません。 必要なランタイム環境は.NETのウェブサイトから取得できます。

3.4 IronPDF ライブラリのセットアップ

「ironpdf」パッケージをインストールする必要があります。「.pdf」拡張子のファイルを作成、編集、および開くためです。 PyCharmでパッケージをインストールするには、ターミナルウィンドウを開いて次のコマンドを入力してください:

pip install ironpdf
pip install ironpdf
SHELL

以下のスクリーンショットは「ironpdf」パッケージの設定を示しています。

PythonでPDFファイルを解析する方法、図4:pipを使用してIronPDFをインストールしているターミナル

IronPDFをpipでインストールする際のターミナル

IronPDF を使用して PDF を解析する

IronPDFライブラリを使用すると、PDFファイルからテキストを抽出することが可能です。 IronPDFは、テキスト抽出のためのさまざまな技術を提供します。 最初のアプローチは、ページ上のすべてのコンテンツを単一の文字列として取得することを含みます。 2番目のアプローチは、最初のページからページごとにコンテンツを読み取ることです。 次のコードスニペットは、IronPDFを使用して現在のPDFファイルを検査するためのパターンを示しています。

PDFからデータを抽出するために利用可能な方法は2つあります:

  1. ページごとにPDFから抽出します。

  2. PDF全文をテキストとして抽出する。

    以下は、この記事で使用するPDFファイルです。 それは二ページあります。

    PythonでPDFファイルを解析する方法、図5: 各ページの上部にページ番号があるPDF

    各ページの上にページ番号があるPDF

ページごとのテキスト抽出 4.0.1

以下に示すサンプルコードは、ページ番号を使用してPDFファイルからデータを取得する方法を説明しています。

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
py
PYTHON

このコードスニペットは、FromFile関数を使用してPDFファイルを読み込み、PDFドキュメントオブジェクトを作成する方法を示しています。 このオブジェクトはPDF内のテキストと画像へのアクセスを可能にします。 特定のページからテキストを抽出するには、そのページ番号をパラメーターとして提供してExtractTextFromPageメソッドを使用できます。 このメソッドは、指定されたページ上のすべての単語を含む文字列を返します。 出力は以下のように表示されます。

PythonでPDFファイルを解析する方法、図6: ターミナルのスクリーンショットでテキスト出力 Page 1

ターミナルのスクリーンショット、テキスト出力「Page 1」

結果にハイライトされた長方形ボックスは、PDFファイルのページ番号1から抽出されたデータテキストであり、インデックスは0です。

4.0.2 全ページから抽出

すべてのPDFコンテンツを文字列として迅速かつ簡単に取得する最初のアプローチは、以下のコード例で示しています。

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
py
PYTHON

上記のサンプルコードは、既存のファイルパスからPDFを読み取り、FromFile 関数を使用してPDFファイルオブジェクトに変換する方法を説明しています。 PDFのプレーンテキストはオブジェクトのExtractAllText関数を使用して抽出され、文字列に変換されます。そして抽出されたテキストがターミナルに表示されます。 結果は以下のように表示されます。

PythonでPDFファイルを解析する方法、図7:テキスト出力「ページ1」と「ページ2」を含むターミナルのスクリーンショット

「Page 1」と「Page 2」というテキスト出力があるターミナルのスクリーンショット

結果でハイライトされている矩形ボックスには、PDFファイルの全ページから抽出されたテキストデータが含まれています。

IronPDFを使用してC#でPDFを作成することができます。 IronPDFについて詳しく知るには、IronPDFのウェブサイトをご覧ください。

結論 5.0

リスクを最小限に抑え、データ保護を確実にするために、IronPDFライブラリは強力なセキュリティ対策を提供します。 それは全ての一般的に使用されるブラウザと互換性があり、特定のブラウザに限定されません。 IronPDFは、プログラマーが少ないコード行でPDFファイルを簡単に作成および読み取りできるようにします。 開発者のさまざまなニーズに対応するために、IronPDFライブラリは、無料の開発者ライセンスと購入可能な追加の開発ライセンスなど、さまざまなライセンスオプションを提供しています。

$749 Liteパッケージには、永久ライセンス、30日間の返金保証、1年間のソフトウェアサポート、およびアップグレードの可能性が含まれています。 最初の購入以降、追加料金はかかりません。 本番環境、ステージング環境、開発環境のすべてでこれらのライセンスが使用されています。 IronPDFは、時間と再配布にいくつかの制限はありますが、無料ライセンスも提供しています。 無料試用期間中、ユーザーは透かしなしで製品を実際に使用してテストすることができます。 IronPDFの試用版のコストとライセンスに関する詳細については、IronPDFライセンスページをご覧ください。

チャクニット・ビン
ソフトウェアエンジニア
ChaknithはIronXLとIronBarcodeで作業しています。彼はC#と.NETに深い専門知識を持ち、ソフトウェアの改善と顧客サポートを支援しています。ユーザーとの対話から得た彼の洞察は、より良い製品、文書、および全体的な体験に貢献しています。
< 以前
PythonでPDFファイルを分割する方法
次へ >
PythonでPDFから請求書データを抽出する方法