PYTHON用IRONPDFの使用

PythonでPDFから特定のテキストを抽出する方法

更新済み 8月 2, 2023
共有:

1.0 はじめに

文書の共有およびデータ処理に関して言えば、Adobeが作成したポータブルドキュメントフォーマット(PDF)は (PDF) ファイルは、テキストが豊富で美しいコンテンツの完全性を保持するために重要です。 オンラインPDFドキュメントにアクセスするには、通常、必要なモジュールを含む特定のプログラムが必要です。 現代では、多くの重要なデジタル出版物にPDFファイルが必要です。 プロフェッショナルな書類や請求書の作成のために、多くの企業がPDFデータファイルを使用しています。 特定の顧客要件に応えるために、データを抽出するために開発者はしばしばPDFドキュメント作成ライブラリを使用します。

現代のライブラリの進化により、PDF作成やテキスト抽出が容易になりました。 シームレスな統合と最高のパフォーマンスを実現するためには、PDF生成に関するプロジェクト用の適切なライブラリを選択する際に、ビルド、読み取り、PDFファイルからのデータ抽出、および変換能力を考慮することが重要です。 Pythonを使用して、既存のPDFを解析し、ページテキストを抽出することができます。 利用可能なさまざまなPythonライブラリがあります。 IronPDFは、PDFファイルからテキストや画像を抽出するなど、多くの機能を持つ強力なライブラリです。

この記事では、IronPDF for Pythonライブラリを使用してPDFドキュメントからテキスト要素を抽出します。

2.0 IronPDF

Pythonは、開発者がグラフィカル・ユーザー・インターフェースを簡単かつ迅速に作成できるプログラミング言語です。 他の言語と比較して、Pythonはプログラマーにとってもはるかに動的です。 そのため、IronPDFライブラリをPythonに追加するのは簡単なプロセスです。 多くの事前インストール済みツールには、PyQt、wxWidgets、Kivy、およびその他の多数のパッケージやPythonライブラリが含まれており、完全なGUIを迅速かつ安全に構築することができます。 IronPDFはPythonを組み込み、.NET Coreなど他のフレームワークの機能を統合することも可能です。

IronPDFはウェブ開発をより簡単にします。 これの主な理由は、Django、Flask、PyramidのようなPythonウェブ開発パラダイムの広範な採用です。 Reddit、Mozilla、Spotifyをはじめとするいくつかのウェブサイトやオンラインサービスがこれらのフレームワークを使用しています。

2.1 IronPDFの機能

  • IronPDFを使用すると、PDFファイルはHTML、HTML5、ASPX、およびRazor/MVC Viewなど、さまざまなソースから作成できます。 HTMLページや画像をPDFファイルに変換する機能を提供します。
  • インタラクティブなPDFの作成、インタラクティブなフォームの入力および送信、PDFファイルの結合および分割、テキストや画像の抽出、PDFファイル内のテキストの検索、PDFを画像にラスタライズ、フォントサイズの変更、ChatGPTを使用した自然言語処理、PDFページのプロパティの変換などは、IronPDFツールキットがサポートする活動のほんの一部です。
  • IronPDF は、ユーザーエージェント、プロキシ、クッキー、HTTP ヘッダー、フォーム変数のサポートを備えた HTML ログインフォームの検証を提供します。
  • IronPDFは、ユーザー名とパスワードを使用して、ユーザーに保護された文書へのアクセスを提供します。

  • 数行のコードで、文字列、ストリーム、またはURLなど、さまざまなソースからPDFファイルを印刷することができます。

3.0 Pythonのセットアップ

環境構成 3.1

Pythonがコンピューターに設定されていることを確認してください。 最新バージョンのPythonをお使いのオペレーティングシステムに対応したものをダウンロードおよびインストールするには、公式のPythonウェブサイトへアクセスしてください。 ウェブサイト. Pythonがインストールされたら、プロジェクトの要件を分離するために仮想環境を作成してください。 venvモジュールを使用して仮想環境を作成および管理し、変換プロジェクトに整然とした独立した作業環境を提供します。

PyCharm における新しいイニシアティブ 3.2

このデモンストレーションでは、Pythonコードを開発するためのIDEであるPyCharmを使用します。

PyCharm IDEを起動した後、「New Project」を選択します。

PythonでPDFから特定のテキストを抽出する方法: 図1 - PyCharm

「新しいプロジェクト」を選択すると、新しいウィンドウが開き、プロジェクトの場所と環境を設定することができます。 以下の画像に表示されているかもしれません。

PythonでPDFから特定のテキストを抽出する方法: 図2 - 新規プロジェクト

プロジェクトの場所と環境パスを選択した後、「Create」ボタンをクリックして新しいプロジェクトを開始します。 その結果として開く新しいウィンドウでプログラムを作成することができます。 このレッスンでは、Python 3.9を使用しています。

PDFから特定のテキストを抽出する方法: 図3 - Pythonプロジェクトを作成する

3.3 IronPDFライブラリ要件

PythonライブラリIronPDFは主に.NET 6.0を使用しています。そのため、IronPDF Pythonを使用するにはお使いのコンピュータに.NET 6.0ランタイムをインストールする必要があります。 LinuxおよびMacユーザーがこのPythonモジュールを使用する前に、.NETをインストールする必要があるかもしれません。 こちらをご覧ください ページ 必要なランタイム環境を取得するため。

3.4 IronPDF ライブラリのセットアップ

".pdf"拡張子のファイルを生成、修正、および開くためには、"ironpdf"パッケージをインストールする必要があります。 ターミナルウィンドウを開き、次のコマンドを入力してPyCharmにパッケージをインストールします:

:PackageInstall

以下のスクリーンショットにironpdfパッケージのインストールが示されています。

PythonでPDFから特定のテキストを抽出する方法:図4 - IronPDFをインストール

4.0 PDFファイルから特定のデータを抽出する

IronPDFライブラリを使用して、PDFファイルからテキストを抽出することもできます。 IronPDF は、さまざまなテキスト抽出方法を提供します。 最初の方法は、ページ全体のコンテンツを1つの文字列として取得することです。 第二の戦略は、最初のページから始めて、ページごとにコンテンツを見直すことです。 既存のPDFファイルは、IronPDFライブラリを使用して調査することができます。 以下のコードスニペットは、IronPDFを使用してライブPDFファイルを検査する方法を示しています。

PDFから情報を抽出するために、2つのオプションがあります:

  1. PDFからのページ単位の抽出

  2. PDF全体をテキストに変換

    この記事で使用するPDFファイルは以下から入手できます。

    PythonでPDFから特定のテキストを抽出する方法:図5 - 入力PDF

4.1 PDFからのページごとの抽出

以下のサンプルコードは、ページ番号を使用してPDFファイルからデータを取得する方法を示しています。

from ironpdf import *
# # PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

コードスニペットは、FromFile関数を使用してPDFファイルを読み込み、PDFオブジェクトを構築する方法を示しています。 このオブジェクトを使用して、PDFのテキストおよび写真にアクセスすることができます。 ページ番号をExtractTextFromPage関数にパラメーターとして渡すことで、特定のページからテキストを取得できます。 このメソッドによって、選択したページ上の全ての単語を含む文字列が返されます。 次に、抽出されたテキストからすべての新しい行を分割するために、Pythonのsplit関数を使用します。 その後、抽出されたテキスト内の各行に必要なキーワードが含まれているかどうかを確認します。 キーワードが一致すると、コマンドプロンプトに特定の行が表示されます。 その行を無視して次の行に進みます。テキスト抽出の出力は以下のように表示されます。

4.2 PDF全体をテキストに変換する

以下のコードサンプルは、すべてのPDFコンテンツを文字列として迅速かつ簡単に取得するための最初の方法を示しています。

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

上記のコード例は、FromFile 関数を使用して既存のファイルパスからPDFを読み込み、PDFファイルオブジェクトに変換する方法を示しています。 その結果、このPDFリーダーオブジェクトを使用して、PDF内のテキストと画像を見ることができます。 オブジェクトの ExtractAllText 関数を使用して、PDFからプレーンテキストとしてデータを抽出し、それを文字列に変換し、上記と同様のロジックを使用して特定のキーワードを探し、結果をターミナルに表示します。 結果は以下のように表示されます。

Pythonで特定のテキストをPDFから抽出する方法:図6 - 出力

上記のコード/出力は、指定されたPDFドキュメントに名前と年齢の両方が含まれていることを示していますが、結果にはPDFドキュメントに含まれている名前のみが表示されています。

結論 5.0

IronPDFライブラリは、脅威を減少させ、データの安全性を保証するために強力なセキュリティメカニズムを提供します。 それは特定のブラウザに限定されず、広く使用されているすべてのブラウザと互換性があります。 コードを数行書くだけで、プログラマーはIronPDFを使用してPDFファイルを迅速に作成および読み取ることができます。 IronPDFライブラリは、開発者の多様なニーズに応えるために、無料の開発者ライセンスと、購入可能な追加の開発ライセンスを含む様々なライセンスオプションを提供しています。

以下の内容を日本語に翻訳します:

永続ライセンス、30日間の返金保証、1年間のソフトウェアメンテナンス、およびアップグレードオプションが含まれます ライトパッケージ. これらのライセンスはすべての環境で使用できます。 さらに、IronPDFは、一部の再配布制限がある無料ライセンスを提供しています。 A 試用ライセンス ユーザーは透かしなしで製品を評価することができます。

お願い 利用可能なIronPDFライセンスを確認する 商用ライセンスに関する詳細については、こちらをご覧ください。

< 以前
PythonでPDFファイルを編集する方法
次へ >
PythonでPDFファイルをフラット化する方法

準備はできましたか? バージョン: 2024.9 新発売

無料 pip インストール View Licenses >