IRONPDF FOR PYTHONの使用

PythonでPDFから特定のテキストを抽出する方法

更新済み 2024年9月21日
共有:

この記事では、IronPDF for Pythonライブラリの助けを借りてPDFドキュメントからテキスト要素を抽出する方法を示します。

IronPDF

IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。

機能

  • HTML to PDF: HTML、CSS、JavaScriptを利用してPDFを生成。
  • PDFの編集: 既存のPDFドキュメントにテキスト、画像、ページ番号、さらにはカスタムヘッダーやフッターを追加。
  • PDFの読み取り: PDFファイルからテキスト、画像、メタデータを抽出。
  • セキュリティ: パスワード保護や暗号化オプションでPDFドキュメントを保護。

利点

  • 使いやすさ: シンプルなAPIで時間を節約。
  • 高品質: 正確で美しいPDFドキュメントを生成。
  • 柔軟性: 様々なプラットフォームや言語で利用可能。

対応ライセンス

IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。

技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。

Pythonは、開発者がグラフィカル・ユーザー・インターフェースを簡単かつ迅速に作成できるプログラミング言語です。 他の言語と比較して、Pythonはプログラマーにとってもはるかに動的です。 そのため、IronPDFライブラリをPythonに追加するのは簡単なプロセスです。 多くの事前インストール済みツールには、PyQt、wxWidgets、Kivy、およびその他の多数のパッケージやPythonライブラリが含まれており、完全なGUIを迅速かつ安全に構築することができます。 IronPDFはPythonを組み込み、.NET Coreのような他のフレームワークの機能も統合することができます。

IronPDFはウェブ開発をより簡単にします。 これの主な理由は、Django、Flask、PyramidのようなPythonウェブ開発パラダイムの広範な採用です。 Reddit、Mozilla、Spotifyをはじめとするいくつかのウェブサイトやオンラインサービスがこれらのフレームワークを使用しています。

IronPDFの機能

  • IronPdfを使用すると、PDFファイルは次のようになります。さまざまなソースから作成HTML、HTML5、ASPX、Razor/MVC Viewを含む。 以下の機能を提供します。HTMLページを変換する以下のコンテンツを日本語に翻訳してください:画像をPDFファイルに変換.
  • インタラクティブなPDFを作成し、完了して送信するインタラクティブなフォーム, 分割以下のコンテンツを日本語に翻訳してください:結合PDFファイル、テキストと画像の抽出PDFファイル内のテキスト検索PDFを画像にラスタライズするフォントサイズの変更、ChatGPTを使用した自然言語処理、PDFページのプロパティの変換は、IronPDFツールキットがお手伝いできる活動のほんの一部に過ぎません。
  • IronPDF は、ユーザーエージェント、プロキシ、クッキー、HTTP ヘッダー、フォーム変数のサポートを備えた HTML ログインフォームの検証を提供します。
  • IronPDFはユーザー名とパスワードを使用して、ユーザーに以下のアクセスを提供します。保護されたドキュメント.
  • わずか数行のコードで、IronPDFは文字列、ストリーム、URLを含む様々なソースからPDFファイルを印刷することができます。

Pythonのセットアップ

環境設定

Pythonがコンピューターに設定されていることを確認してください。 お使いのオペレーティングシステムと互換性のあるPythonの最新バージョンをダウンロードしてインストールするには、次のサイトにアクセスしてください。公式Pythonウェブサイト. Pythonがインストールされたら、プロジェクトの要件を分離するために仮想環境を作成してください。 venv`モジュールを使って仮想環境を作成・管理し、変換プロジェクトに整頓された独立した作業場を与えましょう。

PyCharmの新しい取り組み

このデモでは、Pythonコードを開発するためのIDEとしてPyCharmを推奨します。

PyCharm IDEを起動した後、「New Project」を選択します。

PythonでPDFから特定のテキストを抽出する方法、図1:PyCharm

**ピチャーム

新規プロジェクト」を選択すると新しいウィンドウが開き、プロジェクトの場所と環境を設定できます。 以下の画像に表示されているかもしれません。

PythonでPDFから特定のテキストを抽出する方法、図2:新しいプロジェクト

新しいプロジェクト

プロジェクトの場所と環境パスを選択した後、作成ボタンをクリックして、新しいプロジェクトを開始します。 その結果として開く新しいウィンドウでプログラムを作成することができます。 このレッスンでは、Python 3.9を使用しています。

PythonでPDFから特定のテキストを抽出する方法、図3:Pythonプロジェクトの作成

Pythonプロジェクトの作成

IronPDFライブラリ要件

PythonライブラリIronPDFは主に.NET 6.0を使用しています。そのため、IronPDF for Pythonを使用するには.NET 6.0ランタイムがコンピューターにインストールされている必要があります。 LinuxおよびMacユーザーがこのPythonモジュールを使用する前に、.NETをインストールする必要があるかもしれません。 こちらをご覧くださいマイクロソフトからのダウンロードページ必要なランタイム環境を取得するため。

IronPDFライブラリのセットアップ

".pdf"拡張子のファイルを生成、修正、および開くためには、"ironpdf"パッケージをインストールする必要があります。 ターミナルウィンドウを開き、次のコマンドを入力してPyCharmにパッケージをインストールします:

:PackageInstall

以下のスクリーンショットにironpdfパッケージのインストールが示されています。

PythonでPDFから特定のテキストを抽出する方法, 図4: IronPdfのインストール

IronPDFのインストール

PDFファイルから特定のデータを抽出

IronPDFライブラリの助けを借りてPDFファイルからテキストを抽出することが可能です。 IronPDF は、さまざまなテキスト抽出方法を提供します。 最初の方法は、ページ全体のコンテンツを1つの文字列として取得することです。 第二の戦略は、最初のページから始めて、ページごとにコンテンツを見直すことです。 既存のPDFファイルは、IronPDFライブラリを使用して調査することができます。 以下のコードスニペットは、IronPDFを使用してライブPDFファイルを検査する方法を示しています。

PDFから情報を抽出するには、2つのオプションがあります:

  1. PDFからのページ単位の抽出

  2. PDF全体をテキストに変換

    この記事のサンプルPDFファイルは以下から入手可能です。

    PythonでPDFから特定のテキストを抽出する方法、図5:入力PDF

    入力 PDF

PDFからのページごとの抽出

以下のサンプルコードは、ページ番号を使用してPDFファイルからデータを取得する方法を示しています。

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

コードスニペットは、FromFile関数を使用してPDFファイルを読み込み、PDFオブジェクトを構築する方法を示しています。 このオブジェクトは、PDFのテキストと画像にアクセスするために使用することができます。 ExtractTextFromPage関数にパラメータとしてページ番号を渡すことで、特定のページからテキストを取得することができます。 このメソッドによって、選択したページ上の全ての単語を含む文字列が返されます。 次に、Python のsplit` 関数を使用して、抽出したテキストから新しい行をすべて分割する。 その後、抽出したテキストの各行に必要なキーワードが含まれているかどうかを確認します。 キーワードが一致すると、コマンドプロンプトに特定の行が表示されます。 その行を無視して次の行に進みます。テキスト抽出の出力は以下のように表示されます。

PDF全体をテキストに変換

以下のコードサンプルは、すべてのPDFコンテンツを文字列として迅速かつ簡単に取得するための最初の方法を示しています。

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

上記のコード例は、FromFile 関数を使用して既存のファイルパスからPDFを読み込み、PDFファイルオブジェクトに変換する方法を示しています。 その結果、このPDFリーダーオブジェクトを使用して、PDF内のテキストと画像を見ることができます。 オブジェクトの ExtractAllText 関数を使用して、PDF からデータをプレーンテキストに抽出し、文字列に変換し、上記のような同様のロジックを使用して特定のキーワードを見つけ、結果をターミナルに表示します。 結果は以下のように表示されます。

PythonでPDFから特定のテキストを抽出する方法、図6:出力

出力

上記のコード/出力は、指定されたPDFドキュメントに名前と年齢の両方が含まれていることを示していますが、結果にはPDFドキュメントに含まれている名前のみが表示されています。

結論

IronPDFライブラリは、脅威を減少させ、データの安全性を保証するために強力なセキュリティメカニズムを提供します。 それは特定のブラウザに限定されず、広く使用されているすべてのブラウザと互換性があります。 コードを数行書くだけで、プログラマーはIronPDFを使用してPDFファイルを迅速に作成および読み取ることができます。 IronPDFライブラリは、開発者の多様なニーズに応えるために、無料の開発者ライセンスと、購入可能な追加の開発ライセンスを含む様々なライセンスオプションを提供しています。

以下の内容を日本語に翻訳します:

永続ライセンス、30日間の返金保証、1年間のソフトウェアメンテナンス、およびアップグレードオプションが含まれますライトパッケージ. これらのライセンスは、あらゆる環境で使用できます。 さらに、IronPDFは、一部の再配布制限がある無料ライセンスを提供しています。 A試用ライセンスこの場合、ユーザーは透かしなしで製品を評価することができます。

お願い利用可能なIronPDFライセンスを確認する商用ライセンスに関する詳細については、こちらをご覧ください。

< 以前
PythonでPDFファイルを編集する方法
次へ >
PythonでPDFファイルをフラット化する方法

準備はできましたか? バージョン: 2024.11.1 新発売

無料 pip インストール ライセンスを表示 >