フッターコンテンツにスキップ
PYTHON用IRONPDFを使用する

PythonでPDFから特定のテキストを抽出する方法

この記事では、IronPDF for Pythonライブラリを使用してPDFドキュメントからテキスト要素を抽出する方法を示します。

IronPDF

Pythonは、開発者がグラフィカルユーザーインターフェースを簡単かつ迅速に作成するためのプログラミング言語です。 他の言語と比較しても、Pythonはプログラマーにとって非常に動的です。 このため、PythonにIronPDFライブラリを追加するのは簡単なプロセスです。 PyQt、wxWidgets、Kivy、およびその他の多くのパッケージやPythonライブラリを含む多数のプリインストールツールを使用して、完全なGUIを迅速かつ安全に構築できます。 IronPDFはPythonを組み込み、.NET Coreなどの他のフレームワークからの機能の統合も可能にします。

IronPDFはウェブ開発を容易にします。 その主な理由は、Pythonウェブ開発パラダイムであるDjango、Flask、Pyramidなどの広範な採用です。 Reddit、Mozilla、Spotifyは、これらのフレームワークを使用したウェブサイトやオンラインサービスのほんの一例です。

IronPDFの機能

Pythonセットアップ

環境設定

Pythonがコンピュータにセットアップされていることを確認してください。 最新バージョンのPythonをお使いのオペレーティングシステムと互換性のあるバージョンをダウンロードしてインストールするには、公式Pythonウェブサイトをご覧ください。 Pythonをインストールしたら、プロジェクトの要件を分離するために仮想環境を作成してください。 変換プロジェクトに整理された独立した作業空間を提供するために、venvモジュールで仮想環境を作成および管理してください。

PyCharmでの新規プロジェクト

このデモンストレーションには、Pythonコードの開発用IDEとしてPyCharmを推奨します。

PyCharm IDEを起動した後、"新規プロジェクト"を選択します。

PythonでPDFから特定テキストを抽出する方法、図1: PyCharm PyCharm

"新規プロジェクト"を選択すると、プロジェクトの場所と環境を設定できる新しいウィンドウが開きます。 これは以下の画像で見ることができます。

PythonでPDFから特定テキストを抽出する方法、図2: 新規プロジェクト 新規プロジェクト

プロジェクトの場所と環境パスを選択した後、作成ボタンをクリックして新しいプロジェクトを開始します。 その結果、新しいウィンドウが開き、プログラムを作成できます。 このレッスンではPython 3.9を使用します。

PythonでPDFから特定テキストを抽出する方法、図3: Pythonプロジェクトの作成 Pythonプロジェクトの作成

IronPDFライブラリの要件

PythonライブラリのIronPDFは主に.NET 6.0を使用します。したがって、IronPDF for Pythonを使用するには、コンピュータに.NET 6.0ランタイムがインストールされている必要があります。 LinuxおよびMacユーザーは、このPythonモジュールを使用する前に、.NETのインストールが必要になる場合があります。 必要なランタイム環境を取得するには、Microsoftのダウンロードページをご覧ください。

IronPDFライブラリのセットアップ

"ironpdf"パッケージをインストールして、拡張子".pdf"を持つファイルを生成、変更、開く必要があります。 ターミナルウィンドウを開き、PyCharmでパッケージをインストールするために次のコマンドを入力してください:

pip install ironpdf
pip install ironpdf
SHELL

以下のスクリーンショットにironpdfパッケージのインストールが示されています。

PythonでPDFから特定テキストを抽出する方法、図4: IronPDFのインストール IronPDFのインストール

PDFファイルから特定のデータを抽出する

IronPDFライブラリを使用すると、PDFファイルからテキストを抽出できます。 IronPDFは、複数のテキスト抽出方法を提供します。 最初の方法は、ページ全体の内容を1つの文字列として取得することです。 第二の戦略は、最初のページから始めて内容をページごとに調べることです。 既存のPDFファイルをIronPDFライブラリを使用して調査できます。 以下のコードスニペットは、ライブPDFファイルを調査するためにIronPDFをどのように使用するかを示しています。

PDFから情報を抽出するための2つのオプションがあります:

  1. PDFからページごとに抽出
  2. PDF全体をテキストに変換する

この記事のサンプルPDFファイルはこちらでご覧いただけます。

PythonでPDFから特定テキストを抽出する方法、図5: 入力PDF 入力PDF

PDFからのページごとの抽出

以下の例コードは、ページ番号を使用してPDFファイルからデータを取得する方法を示しています。

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

コードスニペットは、FromFile関数を使用してPDFファイルを読み込んでPDFオブジェクトを構築する方法を示しています。 このオブジェクトを使用して、PDFのテキストと画像にアクセスできます。 特定のページからテキストを取得するには、ExtractTextFromPage関数にページ番号をパラメータとして渡します。 選択されたページ上のすべての単語が含まれる文字列がこのメソッドによって返されます。 次に、Pythonでsplit関数を使用して抽出されたテキストからすべての新しい行を分割します。 その後、抽出されたテキストの各行が必要なキーワードを含むかどうかを確認します。 キーワードが一致した場合、コマンドプロンプトに特定の行が表示されます。 そうでない場合は、その行は無視され、次の行に進みます。抽出されたテキストの出力は以下のようになります。

PDF全体をテキストに変換する

以下のコードサンプルは、PDFのすべての内容をすばやく簡単に取得するための最初の方法を示しています。

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

上記の例示コードは、FromFile関数を使用して既存のファイルパスからPDFを読み込み、PDFファイルオブジェクトに変換する方法を示しています。 その結果、このPDFリーダーオブジェクトを使用して、PDF内のテキストと画像を見ることができます。 オブジェクトのExtractAllText関数を使用してPDFからデータをプレーンテキストに抽出し、それを文字列に変換し、上記と同じロジックを使って特定のキーワードを見つけて結果をターミナルで表示します。 結果は次のように表示されます。

PythonでPDFから特定テキストを抽出する方法、図6: 出力 出力

上記のコード/出力は、指定されたPDFドキュメントに名前と年齢が含まれていることを示していますが、結果にはPDFドキュメント内にある名前のみが示されています。

結論

IronPDFライブラリは、脅威を減らしデータの安全性を確保するための強力なセキュリティメカニズムを提供します。 特定のブラウザに制限されておらず、すべての主要なブラウザと互換性があります。 数行のコードで、プログラマーはIronPDFを使用してPDFファイルを迅速に生成および読み取ることができます。 IronPDFライブラリは、開発者のさまざまなニーズに応じて、無料の開発者ライセンスや購入可能な追加の開発ライセンスを含むさまざまなライセンスオプションを提供します。

ライセンスのライトパッケージには、永続ライセンス、30日間の返金保証、1年間のソフトウェアメンテナンス、およびアップグレードオプションが含まれています。ライトパッケージ。 これらのライセンスはすべての環境で使用できます。 さらに、IronPDFは一部の再配布制限付きで無料ライセンスを提供しています。 試用ライセンスは、ユーザーが透かしなしで製品を評価できるようにします。

商業ライセンスについての詳細については、利用可能なIronPDFライセンスをご覧ください。

よくある質問

Pythonを使用してPDFから特定のテキストを抽出するにはどうすればよいでしょうか?

IronPDFのPythonライブラリを使用してPDFからテキストを抽出できます。ExtractTextFromPageを使用してページごとのテキストを抽出したり、ExtractAllTextを使用してドキュメント全体から抽出する機能を提供します。

PythonプロジェクトにIronPDFをセットアップする手順は何ですか?

.NET 6.0ランタイムがまだインストールされていない場合は、それを最初にインストールします。次に、PyCharmなどの開発環境にPythonをセットアップします。pip install ironpdfを実行してIronPDFをインストールし、プロジェクトにPDF機能を統合します。

IronPDFはDjangoやFlaskのようなフレームワークと互換性がありますか?

はい、IronPDFはDjangoやFlaskなどPythonのWeb開発フレームワークと良く統合し、WebアプリケーションでのPDF処理に多様なオプションを提供します。

PythonでIronPDFを使用するためのライセンスオプションは何ですか?

IronPDFは個人使用向けの無料開発者ライセンスや、追加の機能と利点を提供する様々な商用ライセンスを提供しています。

IronPDF for Pythonをインストールするにはどうすればいいですか?

端末またはコマンドプロンプトでpip install ironpdfコマンドを実行してpipパッケージマネージャーを使用してIronPDFをインストールします。

PythonでIronPDFを使用するのにおすすめの開発環境は何ですか?

PyCharmは、包括的な機能セットとPythonサポートのため、IronPDFを使用したPythonアプリケーションの開発におすすめの統合開発環境(IDE)です。

IronPDFのPythonライブラリの主な機能は何ですか?

IronPDF for Pythonは、HTMLからのPDF生成、画像のPDF変換、フォーム処理、テキストおよび画像の抽出、PDF統合などの機能を提供します。

IronPDFライブラリはPDFファイルを扱うのにどれくらい安全ですか?

IronPDFは堅牢なセキュリティ機能を備えて設計されており、PDFファイルを安全に扱うことを保証します。暗号化とパスワード保護をサポートして、機密情報を保護します。

カーティス・チャウ
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。