PythonでPDFから特定のテキストを抽出する方法
この記事では、IronPDF for Pythonライブラリを使用してPDFドキュメントからテキスト要素を抽出する方法を示します。
IronPDF
Pythonは、開発者がグラフィカルユーザーインターフェースを簡単かつ迅速に作成するためのプログラミング言語です。 他の言語と比較しても、Pythonはプログラマーにとって非常に動的です。 このため、PythonにIronPDFライブラリを追加するのは簡単なプロセスです。 PyQt、wxWidgets、Kivy、およびその他の多くのパッケージやPythonライブラリを含む多数のプリインストールツールを使用して、完全なGUIを迅速かつ安全に構築できます。 IronPDFはPythonを組み込み、.NET Coreなどの他のフレームワークからの機能の統合も可能にします。
IronPDFはウェブ開発を容易にします。 その主な理由は、Pythonウェブ開発パラダイムであるDjango、Flask、Pyramidなどの広範な採用です。 Reddit、Mozilla、Spotifyは、これらのフレームワークを使用したウェブサイトやオンラインサービスのほんの一例です。
IronPDFの機能
- IronPDFを使用すると、HTML、HTML5、ASPX、およびRazor/MVCビューなどのさまざまなソースからPDFファイルを作成できます。 HTMLページをPDFファイルに変換し、画像をPDFファイルに変換する機能を提供します。
- インタラクティブなPDF作成やフォーム完成と提出、PDFの分割及び結合、テキスト・画像抽出、テキスト検索、PDFの画像化、フォントサイズ変更、ChatGPTを使用した自然言語処理やPDFページプロパティの変換など、多くのアクティビティをIronPDFツールキットがサポートします。
- IronPDFは、ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、フォーム変数をサポートしたHTMLログインフォームの検証を提供します。
- IronPDFは、保護されたドキュメントにユーザーがアクセスできるようにユーザー名とパスワードを使用します。
- 数行のコードで、IronPDFは文字列、ストリーム、またはURLなどのさまざまなソースからPDFファイルを印刷できます。
Pythonセットアップ
環境設定
Pythonがコンピュータにセットアップされていることを確認してください。 最新バージョンのPythonをお使いのオペレーティングシステムと互換性のあるバージョンをダウンロードしてインストールするには、公式Pythonウェブサイトをご覧ください。 Pythonをインストールしたら、プロジェクトの要件を分離するために仮想環境を作成してください。 変換プロジェクトに整理された独立した作業空間を提供するために、venvモジュールで仮想環境を作成および管理してください。
PyCharmでの新規プロジェクト
このデモンストレーションには、Pythonコードの開発用IDEとしてPyCharmを推奨します。
PyCharm IDEを起動した後、"新規プロジェクト"を選択します。
PyCharm
"新規プロジェクト"を選択すると、プロジェクトの場所と環境を設定できる新しいウィンドウが開きます。 これは以下の画像で見ることができます。
新規プロジェクト
プロジェクトの場所と環境パスを選択した後、作成ボタンをクリックして新しいプロジェクトを開始します。 その結果、新しいウィンドウが開き、プログラムを作成できます。 このレッスンではPython 3.9を使用します。
Pythonプロジェクトの作成
IronPDFライブラリの要件
PythonライブラリのIronPDFは主に.NET 6.0を使用します。したがって、IronPDF for Pythonを使用するには、コンピュータに.NET 6.0ランタイムがインストールされている必要があります。 LinuxおよびMacユーザーは、このPythonモジュールを使用する前に、.NETのインストールが必要になる場合があります。 必要なランタイム環境を取得するには、Microsoftのダウンロードページをご覧ください。
IronPDFライブラリのセットアップ
"ironpdf"パッケージをインストールして、拡張子".pdf"を持つファイルを生成、変更、開く必要があります。 ターミナルウィンドウを開き、PyCharmでパッケージをインストールするために次のコマンドを入力してください:
pip install ironpdfpip install ironpdf以下のスクリーンショットにironpdfパッケージのインストールが示されています。
IronPDFのインストール
PDFファイルから特定のデータを抽出する
IronPDFライブラリを使用すると、PDFファイルからテキストを抽出できます。 IronPDFは、複数のテキスト抽出方法を提供します。 最初の方法は、ページ全体の内容を1つの文字列として取得することです。 第二の戦略は、最初のページから始めて内容をページごとに調べることです。 既存のPDFファイルをIronPDFライブラリを使用して調査できます。 以下のコードスニペットは、ライブPDFファイルを調査するためにIronPDFをどのように使用するかを示しています。
PDFから情報を抽出するための2つのオプションがあります:
- PDFからページごとに抽出
- PDF全体をテキストに変換する
この記事のサンプルPDFファイルはこちらでご覧いただけます。
入力PDF
PDFからのページごとの抽出
以下の例コードは、ページ番号を使用してPDFファイルからデータを取得する方法を示しています。
from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)コードスニペットは、FromFile関数を使用してPDFファイルを読み込んでPDFオブジェクトを構築する方法を示しています。 このオブジェクトを使用して、PDFのテキストと画像にアクセスできます。 特定のページからテキストを取得するには、ExtractTextFromPage関数にページ番号をパラメータとして渡します。 選択されたページ上のすべての単語が含まれる文字列がこのメソッドによって返されます。 次に、Pythonでsplit関数を使用して抽出されたテキストからすべての新しい行を分割します。 その後、抽出されたテキストの各行が必要なキーワードを含むかどうかを確認します。 キーワードが一致した場合、コマンドプロンプトに特定の行が表示されます。 そうでない場合は、その行は無視され、次の行に進みます。抽出されたテキストの出力は以下のようになります。
PDF全体をテキストに変換する
以下のコードサンプルは、PDFのすべての内容をすばやく簡単に取得するための最初の方法を示しています。
from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)from ironpdf import PdfDocument
# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
# Check if the line contains the keyword "Name"
if 'Name' in line:
# Print the line if it contains the keyword
print(line)上記の例示コードは、FromFile関数を使用して既存のファイルパスからPDFを読み込み、PDFファイルオブジェクトに変換する方法を示しています。 その結果、このPDFリーダーオブジェクトを使用して、PDF内のテキストと画像を見ることができます。 オブジェクトのExtractAllText関数を使用してPDFからデータをプレーンテキストに抽出し、それを文字列に変換し、上記と同じロジックを使って特定のキーワードを見つけて結果をターミナルで表示します。 結果は次のように表示されます。
出力
上記のコード/出力は、指定されたPDFドキュメントに名前と年齢が含まれていることを示していますが、結果にはPDFドキュメント内にある名前のみが示されています。
結論
IronPDFライブラリは、脅威を減らしデータの安全性を確保するための強力なセキュリティメカニズムを提供します。 特定のブラウザに制限されておらず、すべての主要なブラウザと互換性があります。 数行のコードで、プログラマーはIronPDFを使用してPDFファイルを迅速に生成および読み取ることができます。 IronPDFライブラリは、開発者のさまざまなニーズに応じて、無料の開発者ライセンスや購入可能な追加の開発ライセンスを含むさまざまなライセンスオプションを提供します。
ライセンスのライトパッケージには、永続ライセンス、30日間の返金保証、1年間のソフトウェアメンテナンス、およびアップグレードオプションが含まれています。ライトパッケージ。 これらのライセンスはすべての環境で使用できます。 さらに、IronPDFは一部の再配布制限付きで無料ライセンスを提供しています。 試用ライセンスは、ユーザーが透かしなしで製品を評価できるようにします。
商業ライセンスについての詳細については、利用可能なIronPDFライセンスをご覧ください。
よくある質問
Pythonを使用してPDFから特定のテキストを抽出するにはどうすればよいでしょうか?
IronPDFのPythonライブラリを使用してPDFからテキストを抽出できます。ExtractTextFromPageを使用してページごとのテキストを抽出したり、ExtractAllTextを使用してドキュメント全体から抽出する機能を提供します。
PythonプロジェクトにIronPDFをセットアップする手順は何ですか?
.NET 6.0ランタイムがまだインストールされていない場合は、それを最初にインストールします。次に、PyCharmなどの開発環境にPythonをセットアップします。pip install ironpdfを実行してIronPDFをインストールし、プロジェクトにPDF機能を統合します。
IronPDFはDjangoやFlaskのようなフレームワークと互換性がありますか?
はい、IronPDFはDjangoやFlaskなどPythonのWeb開発フレームワークと良く統合し、WebアプリケーションでのPDF処理に多様なオプションを提供します。
PythonでIronPDFを使用するためのライセンスオプションは何ですか?
IronPDFは個人使用向けの無料開発者ライセンスや、追加の機能と利点を提供する様々な商用ライセンスを提供しています。
IronPDF for Pythonをインストールするにはどうすればいいですか?
端末またはコマンドプロンプトでpip install ironpdfコマンドを実行してpipパッケージマネージャーを使用してIronPDFをインストールします。
PythonでIronPDFを使用するのにおすすめの開発環境は何ですか?
PyCharmは、包括的な機能セットとPythonサポートのため、IronPDFを使用したPythonアプリケーションの開発におすすめの統合開発環境(IDE)です。
IronPDFのPythonライブラリの主な機能は何ですか?
IronPDF for Pythonは、HTMLからのPDF生成、画像のPDF変換、フォーム処理、テキストおよび画像の抽出、PDF統合などの機能を提供します。
IronPDFライブラリはPDFファイルを扱うのにどれくらい安全ですか?
IronPDFは堅牢なセキュリティ機能を備えて設計されており、PDFファイルを安全に扱うことを保証します。暗号化とパスワード保護をサポートして、機密情報を保護します。








