透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
この記事では、IronPDF for Pythonライブラリの助けを借りてPDFドキュメントからテキスト要素を抽出する方法を示します。
Pythonは、開発者がグラフィカル・ユーザー・インターフェースを簡単かつ迅速に作成できるプログラミング言語です。 他の言語と比較して、Pythonはプログラマーにとってもはるかに動的です。 そのため、IronPDFライブラリをPythonに追加するのは簡単なプロセスです。 多くの事前インストール済みツールには、PyQt、wxWidgets、Kivy、およびその他の多数のパッケージやPythonライブラリが含まれており、完全なGUIを迅速かつ安全に構築することができます。 IronPDFはPythonを組み込み、.NET Coreのような他のフレームワークの機能も統合することができます。
IronPDFはウェブ開発をより簡単にします。 これの主な理由は、Django、Flask、PyramidのようなPythonウェブ開発パラダイムの広範な採用です。 Reddit、Mozilla、Spotifyをはじめとするいくつかのウェブサイトやオンラインサービスがこれらのフレームワークを使用しています。
Pythonがコンピューターに設定されていることを確認してください。 お使いのオペレーティングシステムに対応した最新バージョンのPythonをダウンロードしてインストールするには、公式Pythonウェブサイトにアクセスしてください。 Pythonがインストールされたら、プロジェクトの要件を分離するために仮想環境を作成してください。 venv
モジュールを使用して、変換プロジェクトに整然とした独立した作業環境を提供し、仮想環境を作成および管理します。
このデモでは、Pythonコードを開発するためのIDEとしてPyCharmを推奨します。
PyCharm IDEを起動した後、「New Project」を選択します。
PyCharm
新規プロジェクト」を選択すると新しいウィンドウが開き、プロジェクトの場所と環境を設定できます。 以下の画像に表示されているかもしれません。
新規プロジェクト
プロジェクトの場所と環境パスを選択した後、作成 ボタンをクリックして新しいプロジェクトを開始します。 その結果として開く新しいウィンドウでプログラムを作成することができます。 このレッスンでは、Python 3.9を使用しています。
Pythonプロジェクトを作成
PythonライブラリIronPDFは主に.NET 6.0を使用しています。そのため、IronPDF for Pythonを使用するには.NET 6.0ランタイムがコンピューターにインストールされている必要があります。 LinuxおよびMacユーザーがこのPythonモジュールを使用する前に、.NETをインストールする必要があるかもしれません。 必要なランタイム環境を入手するには、Microsoftのダウンロードページをご覧ください。
".pdf"拡張子のファイルを生成、修正、および開くためには、"ironpdf"パッケージをインストールする必要があります。 ターミナルウィンドウを開き、次のコマンドを入力してPyCharmにパッケージをインストールします:
:PackageInstall
:PackageInstall
以下のスクリーンショットは、ironpdf
パッケージのインストールを示しています。
IronPDF のインストール
IronPDFライブラリの助けを借りてPDFファイルからテキストを抽出することが可能です。 IronPDF は、さまざまなテキスト抽出方法を提供します。 最初の方法は、ページ全体のコンテンツを1つの文字列として取得することです。 第二の戦略は、最初のページから始めて、ページごとにコンテンツを見直すことです。 既存のPDFファイルは、IronPDFライブラリを使用して調査することができます。 以下のコードスニペットは、IronPDFを使用してライブPDFファイルを検査する方法を示しています。
PDFから情報を抽出するには、2つのオプションがあります:
PDFからのページ単位の抽出
PDF全体をテキストに変換
この記事のサンプルPDFファイルは以下から入手可能です。
入力PDF
以下のサンプルコードは、ページ番号を使用してPDFファイルからデータを取得する方法を示しています。
from ironpdf import *
# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
py
このコードスニペットは、FromFile
関数を使用してPDFファイルを読み込み、PDFオブジェクトを作成する方法を示しています。 このオブジェクトは、PDFのテキストと画像にアクセスするために使用することができます。 ExtractTextFromPage
関数にページ番号をパラメーターとして渡すことで、特定のページからテキストを取得できます。 このメソッドによって、選択したページ上の全ての単語を含む文字列が返されます。 その後、Pythonでsplit
関数を使用して、抽出されたテキストからすべての改行を分割します。 その後、抽出したテキストの各行に必要なキーワードが含まれているかどうかを確認します。 キーワードが一致すると、コマンドプロンプトに特定の行が表示されます。 その行を無視して次の行に進みます。テキスト抽出の出力は以下のように表示されます。
以下のコードサンプルは、すべてのPDFコンテンツを文字列として迅速かつ簡単に取得するための最初の方法を示しています。
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
py
上記のコード例では、FromFile
関数を使用して既存のファイルパスからPDFを読み込み、それをPDFファイルオブジェクトに変換する方法を示しています。 その結果、このPDFリーダーオブジェクトを使用して、PDF内のテキストと画像を見ることができます。 オブジェクトのExtractAllText
関数は、PDFからデータをプレーンテキストとして抽出し、それを文字列に変換し、指定されたキーワードを見つけるために上記と同様のロジックを使用してターミナルに結果を表示します。 結果は以下のように表示されます。
出力
上記のコード/出力は、指定されたPDFドキュメントに名前と年齢の両方が含まれていることを示していますが、結果にはPDFドキュメントに含まれている名前のみが表示されています。
IronPDFライブラリは、脅威を減少させ、データの安全性を保証するために強力なセキュリティメカニズムを提供します。 それは特定のブラウザに限定されず、広く使用されているすべてのブラウザと互換性があります。 コードを数行書くだけで、プログラマーはIronPDFを使用してPDFファイルを迅速に作成および読み取ることができます。 IronPDFライブラリは、開発者の多様なニーズに応えるために、無料の開発者ライセンスと、購入可能な追加の開発ライセンスを含む様々なライセンスオプションを提供しています。
永続ライセンス、30日間の返金保証、1年間のソフトウェア保守、アップグレードオプションがLiteパッケージに含まれています。 これらのライセンスは、あらゆる環境で使用できます。 さらに、IronPDFは、一部の再配布制限がある無料ライセンスを提供しています。 トライアルライセンスは、ユーザーがウォーターマークなしで製品を評価することを可能にします。
商用ライセンスについての詳細は、利用可能なIronPDFライセンスをご覧ください。