IRONPDF FOR PYTHONの使用

PythonでPDFからテキストを抽出する方法

更新済み 2024年9月21日
共有:

この記事では、PythonでIronPDFを使用してPDFファイルからすべてのテキストを抽出する方法を示し、このタスクを効率的に達成するための知識とPythonコードスニペットを提供します。

IronPDF - Python ライブラリ

IronPDF for Pythonは、開発者がPDF文書からテキストを抽出できる強力なPython PDFライブラリです。 IronPDFを使用すると、PDFファイルからテキストコンテンツのデータ抽出部分を自動化し、PDFドキュメントに含まれる情報を処理して分析するのが容易になります。

IronPDFは、Pythonプログラマーに対して、Pythonを使用してPDFファイルを操作し、データを抽出し、PDFファイルと相互作用する能力を提供します。これにより、さまざまなPDF関連のタスクを自動化することが容易になります。 PDFを生成する、既存のPDFを修正する、画像を抽出してコンテンツからデータを抽出する、その他のPDF操作を行う必要がある場合、IronPDFはその直感的なAPIと強力な機能によりプロセスを簡素化します。

主な機能

IronPDF for Pythonライブラリのいくつかの特徴は以下の通りです:

IronPDFを利用することで、開発者は簡単にPDFファイルを生成、操作、テキスト抽出、暗号化、そして共有することができます。IronPDF for .NETやIronPDF for Pythonなどの異なるバージョンも提供されています。

また、IronOCRを使用すると、開発者は画像やPDFからテキストを抽出することができます。IronOCRは.NET環境で特に強力な機能を発揮します。

さらに、IronXLはExcelファイルを読み書きするための強力なライブラリです。IronXL for .NETを使えば、簡単にスプレッドシートの作成と管理を行うことができます。

IronBarcodeは、バーコードの生成と読み取りを簡単にします。IronQRも同様に、QRコードの生成と読み取りをサポートします。

IronZIPを使うことで、圧縮ファイルの操作を簡単に行うことができ、IronWordはWordドキュメントの生成や編集を効率化します。

IronPrintとIronWebScraperも含め、Iron Suiteの各ソフトウェアツールは開発者の生産性を高めるために設計されています。

Iron Softwareが提供する各ソフトウェアにはLite LicenseからUnlimited Licenseまで複数のライセンスオプションがあり、それぞれのニーズに応じた選択が可能です。](/python/how-to/python-merge-pdf/)PDFファイル

前提条件

IronPDFを使用してテキスト抽出を行う前に、以下の前提条件を確認してください:

  1. Pythonのインストール: システムにPythonがインストールされていることを確認してください。 IronPDFはPython 3.xバージョンと互換性があるため、互換性のあるPythonのインストールを確保してください。

  2. IronPDFライブラリ: Pythonパッケージマネージャーであるpipを使用してIronPDFライブラリをインストールします。 コマンドラインインターフェイスを開き、次のコマンドを実行してください:
    :ProductInstall

注意: pipコマンドを使用するには、PythonをPATH環境変数に追加する必要があります。

  1. 統合開発環境(IDE (統合開発環境)(統合開発環境))IDEを使用することは必須ではありませんが、開発体験を大幅に向上させることができます。 コード補完、デバッグ、およびよりスムーズなワークフローのような機能を提供します。 Python開発向けの人気のIDEの一つはPyCharmです。 JetBrains のウェブサイトから PyCharm をダウンロードしてインストールすることができます。[https://www.jetbrains.com/pycharm/**](https://www.jetbrains.com/pycharm/).

  2. テキストエディター: また、軽量なテキストエディターを好む場合は、Visual Studio Code、Sublime Text、Atomなど、お好みのテキストエディターを使用できます。 これらのエディターは、Python開発のための構文ハイライトやその他の便利な機能を提供します。 Python独自のIDLEアプリを使用することもできます。

PyCharmを使用してPythonプロジェクトを作成する

PyCharm IDEをインストールしたら、以下の手順に従ってPyCharm Pythonプロジェクトを作成します:

  1. PyCharm を起動: システムのアプリケーションランチャーまたはデスクトップショートカットから PyCharm を開いてください。

  2. 新しいプロジェクトを作成する: 「Create New Project」をクリックするか、既存のPythonプロジェクトを開きます。

    PythonでPDFをテキストに変換する方法(チュートリアル)、図1:PyCharm IDE

    PyCharm IDE

  3. プロジェクト設定を構成: プロジェクトに名前を付け、プロジェクトディレクトリを作成する場所を選択します。 プロジェクト用のPythonインタープリターを選択します。 次に、「作成」をクリックします。

    PythonでPDFをテキストに変換する方法(チュートリアル)、図2:Pycharmで新しいPythonプロジェクトを作成する

    Pycharm で新しい Python プロジェクトを作成する。

  4. ソースファイルを作成する: PyCharmはプロジェクト構造を作成します。これにはメインのPythonファイルと追加のソースファイル用ディレクトリが含まれます。 コードを書き始め、「実行」ボタンをクリックするか、Shift+F10を押してスクリプトを実行します。

Pythonを使用してIronPDFでPDFからテキストを抽出する

それでは、Pythonプログラミング言語でIronPDFを使用してPDFファイルからプレーンテキストを抽出する手順について見ていきましょう。

必要なライブラリをインポートする

はじめに、必要なライブラリをPythonスクリプトにインポートします。 この場合、コードサンプルはPDFファイルを扱う機能を提供するIronPDFライブラリをインポートする必要があります。

import ironpdf
PYTHON

ライセンスキーを設定する

PDFファイルから全文を抽出するためには、IronPDFを使用する必要がありますが、そのためにはIronPDFのライセンスが必要です。 次のコマンドを使用して、ライセンスまたはトライアルキーを適用します:

# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

注意: ライセンスキーがない場合、IronPDFのデータ抽出はPDF拡張ファイルから数文字のみに制限されます。ライセンスキーの入手方法IronPDFの購入または、サインアップして無料試用.

PDFドキュメントを読み込む

次に、PdfDocument.FromFileを使用してPDFファイルを読み込みます。()IronPDFのメソッド。 このメソッドに引数としてPDFファイルのパスを指定してください。 これはPDFファイルをPdfDocument` オブジェクトに読み込みます。

pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")
PYTHON

入力ファイル

入力PDFファイルからテキストを抽出して画面に印刷するには、次の文書を使用します:

PythonでPDFをテキストに変換する方法(チュートリアル)、図3:入力ファイル

**入力ファイル

PDFファイルからテキストを抽出する

PDFドキュメントが読み込まれると、ExtractTextメソッドを使用してテキストコンテンツを抽出できます。 このメソッドは抽出されたテキストを文字列として返します。

text = pdf.ExtractText()
PYTHON

抽出されたテキストを処理および利用する

PDFからテキストを抽出したので、必要に応じてそれを処理および利用することができます。 テキストの解析、分析、データベースへの保存、またはさらにデータ処理のために使用するなどのタスクを実行できます。

# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text
PYTHON

出力

PythonでPDFをテキストに変換する方法(チュートリアル)、図4:コンソールから抽出されたテキスト

**コンソールから抽出したテキスト

PDFファイルの特定のページからテキストを抽出

IronPDFはまた、PDFファイル内の特定のページからテキストを抽出する便利な方法を提供します。このセクションではIronPDFが提供する ExtractTextFromPage メソッドを使って特定のページからテキストを抽出する方法を探ります。

以下のコードは、特定のページからテキストを抽出する方法を示しています:

# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)
PYTHON

上記のサンプルコードでは、pdf はPDFドキュメントを読み込んだ後に得られる PdfDocument オブジェクトを表しています。 ExtractTextFromPage()メソッドは、引数として渡されたページインデックスで示された特定のページからテキストを抽出するために使用されます。 この場合、テキストは、ページインデックス1に対応する2ページ目またはページ番号2から抽出されます。

PythonでPDFをテキストに変換する方法(チュートリアル)、図5:2ページからテキストを抽出する

**2ページ目より抜粋

結論

この記事では、PythonでIronPDFを使ってPDFファイルからテキストを抽出する方法について説明しました。 必要なライブラリのインポート、PDFドキュメントの読み込み、テキストコンテンツの抽出、抽出したテキストの処理など、必要なステップを網羅しました。

IronPDF の強力なテキスト抽出機能を使用すると、PDF からのテキストの抽出とその後の処理を自動化でき、PDF 文書内のテキスト情報を簡単に処理および分析することができます。 それの直感的なAPIと広範な機能により、Python開発における幅広いPDF関連のタスクに最適な選択となります。

IronPDFは開発目的で無料ですが、商業利用にはライセンスが必要です。 本番モードでテストに使用するためには、無料試用. 最新版をダウンロードしてインストールしてくださいIronPDF for Pythonそしてお試しください。

< 以前
PythonでURLからPDFをダウンロードする方法
次へ >
PythonでPDFファイルを表示する方法

準備はできましたか? バージョン: 2024.11.1 新発売

無料 pip インストール ライセンスを表示 >