IRONPDF FOR PYTHONの使用

PDFから行ごとにテキストを抽出する方法

チャクニット・ビン

2023年11月14日

更新済み 2024年9月28日

共有:

このガイドでは、IronPDFを使用してPythonでPDFドキュメントからテキストを逐次的に抽出する方法の詳細を説明します。 Python環境のセットアップから、PDFテキスト抽出のための最初のPythonプログラムの実行まで、すべてをカバーします。

PDFから1行ごとにテキストを抽出する方法

Pythonを使用してPDFファイルからテキストを抽出するためのPDFライブラリをダウンロードしてインストールします。
お好みのIDEでPythonプロジェクトを作成します。
指定されたPDFファイルを読み込み、テキスト内容を取得します。
組み込みライブラリの関数を使用してPDFをループし、テキストを順次抽出します。
抽出したテキストをファイルに保存する。

IronPDF PDF Pythonライブラリ

IronPDF は、PythonでPDFファイルを操作できる便利なツールです。 PDFファイルの読み取り、作成、および編集をより便利にする役立つアシスタントと考えてください。 PDFドキュメントからコンテンツを抽出したり、新しい情報を追加したり、ウェブページをPDF形式に変換したりする場合、IronPDFは包括的なソリューションを提供します。有料のソフトウェアパッケージですが、購入を決定する前に試用版を利用して探索することができます。

スクリプトに取り掛かる前に、Python環境をセットアップすることが重要です。このステップバイステップガイドは、環境を設定し、Visual Studio Codeで新しいPythonプロジェクトを作成し、IronPDFライブラリの環境設定を行うのに役立ちます。

Pythonのダウンロードとインストール: Pythonをインストールしていない場合は、公式のPythonウェブサイトから最新のリリースをダウンロードしてください。特定のオペレーティングシステムに合わせたインストール手順に従ってください。

Pythonのインストールを確認: ターミナルまたはコマンドプロンプトを開き、python --versionと入力します。このコマンドは、インストールされているPythonのバージョンを表示し、インストールが成功したことを確認するはずです。

pipを更新: pipはPythonのパッケージインストーラーです。 pip install --upgrade pipを実行して最新の状態にしてください。

Visual Studio Codeで新しいPythonプロジェクトを作成する

Visual Studio Code をダウンロード: まだお持ちでない場合は、公式ウェブサイトからダウンロードしてください。

Python 拡張機能をインストール: Visual Studio Code を開き、拡張機能マーケットプレイスに移動します。 MicrosoftによるPython拡張機能を検索してインストールします。

新しいフォルダを作成: Pythonプロジェクトを配置したい場所に新しいフォルダを作成します。何か関連する名前、例えばPDF_Text_Extractorを付けてください。

VS Codeでフォルダーを開く: フォルダーをVisual Studio Codeにドラッグするか、ファイル > フォルダーを開く メニューオプションを使用してフォルダーを開きます。

Pythonファイルの作成: VS Codeエクスプローラーパネルで右クリックし、新しいファイルを選択します。ファイルの名前をmain.pyまたはそれに似たものにしてください。このファイルにはあなたのPythonプログラムが格納されます。

PDFからテキストを1行ずつ抽出する方法、図1: Visual Studio Codeで新しいPythonファイルを作成する

Visual Studio Codeで新しいPythonファイルを作成

IronPDFライブラリの要件とセットアップ

IronPDFは、PDFからテキストコンテンツを取得するために不可欠です。インストール方法は次のとおりです:

VS Codeでターミナルを開く：Terminal > New Terminalに移動して、VS Code内でターミナルを開くことができます。

IronPDFのインストール: ターミナルで次のコマンドを実行して、IronPDFの最新バージョンをインストールします。

`pip install ironpdf`

このプロセスは、必要なモジュールと共に、IronPDFライブラリを取得してインストールします。

PDFから1行ずつテキストを抽出する方法、図2: IronPDFパッケージをインストール

IronPDFパッケージをインストールする

これで完了です！ Python環境の設定が完了し、Visual Studio Codeで新しいプロジェクトを作成し、IronPDFライブラリをインストールしました。

PDFから行ごとにテキストを抽出

ライセンスキーの適用

続行する前に、IronPDFライセンスキーを適用してください。

from ironpdf import PdfDocument

License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

py

PYTHON

YOUR-LICENSE-KEY-HERE を実際の IronPDF ライセンスキーに置き換えてください。このライセンスは、プロジェクトのすべてのライブラリ機能をアンロックすることを可能にします。

PDFファイル形式の読み込み

既存のPDFファイルをPythonプログラムにロードする必要があります。これはIronPDFのPdfDocument.FromFileメソッドを使用して達成できます。

pdfFileObj = PdfDocument.FromFile("content.pdf")

py

PYTHON

「content.pdf」は、読みたいPDFファイルを指します。この読み込まれたPDFファイルは、pdfFileObj変数に保存され、PDFリーダーまたはPDFファイルオブジェクトpdfFileObjとして使用されます。

PDF文書全体からのテキスト抽出

PDFファイルからすべてのテキストデータを一度に取得したい場合は、ExtractAllText メソッドを使用できます。

all_text = pdfFileObj.ExtractAllText()

py

PYTHON

ここではデモンストレーションのためにExtractAllTextメソッドが使用されています。このメソッドはPDFファイルからすべてのテキストを抽出し、all_textという変数に保存します。

特定のPDFページからテキストを抽出

IronPDFは、ExtractTextFromPage メソッドを使用して特定のページからテキスト抽出を可能にします。このメソッドは、一部のページからのみテキストが必要な場合に便利です。

page_2_text = pdfFileObj.ExtractTextFromPage(1)

py

PYTHON

ここでは、インデックス1に対応する2ページ目からテキストを抽出しています。

抽出したテキストの書き込み用にテキストファイルを初期化する

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:

py

PYTHON

「extracted_text.txt」という名前のファイルを開いて、テキストデータを保存します。 Pythonの組み込み関数openは、ファイルモードを「書き込み」("w")に設定して使用されます。ただし、open 関数の引数として encoding='utf-8' を追加します。この機能は、あなたが直面しているようなUnicode文字をテキストドキュメントが処理できるようにするはずです。

各ページをループして行ごとにテキストを抽出

for i in range(0, pdfFileObj.get_Pages().Count):

py

PYTHON

上記のコードは、IronPDF の get_Pages().Count を使用して PDF ファイル内の各ページをループし、ページの総数を取得します。

テキストの抽出および行への分割

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')

py

PYTHON

各ページについて、ExtractTextFromPage メソッドを使用してすべてのテキストを取得し、その後に Python の split メソッドを使用して行に分割します。これにより、繰り返し処理できる行のリストが生成されます。

テキストファイルに抽出された行を書き込む

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')

py

PYTHON

ここでは、コードが行のリスト内の各行を反復処理し、それをコンソールに出力し、各行の後に改行文字（\n）を追加して、このテキストを適切にフォーマットしてファイルに書き込みます。

完全なコード

以下が包括的な実装です：

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
    # Print number of pages in PDF file print count of pages present in PDF file
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):

        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each eachline to the console
            # Write each line to the text documents
            text_file.write(eachline + '\n')

py

PYTHON

出力

Visual Studio Codeのターミナルで以下のコマンドを書いてPythonファイルを実行します:

python main.py

python main.py

SHELL

この結果はターミナル上に表示されます:

PDFから行ごとにテキストを抽出する方法、図3：抽出されたテキスト

抽出されたテキスト

これはPDFファイルから取得されたテキストです。また、ディレクトリに作成されたテキストドキュメントがあることも確認できます。

PDFから行ごとにテキストを抽出する方法、図4: 抽出されたテキストがTXTファイルに保存される

TXTファイルに保存された抽出テキスト

このテキストファイルには、取得されたテキスト形式が順次表示されています。

PDFからテキストを行ごとに抽出する方法、図5: 抽出されたテキストファイルの内容

抽出されたテキストファイルの内容

結論

結論として、PDFファイルからテキストを抽出するためにIronPDFとPythonを使用することは、ドキュメント全体、特定のページ、さらには行ごとにテキストを抽出する場合でも、強力で簡単なアプローチです。この抽出されたテキストをテキストファイルに保存するという付加的なメリットにより、データを効率的に管理し、将来の処理に活用することができます。 IronPDFは、PDFの処理において非常に価値のあるツールであり、単なるテキスト抽出を超えたさまざまな機能を提供します。 IronPDFを使用してPythonでPDFをテキストに変換することもできます。

さらに、インタラクティブなPDFの作成、インタラクティブフォームの記入と提出、PDFファイルのマージや分割、テキストと画像の抽出、PDFファイル内のテキストの検索、PDFを画像にラスタライズ、フォントサイズ、境界線および背景色の変更、PDFファイルの変換はすべてIronPDFツールキットで可能なタスクです。

IronPDFはオープンソースのPythonライブラリではありません。 IronPDFをプロジェクトで使用することを検討している場合、パッケージのライセンスは$749から始まります。しかし、投資についての明確な情報が必要な場合、IronPDF はその機能を徹底的に探索するための無料試用版を提供しています。

PDFから行ごとにテキストを抽出する方法、図6: ライセンスページ