PYTHON用IRONPDFの使用

PDFから行ごとにテキストを抽出する方法

更新済み 11月 14, 2023
共有:

PDFドキュメントからテキストを抽出することは、開発者が頻繁に直面するタスクです。 PDFファイルは、プラットフォームに依存せず、固定レイアウトのフォーマットを持つため、文書の共有に人気があります。 しかし、これらのPDFファイルからプログラムでテキストを読み取るのは難しい場合があります。 Pythonのおかげで、多くのライブラリが利用可能となり、この作業が非常に簡単になっています。 IronPDFは、PDF操作専用に設計された人気のPythonライブラリの一つです。

このガイドでは、IronPDFを使用してPythonでPDFドキュメントからテキストを逐次的に抽出する方法の詳細を説明します。 Python環境の設定から、PDFテキストの抽出のための最初のPythonプログラムの実行まで、すべてをカバーします。

PDFから1行ごとにテキストを抽出する方法

  1. Pythonを使用してPDFファイルからテキストを抽出するためのPDFライブラリをダウンロードしてインストールします。

  2. お好みのIDEでPythonプロジェクトを作成します。

  3. 指定されたPDFファイルを読み込み、テキスト内容を取得します。

  4. 組み込みライブラリの関数を使用してPDFをループし、テキストを順次抽出します。

  5. 抽出したテキストをファイルに保存する。

IronPDF PDF Pythonライブラリ

IronPDF は、PythonでPDFファイルを操作できる便利なツールです。 PDFファイルの読み取り、作成、および編集をより便利にする役立つアシスタントと考えてください。 PDFドキュメントからコンテンツを抽出したり、新しい情報を追加したり、ウェブページをPDF形式に変換したりする場合、IronPDFは包括的なソリューションを提供します。 有料のソフトウェアパッケージですが、購入を決定する前に試用版を利用して探索することができます。

スクリプトに取り掛かる前に、Python環境をセットアップすることが重要です。 このステップバイステップガイドは、環境を設定し、Visual Studio Codeで新しいPythonプロジェクトを作成し、IronPDFライブラリの環境設定を行うのに役立ちます。

Pythonのダウンロードとインストール: もしPythonをインストールしていない場合は、最新のリリースを次のサイトからダウンロードしてください: 公式Pythonウェブサイト. 特定のオペレーティングシステムに合わせたインストール手順に従ってください。

Pythonのインストールを確認する:ターミナルまたはコマンドプロンプトを開き、python --version と入力します。 このコマンドは、インストールされているPythonのバージョンを表示し、インストールが成功したことを確認するはずです。

Pipの更新: PipはPythonのパッケージインストーラです。 最新の状態にするには、pip install --upgrade pipを実行してください。

Visual Studio で新しい Python プロジェクトを作成する

Visual Studio Codeをダウンロードする: まだお持ちでなければ、こちらからダウンロードしてください 公式ウェブサイト.

Python拡張機能のインストール: Visual Studio Codeを開き、拡張機能マーケットプレイスに移動します。 MicrosoftによるPython拡張機能を検索してインストールします。

新しいフォルダーの作成: Pythonプロジェクトを格納する新しいフォルダーを作成します。 それに適した名前を付けて、例えば PDF_Text_Extractor としてください。

フォルダーをVS Codeで開く: フォルダーをVisual Studio Codeにドラッグするか、ファイル > フォルダーを開くメニューオプションを使用してフォルダーを開きます。

Pythonファイルを作成する: VS Codeエクスプローラーパネルで右クリックし、New Fileを選択します。 ファイルの名前を main.py またはそれに類似したものにしてください。 このファイルにはあなたのPythonプログラムが格納されます。

PDFから1行ごとにテキストを抽出する方法: 図1

IronPDFライブラリの要件とセットアップ

IronPDFは、PDFからテキストコンテンツを取得するために不可欠です。 インストール方法は次のとおりです:

VS Codeでターミナルを開く: ターミナル > 新しいターミナルに進むと、VS Code内でターミナルを開くことができます。

IronPDFのインストール: ターミナルで以下のコマンドを実行して、最新バージョンのIronPDFをインストールします:

 `pip install ironpdf`

このプロセスは、必要なモジュールと共に、IronPDFライブラリを取得してインストールします。

PDFから行ごとにテキストを抽出する方法: 図2

以上で完了です。! Python環境の設定が完了し、Visual Studio Codeで新しいプロジェクトを作成し、IronPDFライブラリをインストールしました。

PDFから行ごとにテキストを抽出

ライセンスキーの適用

続行する前に、IronPDFライセンスキーを適用してください。

from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

「YOUR-LICENSE-KEY-HERE」を実際のIronPDFライセンスキーに置き換えてください。 このライセンスは、プロジェクトのすべてのライブラリ機能をアンロックすることを可能にします。

PDFファイル形式の読み込み

既存のPDFファイルをPythonプログラムにロードする必要があります。 IronPDFのPdfDocument.FromFileメソッドを使用してこれを実現できます。

pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

「content.pdf」は、読みたいPDFファイルを指します。 このロードされたPDFファイルは、PDFリーダーまたはPDFファイルオブジェクト pdfFileObj として使用される pdfFileObj 変数に保存されます。

PDF文書全体からのテキスト抽出

PDFファイルからすべてのテキストデータを一度に取得したい場合は、ExtractAllTextメソッドを使用できます。

all_text = pdfFileObj.ExtractAllText()
PYTHON

ExtractAllText メソッドは、ここではデモンストレーションの目的で使用されています。 このメソッドはPDFファイルからすべてのテキストを抽出し、それを all_text という変数に保存します。

特定のPDFページからテキストを抽出

IronPDFは、ExtractTextFromPageメソッドを使用して特定のページからテキストを抽出することができます。 このメソッドは、一部のページからのみテキストが必要な場合に便利です。

page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

ここでは、インデックス1に対応する2ページ目からテキストを抽出しています。

抽出したテキストの書き込み用にテキストファイルを初期化する

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

「extracted_text.txt」という名前のファイルを開き、テキストデータを保存します。 これにはPythonの組み込み関数openを使用し、ファイルモードを「書き込み」に設定します。 (「w」は日本語でもそのまま使用されます。). open 関数に引数として encoding='utf-8' を追加するだけです。 この機能は、あなたが直面しているようなUnicode文字をテキストドキュメントが処理できるようにするはずです。

各ページをループして行ごとにテキストを抽出

for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

私たちは、IronPDF の get_Pages を使用して PDF ファイル内の各ページをループします。()「.Count」を使用して総ページ数を取得します。

テキストの抽出および行への分割

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

各ページについて、ExtractTextFromPage を使用してすべてのテキストを取得し、次に Python の split メソッドを使用して行に分割します。 これは、ループ処理できる行のリストを生成します。

テキストファイルに抽出された行を書き込む

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

こちらでは、行のリストの各行を反復処理し、ドキュメントコンソールに出力してファイルに書き込みます。改行文字を追加します。 (以下の内容を日本語に翻訳してください:

\nという表現の"\n"は改行を表す記号として理解しました。では、具体的な文章を提供してください。) 行ごとに改行して、このテキストを適切にフォーマットします。

完全なコード

以下が包括的な実装です:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
    # Print number of pages in pdf file print count of pages present in pdf file
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):

        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each eachline to the console
            text_file.write(eachline + '\n')  # Write each line to the text documents
PYTHON

出力

Visual Studio Codeのターミナルで以下のコマンドを書いてPythonファイルを実行します:

python main.py

この結果はターミナル上に表示されます:

PDFから行ごとにテキストを抽出する方法: 図3

これはPDFファイルから取得されたテキストです。また、ディレクトリに作成されたテキストドキュメントがあることも確認できます。

PDFから行ごとにテキストを抽出する方法: 図4

このテキストファイルには、取得されたテキスト形式が順次表示されています。

PDFから行ごとにテキストを抽出する方法:図5

結論

結論として、PDFファイルからテキストを抽出するためにIronPDFとPythonを使用することは、ドキュメント全体、特定のページ、さらには行ごとにテキストを抽出する場合でも、強力で簡単なアプローチです。この抽出されたテキストをテキストファイルに保存するという付加的なメリットにより、データを効率的に管理し、将来の処理に活用することができます。 IronPDFは、PDFの処理において非常に価値のあるツールであり、単なるテキスト抽出を超えたさまざまな機能を提供します。 また PythonでPDFをテキストに変換 IronPDFを使用する。

IronPDFはオープンソースのPythonライブラリではありません。 IronPDFをプロジェクトで使用することを検討している場合、パッケージのライセンスは$liteLicenseから開始します。 ただし、投資に対してご不明な点がある場合は、IronPDFが提供する 無料試用 その機能を徹底的に調査するために。

PDFから行ごとにテキストを抽出する方法: 図6

< 以前
PythonでPDFからデータを抽出する方法
次へ >
IronPDF を使用して Python で簡単に PDF に注釈を付ける方法

準備はできましたか? バージョン: 2024.9 新発売

無料 pip インストール View Licenses >