IRONPDF FOR PYTHONの使用

PythonでPDFファイルを解析する方法

更新済み 2024年9月28日
共有:

1.0 はじめに

現代のライブラリはPDF作成を効率化しました。 PDFプロジェクト用のライブラリを選ぶ際には、統合とパフォーマンスを最適化するために、ビルド、読み込み、変換機能を考慮してください。 Pythonは、既存のPDFを効率的に解析できるIronPDFのようなツールを提供しています。

2.0 IronPDF

Pythonは、開発者が迅速かつ容易にグラフィカルユーザーインターフェースを構築できるプログラミング言語です。 他の言語と比べてプログラマーにとってより大きなダイナミズムを提供します。 したがって、IronPDFライブラリをPythonに統合することは簡単なプロセスです。

迅速かつ安全に完全機能のGUIを構築するために、開発者は複数の事前インストールされたツール(PyQt、wxWidgets、Kivy、その他多数のパッケージやライブラリを含む)を活用できます。 注目すべき点として、IronPDFは純粋なPythonのPDFライブラリではありません。 代わりに、.NET Coreなどの他のフレームワークからのさまざまな機能を含めることができます。

IronPDFは、Django、Flask、PyramidのようなPythonウェブ開発パラダイムの人気のおかげで、Pythonウェブデザインおよび開発を簡素化します。 Reddit、Mozilla、Spotifyなどの注目すべきウェブサイトやオンラインサービスがこれらのフレームワークを利用しています。 IronPDFにおけるPythonについて詳しくはIronPDF for Python ウェブサイト.

IronPDFの特徴

  • IronPDFは対応できますPDFファイルの生成さまざまなソース、HTML、HTML5、ASPX、Razor/MVC Viewを含む。 HTMLページや画像からPDFを作成する機能を提供します。
  • IronPDFツールキットは、インタラクティブなPDFの作成などのタスクのためのさまざまなツールを提供しています。インタラクティブフォームの記入と送信, 分割以下のコンテンツを日本語に翻訳してください:マージするPDFファイル、テキストと画像を抽出するPDFファイルからPDFファイル内の特定の単語を検索するPDFページを画像にラスタライズするPDFをHTMLに変換する。
  • ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、およびシェイプ変数のサポートにより、IronPDFはHTMLログインフォームの検証を可能にします。
  • 保護されたドキュメントへのアクセスIronPDFでのアクセスは、ユーザー名とパスワードの使用によって許可されます。
  • IronPDFはPDFファイルの生成を支援し、Printing文字列、ストリーム、URLなど、さまざまなソースからわずか数行のコードで。

3.0 Pythonのセットアップ

3.1 環境セットアップ

PythonがPCにインストールされていることを確認してください。 ウェブサイトに訪問してください公式Pythonウェブサイトお使いのオペレーティングシステムに適した最新バージョンのPythonをダウンロードしてインストールしてください。 Pythonがインストールされたら、プロジェクトの依存関係を分離するために仮想環境を設定してください。 「venv」モジュールを使用して仮想環境を作成・管理し、変換プロジェクトにクリーンで独立した作業環境を提供します。

PyCharmでの新規プロジェクト

このデモンストレーションのために、Pythonコードを書くためのIDEであるPyCharmを使用します。

PyCharm IDEを起動したら、「New Project」をクリックしてください。

PythonでPDFファイルを解析する方法、図1:PyCharmのウェルカムスクリーン

PyCharmのウェルカム画面

「New Project」を選択すると、新しいウィンドウが表示され、プロジェクトの場所と環境を指定することができます。 この新しいウィンドウは、以下のスクリーンショットに表示されています。

PythonでPDFファイルを解析する方法、図2:PyCharmの新しいプロジェクト画面

PyCharmの新しいプロジェクト画面

プロジェクトの場所と環境パスを設定した後、Create ボタンをクリックして新しいプロジェクトを開始します。 これにより、プログラムを開発できる新しいウィンドウが開きます。 このチュートリアルはPython 3.9を推奨しています。

PythonでPDFファイルを解析する方法、図3:PyCharmで開かれたメインファイル

PyCharmで開かれているメインファイル

3.3 IronPDFライブラリ要件

PythonライブラリのIronPDFは、主に.NET 6.0に依存しています。したがって、IronPDF for Pythonを利用するには、お使いのPCに.NET 6.0ランタイムがインストールされている必要があります。 LinuxとMacのユーザーがこのPythonモジュールを使用する前に、.NETをインストールする必要があるかもしれません。 指定されたランタイム環境は、次の場所から取得できます。.NETウェブサイト.

3.4 IronPDF ライブラリのセットアップ

「ironpdf」パッケージをインストールする必要があります。「.pdf」拡張子のファイルを作成、編集、および開くためです。 PyCharmでパッケージをインストールするには、ターミナルウィンドウを開いて次のコマンドを入力してください:

pip install ironpdf

以下のスクリーンショットは「ironpdf」パッケージの設定を示しています。

PDFファイルをPythonで解析する方法、図4:pipを使用してIronPDFをインストールする様子を示すターミナル

pipを使用してIronPDFをインストールしているターミナル

IronPDF を使用して PDF を解析する

IronPDFライブラリを使用すると、PDFファイルからテキストを抽出することが可能です。 IronPDFは、テキスト抽出のためのさまざまな技術を提供します。 最初のアプローチは、ページ上のすべてのコンテンツを単一の文字列として取得することを含みます。 2番目のアプローチは、最初のページからページごとにコンテンツを読み取ることです。 次のコードスニペットは、IronPDFを使用して現在のPDFファイルを検査するためのパターンを示しています。

PDFからデータを抽出するために利用可能な方法は2つあります:

  1. ページごとにPDFから抽出します。

  2. PDF全文をテキストとして抽出する。

    以下は、この記事で使用するPDFファイルです。 それは二ページあります。

    PythonでPDFファイルを解析する方法、図5:各ページの上部にページ番号があるPDF

    各ページの上部にページ番号があるPDF

ページごとのテキスト抽出 4.0.1

以下に示すサンプルコードは、ページ番号を使用してPDFファイルからデータを取得する方法を説明しています。

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
PYTHON

このコードスニペットは、FromFile関数を使用してPDFファイルを読み込み、PDFドキュメントオブジェクトを作成する方法を示しています。 このオブジェクトはPDF内のテキストと画像へのアクセスを可能にします。 特定のページからテキストを抽出するには、ページ番号をパラメータとして指定して、ExtractTextFromPageメソッドを使用できます。 このメソッドは、指定されたページ上のすべての単語を含む文字列を返します。 出力は以下のように表示されます。

PythonでPDFファイルを解析する方法、図6:ターミナルでのテキスト出力「ページ1」のスクリーンショット

「Page 1」というテキスト出力のあるターミナルのスクリーンショット

結果にハイライトされた長方形ボックスは、PDFファイルのページ番号1から抽出されたデータテキストであり、インデックスは0です。

4.0.2 全ページから抽出

すべてのPDFコンテンツを文字列として迅速かつ簡単に取得する最初のアプローチは、以下のコード例で示しています。

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上記のサンプルコードは、既存のファイルパスからPDFを読み取り、それをFromFile関数を使用してPDFファイルオブジェクトに変換する方法を説明しています。 PDFのプレーンテキストはオブジェクトのExtractAllText関数を使用して抽出され、文字列に変換され、抽出されたテキストがターミナルに表示されます。 結果は以下のように表示されます。

PythonでPDFファイルを解析する方法、図7: Page 1 および Page 2 と表示されたテキスト出力のターミナルのスクリーンショット

「ページ 1」と「ページ 2」と表示されたターミナルのスクリーンショット

結果でハイライトされている矩形ボックスには、PDFファイルの全ページから抽出されたテキストデータが含まれています。

IronPDFを使用してC#でPDFを作成することができます。 IronPDF について詳しく知りたい場合は、次をご覧ください:IronPDFのウェブサイト.

結論 5.0

リスクを最小限に抑え、データ保護を確実にするために、IronPDFライブラリは強力なセキュリティ対策を提供します。 それは全ての一般的に使用されるブラウザと互換性があり、特定のブラウザに限定されません。 IronPDFは、プログラマーが少ないコード行でPDFファイルを簡単に作成および読み取りできるようにします。 開発者のさまざまなニーズに対応するために、IronPDFライブラリは、無料の開発者ライセンスと購入可能な追加の開発ライセンスなど、さまざまなライセンスオプションを提供しています。

$749 Liteパッケージには、永久ライセンス、30日間の返金保証、1年間のソフトウェアサポート、アップグレードの可能性が含まれています。 最初の購入以降、追加料金はかかりません。 本番環境、ステージング環境、開発環境のすべてでこれらのライセンスが使用されています。 IronPDFは、時間と再配布にいくつかの制限はありますが、無料ライセンスも提供しています。 無料試用期間中、ユーザーは透かしなしで製品を実際に使用してテストすることができます。 IronPDFの試用版の費用およびライセンスに関する詳細については、以下のページをご覧ください。IronPDFライセンスページ.

< 以前
PythonでPDFファイルを分割する方法
次へ >
PythonでPDFから請求書データを抽出する方法

準備はできましたか? バージョン: 2024.11.1 新発売

無料 pip インストール ライセンスを表示 >