PYTHON用IRONPDFの使用

PythonでPDFファイルを解析する方法

更新済み 9月 13, 2023
共有:

1.0 はじめに

ポータブルドキュメントフォーマット (PDF)Adobeによって開発されたPDF形式は、文書共有時にテキストの整合性を保ち、美麗な情報を保持するために不可欠です。 通常、オンラインのPDFファイルにアクセスするには特定のプログラムが必要です。 最近では、多くの重要なデジタル出版物にPDFファイルが必要です。 多くの企業は、プロフェッショナルな文書や請求書の作成にPDFファイルを使用しています。 さらに、開発者はクライアントの特定の要件を満たすために、しばしばPDFドキュメント生成ライブラリを使用します。

現代のライブラリの開発によって、PDFの作成プロセスが簡素化されました。 プロジェクトにおけるPDF作成のために適切なライブラリを選択する際、スムーズな統合と最適なパフォーマンスを実現するために、ビルド、読み取り、および変換機能を考慮することが重要です。 Pythonを使用すると、既存のPDFを解析できます。

2.0 IronPDF

Pythonは、開発者が迅速かつ容易にグラフィカルユーザーインターフェースを構築できるプログラミング言語です。 他の言語と比べてプログラマーにとってより大きなダイナミズムを提供します。 したがって、IronPDFライブラリをPythonに統合することは簡単なプロセスです。

迅速かつ安全に完全機能のGUIを構築するために、開発者は複数の事前インストールされたツール(PyQt、wxWidgets、Kivy、その他多数のパッケージやライブラリを含む)を活用できます。 注目すべき点として、IronPDFは純粋なPythonのPDFライブラリではありません。 代わりに、Dot Net Coreのような他のフレームワークからさまざまな機能を含むことができます。

IronPDFは、Django、Flask、PyramidのようなPythonウェブ開発パラダイムの人気のおかげで、Pythonウェブデザインおよび開発を簡素化します。 Reddit、Mozilla、Spotifyなどの注目すべきウェブサイトやオンラインサービスがこれらのフレームワークを利用しています。 IronPDFにおけるPythonについて詳しくは IronPDF Python ウェブサイト.

IronPDFの特徴

  • IronPDFは、HTML、HTML5、ASPX、Razor/MVC ViewなどのさまざまなソースからPDFファイルを生成することができます。 HTMLページや画像からPDFを作成する機能を提供します。
  • IronPDFツールキットは、インタラクティブなPDFの作成、インタラクティブなフォームの入力および送信、PDFファイルの結合と分割、テキストおよび画像の抽出、PDFファイル内のテキストの検索、PDFの画像へのラスタライズ、フォントサイズの調整、およびPDFファイルの変換などのタスクのためのさまざまなツールを提供します。
  • ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、およびシェイプ変数のサポートにより、IronPDFはHTMLログインフォームの検証を可能にします。
  • IronPDFで保護されたドキュメントへのアクセスは、ユーザー名とパスワードを使用することで許可されます。

  • IronPDFは、文字列、ストリーム、URLなど様々なソースから数行のコードでPDFファイルの生成と印刷を手助けします。

3.0 Pythonのセットアップ

3.1 環境セットアップ

PythonがPCにインストールされていることを確認してください。 ウェブサイトに訪問してください 公式Pythonウェブサイト お使いのオペレーティングシステムに適した最新バージョンのPythonをダウンロードしてインストールしてください。 Pythonがインストールされたら、プロジェクトの依存関係を分離するために仮想環境を設定してください。 「venv」モジュールを使用して仮想環境を作成・管理し、変換プロジェクトにクリーンで独立した作業環境を提供します。

PyCharmでの新規プロジェクト

このデモンストレーションのために、Pythonコードを書くためのIDEであるPyCharmを使用します。

PyCharm IDEを起動したら、「New Project」をクリックしてください。

PythonでPDFファイルを解析する方法: 図1 - PyCharmのウェルカム画面。

「New Project(新規プロジェクト)」を選択すると、新しいウィンドウが表示され、プロジェクトの場所と環境を指定できます。 この新しいウィンドウは、以下のスクリーンショットに表示されています。

PythonでPDFファイルを解析する方法:図2 - PyCharmの新しいプロジェクト画面。

「Create」ボタンをクリックして、プロジェクトの場所と環境パスを設定した後、新しいプロジェクトを開始します。 これにより、プログラムを開発できる新しいウィンドウが開きます。 このチュートリアルでは、Python 3.9を使用しています。

PythonでPDFファイルを解析する方法:図3 - PyCharmで開いたメインファイル。

3.3 IronPDFライブラリ要件

IronPDFはPythonライブラリであり、主に.NET 6.0に依存しています。そのため、IronPDF Pythonを使用するには、PCに.NET 6.0ランタイムをインストールする必要があります。 LinuxおよびMacユーザーがこのPythonモジュールを使用する前に、.NETをインストールする必要がある場合があります。 指定されたランタイム環境は、次の場所から取得できます。 .NETウェブサイト.

3.4 IronPDFライブラリのセットアップ

「ironpdf」パッケージをインストールする必要があります。「.pdf」拡張子のファイルを作成、編集、および開くためです。 PyCharmでパッケージをインストールするには、ターミナルウィンドウを開いて次のコマンドを入力してください:

pip install ironpdf

以下のスクリーンショットは「ironpdf」パッケージの設定を示しています。

PythonでPDFファイルを解析する方法: 図4 - pipを使用してIronPDFをインストールするターミナルの表示。

IronPDF を使用して PDF を解析する

IronPDFライブラリを利用することで、PDFファイルからテキストを抽出することもできます。 IronPDFは、テキスト抽出のためのさまざまな技術を提供します。 最初のアプローチは、ページ上のすべてのコンテンツを単一の文字列として取得することを含みます。 2番目のアプローチは、最初のページからページごとにコンテンツを読み取ることです。 IronPDFライブラリを使用して、既存のPDFファイルを探索することができます。 次のコードスニペットは、IronPDFを使用して現在のPDFファイルを検査するためのパターンを示しています。

PDFからデータを抽出するために利用できる方法は2つあります。

  1. ページごとにPDFから抽出します。

  2. PDF全文をテキストとして抽出する。

    以下は、この記事で使用するPDFファイルです。 それは二ページあります。

    PythonでPDFファイルを解析する方法: 図5 - 各ページの上部にページ番号があるPDF。

ページごとのテキスト抽出 4.0.1

以下に示すサンプルコードは、ページ番号を使用してPDFファイルからデータを取得する方法を説明しています。

from ironpdf import *
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
PYTHON

このコードスニペットは、FromFile関数を使用してPDFファイルを読み込み、PDFドキュメントオブジェクトを作成する方法を示しています。 このオブジェクトにより、PDF内のテキストと画像にアクセスすることができます。 特定のページからテキストを抽出するには、ページ番号をパラメータとして提供してExtractTextFromPageメソッドを使用できます。 このメソッドは、指定されたページ上のすべての単語を含む文字列を返します。 出力は以下のように表示されます。

PythonでPDFファイルを解析する方法: 図6 - ターミナルのスクリーンショットで「Page 1」と表示されたテキスト出力。

結果にハイライトされた長方形ボックスは、PDFファイルのページ番号1から抽出されたデータテキストであり、インデックスは0です。

4.0.2 全ページから抽出

すべてのPDFコンテンツを文字列として迅速かつ簡単に取得する最初のアプローチは、以下のコード例で示しています。

# creating a pdf file object pdfFileObj 
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上記のサンプルコードは、既存のファイルパスからPDFを読み込み、FromFile関数を使用してそれをPDFファイルオブジェクトに変換する方法を説明しています。 PDFリーダーオブジェクトを使用して、PDFのテキストや画像をレスポンスとして表示することができます。 PDFのプレーンテキストはオブジェクトのExtractAllText関数を使用して抽出され、文字列に変換されます。抽出されたテキストはターミナルに表示されます。 結果は以下のように表示されます。

PythonでPDFファイルを解析する方法: 図7 - テキスト出力「Page 1」と「Page 2」が表示されているターミナルのスクリーンショット。

結果でハイライトされている矩形ボックスには、PDFファイルの全ページから抽出されたテキストデータが含まれています。

IronPDFを使用してC#でPDFを作成することができます。 IronPDF について詳しく知りたい場合は、次をご覧ください: IronPDFのウェブサイト.

結論 5.0

リスクを最小限に抑え、データ保護を確実にするために、IronPDFライブラリは強力なセキュリティ対策を提供します。 それは全ての一般的に使用されるブラウザと互換性があり、特定のブラウザに限定されません。 IronPDFは、プログラマーが少ないコード行でPDFファイルを簡単に作成および読み取りできるようにします。 開発者のさまざまなニーズに対応するために、IronPDFライブラリは、無料の開発者ライセンスと購入可能な追加の開発ライセンスなど、さまざまなライセンスオプションを提供しています。

$749 Liteパッケージには、永久ライセンス、30日間の返金保証、1年間のソフトウェアサポート、アップグレードの可能性が含まれています。 最初の購入以降、追加料金はかかりません。 本番環境、ステージング環境、開発環境のすべてでこれらのライセンスが使用されています。 IronPDFは、時間と再配布にいくつかの制限はありますが、無料ライセンスも提供しています。 無料試用期間中、ユーザーは透かしなしで製品を実際に使用してテストすることができます。 IronPDFの試用版の費用およびライセンスに関する詳細については、以下のページをご覧ください。 IronPDFのウェブサイト.

< 以前
PythonでPDFファイルを分割する方法
次へ >
PythonでPDFから請求書データを抽出する方法

準備はできましたか? バージョン: 2024.9 新発売

無料 pip インストール View Licenses >