IRONPDF FOR PYTHONの使用

PythonでPDFをテキストに変換する方法(チュートリアル)

リーガン・パン
リーガン・パン
2023年6月30日
更新済み 2024年9月21日
共有:

この記事では、最も強力なPDFライブラリの1つであるIronPDF for Pythonを使って、PDFドキュメント内のテキストを抽出する方法を紹介します。

PDFからテキストを抽出する方法 Pythonを使用する

2.0 How to Extract Text from a PDF Using Python?

  1. Pythonのダウンロードページから最新バージョンのPythonをインストール

  2. PythonのIDEツールを開く

  3. .NET Coreランタイムのインストール

  4. IronPDF for Pythonライブラリをインストールするか、PyPIダウンロードページからダウンロードしてください

  5. PDFからテキストを抽出

2.1 IronPDF for Pythonとは何ですか?

Pythonは他の言語に比べてよりダイナミックな言語であり、開発者がグラフィカルユーザーインターフェースを素早く簡単に作成できるため、IronPDFライブラリをPythonに統合するのは簡単です。 それには、PyQT、wxWidgets、kivy、およびその他多くの追加パッケージやライブラリを含む多数の事前インストールされたツールがあり、すべてを使用して迅速かつ安全に完全なGUIを作成することができます。

IronPDF for Pythonは非常に効率的なライブラリで、特にウェブ開発に役立ちます。 Django、Flask、Pyramidなど、多くのPythonウェブ開発パラダイムが利用できるようになったことも、その一因です。 これらのフレームワークは、Reddit、Mozilla、Spotifyを含む多数のウェブサイトやオンラインサービスで使用されています。

2.2 IronPDFの機能

  • PDFファイルは、HTML、HTML5、ASP、PHPのウェブサイトを含むさまざまなソースから作成できます。 HTMLファイルに加えて、画像ファイルをPDFに変換することも可能です。
  • IronPDFを使用すると、インタラクティブなPDFドキュメントを作成したり、インタラクティブフォームに記入して送信したり、PDFファイルを分割結合したり、PDFファイルからテキストや画像を抽出したり、PDFファイル内で特定の単語を検索したり、PDFページを画像にラスタライズしたり、PDFをHTMLに変換したり、PDFファイルを印刷したりできます。
  • IronPDFはPDFファイルを開き、URLから印刷することができます。 さらに、HTMLログインフォーム、プロキシ、クッキー、HTTPヘッダー、カスタムネットワークログイン認証情報、フォーム変数、ユーザーエージェントの背後にログインできるようにします。
  • 画像はIronPDFを使用してドキュメントから抽出することができます。
  • IronPDFを使えば、ドキュメントにヘッダーとフッターを追加したり、テキストや画像、ブックマーク透かしなどを簡単に追加できます。
  • IronPDFを使用して、新規または既存のドキュメントを使用してページを結合したり分離したりすることが可能です。
  • Acrobat ビューアを使用せずに、ドキュメントをPDFオブジェクトに変換することができます。
  • CSSファイルを使用してPDFドキュメントを作成することができます。
  • ドキュメントの作成は、メディアタイプCSSファイルを使用して可能です。

2.3 IronPDFライブラリーのインポート

ソースファイルでIronPDFを使用するためにIronPDFをインポートするには、以下のインポート文をソースファイルの先頭に含めてください:

from ironpdf import *
PYTHON

2.4 ライセンスキーの設定 (必要な場合)

IronPDF for Pythonは無料で使用できますが、無料ユーザーにはPDFファイルにタイル状の背景で透かしが追加されます。 IronPDFを使用して透かしのないPDFを作成するには、正当なライセンスキーをライブラリに与える必要があります。 ライセンスキーを使用してライブラリを設定する方法は、次のコードスニペットに示されています:

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

PDFファイルを作成する前やその内容に変更を加える前に、ライセンスキーが設定されていることを確認してください。 LicenseKey メソッドは、他のコード行より前に呼び出す必要があります。 無料の試用ライセンスキーを取得するには、ライセンスページを訪問してください。

2.5 セットログファイル

カスタムログにより作成されたログメッセージは、Pythonスクリプトのディレクトリ内にある「Default」という名前のテキストファイルに保存できます。 以下のコードスニペットは、LogFilePath プロパティを設定し、ログファイルの名前と場所をカスタマイズするために使用できます。

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 IronPDFでPDFテキストを抽出する

IronPDF for PythonライブラリはPDFページをPDFオブジェクトに変換し、スキャンしたPDFファイルを含むPDFファイルからのテキスト抽出を可能にします。 以下は、IronPDFを使用して既存のPDFを読み取る方法を示す例です。

最初の方法は、PDF内ですべてのテキストを抽出することです。 コードのサンプルは以下に示されています。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上記のコードで示されているように、FromFile メソッドは、既存のPDFファイルを読み込み、それをPDFドキュメントオブジェクトに変換するPDFリーダーオブジェクトです。 このオブジェクトは、PDFページで利用可能なテキストと画像を読むために使用することができます。 オブジェクトには、PDFファイル全体からすべてのテキストを抽出し、処理可能な文字列に保持するExtractAllTextというメソッドがあります。 その後、print関数を使用してテキストを表示します。

PythonでPDFをテキストに変換する方法(チュートリアル)、図1:テキストの表示

テキストを表示する

ページごとに、PDFファイルからテキストを抽出するために使用できる2番目の方法のコード例です。以下に示します。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

FromFile メソッドは、既存のファイルからPDFファイルを読み込み、それをPDFファイルオブジェクトに変換するために使用されます。上記のコードで示されているように。 PDFページオブジェクトのメソッドExtractTextFromPageは、PDFファイル内のページからすべてのテキストを取得します。特定のページからテキストを抽出するには、ページ番号をパラメータとして提供する必要があります。 その後、テキストを抽出したら、page_text に処理可能な情報を保持させることができます。

さらに多くの例をチェックしてPDFからテキストを抽出してください。

4.0 結論

IronPDFライブラリは、それとは対照的に、潜在的なリスクを低減するための強力なセキュリティ対策を提供します。 それは特定のブラウザに合わせて調整されておらず、一般的に使用されているすべてのブラウザで動作します。 IronPDFは、プログラマーがわずか数行のコードでPDFファイルを簡単に生成および読み取ることを可能にします。 IronPDFライブラリは、異なる開発者のニーズに応えるため、無料の開発者ライセンスや追加の開発ライセンスなど、さまざまなライセンスオプションを提供しています。

IronPDFには永久ライセンス、30日間の返金保証、1年間のソフトウェアサポート、およびアップグレードオプションが含まれています。 最初の購入後に追加費用はありません。 これらのライセンスは、開発、ステージング、および本番環境で使用できます。 製品ライセンスについての詳細を学ぶ

ソフトウェア製品をダウンロードしてください。

リーガン・パン
ソフトウェアエンジニア
レーガンはリーディング大学で電子工学の学士号を取得しました。Iron Softwareに入社する前の仕事では、一つのタスクに集中して取り組んでいました。Iron Softwareでは、営業、技術サポート、製品開発、マーケティングのいずれにおいても広範な業務に携わることが最も楽しいと感じています。彼は、Iron Softwareライブラリを開発者がどのように使用しているかを理解し、その知識を使ってドキュメントを継続的に改善し、製品を開発することを楽しんでいます。
< 以前
PythonでPDFファイルを表示する方法