IRONPDF FOR PYTHONの使用

PythonでPDFをテキストに変換する方法(チュートリアル)

更新済み 2024年9月21日
共有:

この記事では、最も強力なPDFライブラリの1つであるIronPDF for Pythonを使って、PDFドキュメント内のテキストを抽出する方法を紹介します。

PDFからテキストを抽出する方法 Pythonを使用する

2.0 How to Extract Text from a PDF Using Python?

1.Pythonのダウンロードページから最新バージョンのPythonをインストールしてください。

  1. PythonのIDEツールを開く

  2. .NET Coreランタイムのインストール

  3. IronPDF for Python ライブラリをインストールする。PyPIダウンロードページからダウンロード

  4. PDFからテキストを抽出

2.1 IronPDF for Pythonとは何ですか?

Pythonは他の言語に比べてよりダイナミックな言語であり、開発者がグラフィカルユーザーインターフェースを素早く簡単に作成できるため、IronPDFライブラリをPythonに統合するのは簡単です。 それには、PyQT、wxWidgets、kivy、およびその他多くの追加パッケージやライブラリを含む多数の事前インストールされたツールがあり、すべてを使用して迅速かつ安全に完全なGUIを作成することができます。

IronPDF for Pythonは非常に効率的なライブラリで、特にウェブ開発に役立ちます。 Django、Flask、Pyramidなど、多くのPythonウェブ開発パラダイムが利用できるようになったことも、その一因です。 これらのフレームワークは、Reddit、Mozilla、Spotifyを含む多数のウェブサイトやオンラインサービスで使用されています。

2.2 IronPDFの機能

  • PDFファイルはさまざまなソースから作成HTML、HTML5、ASP、PHPウェブサイトを含む。 HTMLファイルに加えて、以下のような翻訳も可能です。画像ファイルをPDFに変換.
  • IronPDFはインタラクティブなPDFドキュメントの作成、記入、送信を可能にします。インタラクティブなフォーム, 分割以下のコンテンツを日本語に翻訳してください:マージするPDFファイル、テキストと画像を抽出するPDFファイルからPDFファイル内の特定の単語を検索するPDFページを画像にラスタライズする、PDFをHTMLに変換し、PDFファイルを印刷する.
  • IronPDFはPDFファイルを開き、URLから印刷することができます。 さらに、HTMLログインフォーム、プロキシ、クッキー、HTTPヘッダー、カスタムネットワークログイン認証情報、フォーム変数、ユーザーエージェントの背後にログインできるようにします。
  • 画像はIronPDFを使用してドキュメントから抽出することができます。
  • IronPdfを使えば、以下のことがとても簡単にできます。ヘッダーとフッターを追加するテキストと写真、ブックマーク以下のコンテンツを日本語に翻訳してください:ウォーターマークなどを文書化します。
  • IronPDFを使用して、新規または既存のドキュメントを使用してページを結合したり分離したりすることが可能です。
  • Acrobat ビューアを使用せずに、ドキュメントをPDFオブジェクトに変換することができます。
  • CSSファイルを使用してPDFドキュメントを作成することができます。
  • ドキュメントの作成は、メディアタイプCSSファイルを使用して可能です。

2.3 IronPDFライブラリーのインポート

ソースファイルでIronPDFを使用するためにIronPDFをインポートするには、以下のインポート文をソースファイルの先頭に含めてください:

from ironpdf import *
PYTHON

2.4 ライセンスキーの設定 (必要な場合)

IronPDF for Pythonは無料で使用できますが、無料ユーザーにはPDFファイルにタイル状の背景で透かしが追加されます。 IronPDFを使用して透かしのないPDFを作成するには、正当なライセンスキーをライブラリに与える必要があります。 ライセンスキーを使用してライブラリを設定する方法は、次のコードスニペットに示されています:

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

PDFファイルを作成する前やその内容に変更を加える前に、ライセンスキーが設定されていることを確認してください。 LicenseKey メソッドは、他のコード行よりも前に呼び出す必要があります。 以下の内容を日本語に翻訳してください:

To無料トライアルライセンスキーを取得する以下にアクセスしてください:ライセンスページ.

2.5 セットログファイル

カスタムログにより作成されたログメッセージは、Pythonスクリプトのディレクトリ内にある「Default」という名前のテキストファイルに保存できます。 以下のコードスニペットは、LogFilePathプロパティを設定し、ログファイルの名前と場所をカスタマイズするために使用できます:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 IronPDFでPDFテキストを抽出する

IronPDF for PythonライブラリはPDFページをPDFオブジェクトに変換し、スキャンしたPDFファイルを含むPDFファイルからのテキスト抽出を可能にします。 以下は、IronPDFを使用して既存のPDFを読み取る方法を示す例です。

最初の方法は、PDF内ですべてのテキストを抽出することです。 コードのサンプルは以下に示されています。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上のコードに示されているように、FromFileメソッドは、既存のPDFファイルをロードし、それをPDFドキュメントオブジェクトに変換するPDFリーダーオブジェクトです。 このオブジェクトは、PDFページで利用可能なテキストと画像を読むために使用することができます。 オブジェクトには、PDFファイル全体からすべてのテキストを抽出し、処理可能な文字列に保持するExtractAllTextというメソッドが提供されています。 そして、print関数を使ってテキストを表示する。

PythonでPDFをテキストに変換する方法(チュートリアル)、図1:テキストの表示

**テキストを表示する

ページごとに、PDFファイルからテキストを抽出するために使用できる2番目の方法のコード例です。以下に示します。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

FromFileメソッドは、上のコードに示すように、既存のファイルからPDFファイルをロードし、PDFファイルオブジェクトに変換するために使用されます。 ExtractTextFromPageと呼ばれるPDFページオブジェクト上のメソッドは、PDFファイル内のページからすべてのテキストを取得します。その特定のページからテキストを抽出するには、ページ番号をパラメータとして与えなければなりません。 次に、テキストを抽出した後、page_textを使用して、処理可能な情報を保持することができる。

その他の例を見るPDFからテキストを抽出するために。

4.0 結論

IronPDFライブラリは、それとは対照的に、潜在的なリスクを低減するための強力なセキュリティ対策を提供します。 それは特定のブラウザに合わせて調整されておらず、一般的に使用されているすべてのブラウザで動作します。 IronPDFは、プログラマーがわずか数行のコードでPDFファイルを簡単に生成および読み取ることを可能にします。 IronPDFライブラリは、異なる開発者のニーズに応えるため、無料の開発者ライセンスや追加の開発ライセンスなど、さまざまなライセンスオプションを提供しています。

IronPDFには永久ライセンス、30日間の返金保証、1年間のソフトウェアサポート、およびアップグレードオプションが含まれています。 最初の購入後に追加費用はありません。 これらのライセンスは、開発、ステージング、および本番環境で使用できます。 製品ライセンスの詳細.

申し訳ありませんが、翻訳を行うための具体的なコンテンツが提供されていません。翻訳したい英語のテキストを入力してください。ダウンロードソフトウェア製品。

< 以前
PythonでPDFファイルを表示する方法

準備はできましたか? バージョン: 2024.11.1 新発売

無料 pip インストール ライセンスを表示 >