PYTHON用IRONPDFの使用

PythonでPDFをテキストに変換する方法(チュートリアル)

更新済み 6月 30, 2023
共有:

1.0 PDFとは何ですか?

ドキュメント共有に関しては、Adobeが作成したPortable Document Format (PDF) は、テキストが豊富で美しいコンテンツの完全性を保護するために重要です。 ほとんどの場合、オンラインPDFファイルにアクセスするためには特定のプログラムが必要です。 最近では、多くの重要なデジタル出版物がPDFファイルを必要としています。 多くの企業は、専門的な文書や請求書を作成するためにPDFファイルを利用しています。 IronPDF Pythonは、PDF文書内のテキストをすべて抽出できる、最も強力なPDFライブラリの一つです。

PDFからテキストを抽出する方法 Pythonを使用する

2.0 How to Extract Text from a PDF Using Python?

  1. 最新バージョンのPythonをインストールする [Here is the translation of the given text into Japanese:

これ](https://www.python.org/downloads/)

  1. Python用の任意のIDEツールを開く

  2. ドットネットコア ランタイムをインストール

    1. IronPDFのPythonライブラリをインストールするか、以下からダウンロードしてください [Here is the translation of the given text into Japanese:

これ](https://pypi.org/project/IronPdf/2023.7.9/)

  1. PDFからテキストを抽出

2.1 IronPDF for Pythonとは何ですか?

Pythonは他の言語に比べて非常に動的な言語であるため、IronPDFライブラリの統合は簡単です。また、Pythonを使用することで、開発者は迅速かつ容易にグラフィカルユーザーインターフェースを作成できます。 それには、PyQT、wxWidgets、kivy、およびその他多くの追加パッケージやライブラリを含む多数の事前インストールされたツールがあり、すべてを使用して迅速かつ安全に完全なGUIを作成することができます。

IronPDF Pythonは非常に効率的なライブラリであり、特にウェブ開発に役立ちます。 Django、Flask、Pyramidなどの多くのPythonウェブ開発パラダイムが利用可能であることが一部原因となっています。 これらのフレームワークは、Reddit、Mozilla、Spotifyを含む多数のウェブサイトやオンラインサービスで使用されています。

2.2 IronPDFの機能

  • PDFファイルは、HTML、HTML5、ASP、PHPウェブサイトを含むさまざまなソースから作成できます。 HTMLファイルに加えて、画像ファイルをPDFに変換することもできます。
  • IronPDFは、インタラクティブなPDFドキュメントの作成、インタラクティブフォームの記入および送信、PDFファイルの分割および結合、PDFファイルからのテキストおよび画像の抽出、PDFファイル内の特定の単語の検索、PDFページを画像にラスタライズ、PDFをHTMLに変換、そしてPDFファイルの印刷を可能にします。
  • IronPDFはPDFファイルを開いたり、URLから印刷したりすることができます。 さらに、HTMLログインフォーム、プロキシ、クッキー、HTTPヘッダー、カスタムネットワークログイン認証情報、フォーム変数、ユーザーエージェントの背後でのユーザーエージェントのログインを可能にします。
  • 画像はIronPDFを使用してドキュメントから抽出することができます。
  • IronPDFを使用すると、ドキュメントにヘッダー、フッター、テキスト、画像、ブックマーク、透かしなどを追加できます。
  • IronPDF を使用して、新しいドキュメントや既存のドキュメントでページを結合および分割することができます。
  • Acrobat ビューアを使用せずに、ドキュメントをPDFオブジェクトに変換することができます。
  • CSSファイルを使用してPDFドキュメントを作成することができます。

  • ドキュメントの作成は、メディアタイプCSSファイルを使用して可能です。

2.3 IronPDFライブラリーのインポート

ソースファイルでIronPDFを使用するためにIronPDFをインポートするには、以下のインポート文をソースファイルの先頭に含めてください:

from ironpdf import *
PYTHON

2.4 ライセンスキーの設定 (必要な場合)

IronPDF for Pythonは無料で使用できますが、無料ユーザーにはPDFファイルにタイル状の背景で透かしが追加されます。 IronPDFを使用して透かしのないPDFを作成するには、正当なライセンスキーをライブラリに与える必要があります。 ライセンスキーを使用してライブラリを設定する方法は、次のコードスニペットに示されています:

License.LicenseKey = "IRONPDF-LICENCE-KEY-ABCDEFGH"
PYTHON

PDFファイルを作成する前やその内容に変更を加える前に、ライセンスキーが設定されていることを確認してください。 LicenseKey メソッドは、他のコード行よりも前に呼び出す必要があります。 無料試用ライセンスキーを取得するには、当社までご連絡いただくか、ライセンスページからライセンスキーを購入してください。

2.5 ログファイルの設定

カスタムログにより作成されたログメッセージは、Pythonスクリプトのディレクトリ内にある「Default」という名前のテキストファイルに保存できます。 以下のコードスニペットは、LogFilePathプロパティを設定し、ログファイルの名前と場所をカスタマイズするために使用できます:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 IronPDFでPDFテキストを抽出する

IronPDF Pythonライブラリは、PDFページをPDFオブジェクトに変換し、スキャンされたPDFファイルを含むPDFファイルからテキストを抽出することができます。 以下は、IronPDFを使用して既存のPDFを読み取る方法を示す例です。

最初の方法は、PDF内ですべてのテキストを抽出することです。 コードのサンプルは以下に示されています。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上記のコードで示されているように、Fromfile メソッドはPDFリーダーオブジェクトであり、既存のPDFファイルを読み込んでPDFドキュメントオブジェクトに変換するのに役立ちます。 このオブジェクトを使用して、PDFページに表示されているテキストや画像を読み取ることができます。 オブジェクトには、PDFファイル全体からすべてのテキストを抽出し、処理可能な文字列に保持するExtractAllTextというメソッドが提供されています。 そして、テキストを表示するためにprint関数を使用しています。

PythonでPDFをテキストに変換する方法 (チュートリアル):図1 - テキストの表示

以下に、PDFファイルからページ単位でテキストを抽出するために使用できる2番目の方法のコード例を示します。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

Fromfile メソッドは、既存のファイルからPDFファイルを読み込んで、それをPDFファイルオブジェクトに変換するために使用されます。上記のコードに示されている通りです。 PDFページオブジェクトのメソッド ExtractTextFromPage は、PDFファイルのページからすべてのテキストを取得します。特定のページからテキストを抽出するためには、ページ番号をパラメータとして提供する必要があります。 次に、テキストを抽出した後、それを処理できる文字列として保持するために変数に転送します。

チェックアウト さらなる例 PDFからテキストを抽出するために。

4.0 結論

IronPDFライブラリは、それとは対照的に、潜在的なリスクを低減するための強力なセキュリティ対策を提供します。 それは特定のブラウザに合わせて調整されておらず、一般的に使用されているすべてのブラウザで動作します。 IronPDFは、プログラマーがわずか数行のコードでPDFファイルを簡単に生成および読み取ることを可能にします。 IronPDFライブラリは、異なる開発者のニーズに応えるため、無料の開発者ライセンスや追加の開発ライセンスなど、さまざまなライセンスオプションを提供しています。

IronPDFには永久ライセンス、30日間の返金保証、1年間のソフトウェアサポート、およびアップグレードオプションが含まれています。 最初の購入後に追加費用はありません。 これらのライセンスは、開発、ステージング、および本番環境で使用できます。 詳しく学ぶ 製品ライセンス.

申し訳ありませんが、翻訳を行うための具体的なコンテンツが提供されていません。翻訳したい英語のテキストを入力してください。ダウンロード ソフトウェア製品。

< 以前
PythonでPDFファイルを表示する方法

準備はできましたか? バージョン: 2024.9 新発売

無料 pip インストール View Licenses >