IRONPDFの使用

C#でPDFからテキストを抽出する方法(コード例チュートリアル)

更新済み 2023年12月3日
共有:

さまざまなビジネスでポータブルドキュメントフォーマットファイルが使用されています。 ドキュメントを開発する際、開発者はクライアントを支援するためにPDF形式を使用します。 今日のライブラリのおかげで、PDFの作成がこれまでにないほど簡単になりました。 プロジェクトで使用する商用ライブラリの最適な選択を決定するためには、構築、読み取り、および変換などの要素を評価しなければなりません。

1. IronPDFの特徴

IronPDFは、ブラウザができるほとんどすべての操作を実行できる強力なPDF変換プログラムです。 開発者向けの.NETライブラリを使用すると、PDFドキュメントの作成、読み取り、および操作が簡単になります。 IronPDFは、Chromeエンジンを使用してHTMLからPDFのドキュメントに変換します。IronPDFは、HTML、ASPX、Razor HTML、MVC ViewなどのWebコンポーネントをサポートしています。 Microsoft .NET アプリケーションは IronPDF に対応しています。(ASP.NET Webアプリケーションと従来のWindowsアプリケーションの両方). IronPDFは、視覚的に魅力的なPDFドキュメントを作成するためにも使用できます。

IronPDFを使用して、HTML5、JavaScript、CSS、画像からPDF文書を作成することができます。 さらに、ファイルにはヘッダとフッタを含めることができます。 IronPDFのおかげで、PDFドキュメントを簡単に読むことができます。 IronPDFには、包括的なPDF変換エンジンと強力なHTMLからPDFへの変換機能があり、PDFドキュメントを処理できます。

  • PDFファイルを作成する際に使用可能なソースには、HTML、HTML5、ASPX、およびがあります。IronPDFによるRazor/MVCビュー. HTMLファイルをPDFに変換できるだけでなく、私たちはさらに多くの機能を提供します。画像ファイルをPDF形式に変換.
  • IronPDFを使用すると、インタラクティブなPDFドキュメントを作成したり、インタラクティブなフォームの入力と提出を行うことができます。PDF文書を効率的に結合・分割PDFファイルからテキストと画像を抽出し、PDFファイル内のテキストを検索し、PDFページを画像にラスタライズし、PDFをHTMLに変換し、PDFドキュメントを印刷します。
  • IronPDFはURLからドキュメントを作成することができます。 カスタムネットワークログイン認証情報、ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、およびフォーム変数もサポートします。ログイン保護されたHTMLフォームのナビゲート.
  • IronPDFは、表示およびフォームデータを使ってpdf文書に入力する.
  • 画像はIronPDFを使用してドキュメントから抽出することができます。
  • IronPDFは、ドキュメントをカスタマイズすることができますヘッダー、フッター、カスタム要素フッター、テキスト、画像、ブックマーク、カスタム透かしなど。
  • IronPDFを使用して、新規または既存のドキュメントでページの結合および分割ができます。
  • アクロバットビューアなしで、ドキュメントをPDFオブジェクトに変換できます。
  • CSSファイルをPDFドキュメントに変換することができます。
  • メディアタイプのCSSファイルをドキュメントに変換できます。

Visual Studioで新しいプロジェクトを作成する

Visual Studioソフトウェアを開き、[ファイル]メニューに移動します。 「新しいプロジェクト」を選択し、その後「コンソールアプリケーション」を選択します。 この記事では、コンソールアプリケーションを使用してPDFドキュメントを生成します。

C# PDFからテキストを抽出 (コード例チュートリアル)、図1: Visual Studioで新しいプロジェクトを作成

Visual Studio で新しいプロジェクトを作成する

プロジェクト名を入力し、適切なテキストボックスにファイルパスを選択してください。 次に、Create ボタンをクリックし、以下のスクリーンショットのように必要な .NET Framework を選択します。

C# PDFからテキストを抽出する(コード例チュートリアル)、図2: Visual Studioで新しいプロジェクトを設定する

Visual Studio で新しいプロジェクトを構成する

Visual Studioプロジェクトは、選択したアプリケーションの構造を生成し、もしコンソール、ウィンドウズ、およびWebアプリケーションを選択した場合、コードを入力してアプリケーションをビルド/実行できるprogram.csファイルを開きます。

C# PDFからテキストを抽出する (コード例チュートリアル), 図3: .NET Core の選択

.NET Core の選択

次に、コードをテストするためにライブラリを追加します。

3. IronPDFライブラリのインストール

IronPDFライブラリは、4つの方法でダウンロードおよびインストールできます。

これらは:

  • Visual Studio を使用して。
  • Visual Studio コマンドラインの使用。
  • NuGetウェブサイトから直接ダウンロードします。
  • IronPDFのウェブサイトから直接ダウンロード。

3.1 Visual Studioの使用

Visual Studioソフトウェアは、ソリューションにパッケージを直接インストールするためのNuGetパッケージマネージャーオプションを提供します。 以下のスクリーンショットは、NuGetパッケージマネージャーの開き方を示しています。

C# PDFからテキストを抽出する(コード例チュートリアル)、図4:Visual Studioのprogram.csファイル

Visual Studio program.cs ファイル

NuGetサイトからパッケージのリストを表示するための検索ボックスを提供します。パッケージマネージャーでは、以下のスクリーンショットのようにキーワード「IronPDF」を検索する必要があります。

PDFからテキストを抽出するC#コード例 (チュートリアル)、図5:NuGetパッケージマネージャー

NuGet パッケージ マネージャー

上記の画像には、関連する検索項目のリストが表示されています。 ソリューションにパッケージをインストールするために必要なオプションを選択する必要があります。

3.2 Visual Studio コマンドラインの使用

Visual Studioで、ツール > NuGetパッケージマネージャー > パッケージマネージャーコンソールに移動

パッケージマネージャー コンソール タブに次の行を入力してください:

Install-Package IronPdf

現在、パッケージは現在のプロジェクトにダウンロード/インストールされ、使用できるようになります。

C# から PDF からテキストを抽出する (コード例チュートリアル)、図 6: NuGet パッケージ マネージャーの IronPDF ライブラリ

NuGet パッケージ マネージャーの IronPdf ライブラリ

NuGetウェブサイトからの直接ダウンロード

こちらの第三の方法は、IronPDF NuGetパッケージ直接彼らのウェブサイトから。

  • NuGetのIronPDFパッケージに移動してください。
  • 右側のメニューからダウンロードパッケージオプションを選択してください。
  • ダウンロードしたパッケージをダブルクリックしてください。 自動的にインストールされます。
  • 次に、ソリューションをリロードして、プロジェクトで使用を開始します。

3.4 IronPDFウェブサイトからの直接ダウンロード

訪問するIronPDF 公式サイトをクリックし、ウェブサイトから最新のパッケージを直接ダウンロードしてください。ダウンロードが完了したら、以下の手順に従ってパッケージをプロジェクトに追加してください。

  • ソリューションウィンドウからプロジェクトを右クリックします。
  • 次に、オプションの参照を選択し、ダウンロードした参照の場所を参照してください。
  • 次に、「OK」をクリックしてリファレンスを追加します。

テキスト抽出 IronPDF を使用する

IronPDFプログラムを使用すると、PDFファイルからのテキスト抽出を実行し、PDFページをPDFオブジェクトに変換できます。 以下は、IronPDFを使用して既存のPDFを読み取る方法の例です。

最初のアプローチはPDFからテキストを抽出することであり、サンプルコードのスニペットは以下の通りです。

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
VB   C#

についてFromFile(ファイルから)既存のファイルからPDFドキュメントを読み込み、それを変換するために使用される静的メソッドPDFDocument上記のコードに示されているように、オブジェクト。 このオブジェクトを使用して、PDFページ上のテキストと画像を読み取ることができます。 そのオブジェクトには、というメソッドがありますExtractAllTextPDFドキュメント全体からすべてのテキストを抽出し、その抽出されたテキストを文字列に保持します。この文字列を使用して処理を行うことができます。

以下は、PDFファイルからページごとにテキストを抽出するために使用できる2つ目のメソッドのコード例です。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

上記のコードでは、最初にPDF文書全体を読み込み、それをPDFオブジェクトに変換することがわかります。 次に、組み込みメソッドを使用してPDFドキュメント全体のページ数を取得します。そのメソッドの名称はPageCount(ページ数)これは、読み込んだPDFドキュメントの利用可能なページ数の合計を取得します。 「forループ」を使用してExtractTextFromPage関数は、ページ番号をパラメータとして渡して読み込まれたドキュメントからテキストを抽出することを可能にします。 その後、正確なテキストを文字列変数に保持します。 同様に、"for"または"for each"ループを使用して、PDFページごとにテキストを抽出します。

5. 結論

IronPDFは最も一般的に使用されるPDFライブラリの一つです。 他のサードパーティライブラリには依存しません。 それは独立しており、マシンにAdobe Readerをインストールする必要はありません。複数のプラットフォームで動作します。 IronPDFの初回プライスは $749 からスタートします。 製品サポートとアップデートのために1年間の料金を支払うオプションがあり、IronPDFは追加料金でロイヤリティフリーの再配布カバレッジも提供します。詳細はIronPDF価格ページ.

< 以前
C#を使用してASP.NETでPDFを生成する方法
次へ >
C#でPDFからデータを抽出する方法