IRONPDFの使用

C#でPDFからテキストを抽出する方法(コード例チュートリアル)

PDF(Portable Document Format)ファイルは無数の業界において重要な役割を果たしており、企業が文書を安全に共有、保存、管理することを可能にしています。 開発者にとって、PDFを扱うことは、クライアントのニーズをサポートするために、PDFの作成、読み込み、変換、およびコンテンツの抽出を含むことがよくあります。 PDFからのテキスト抽出は、データ分析、ドキュメントインデックス化、コンテンツ移行、またはアクセシビリティ機能の有効化などのタスクに不可欠です。 モダンなライブラリであるIronPDFは、これらのタスクを今まで以上に簡単にし、PDFファイルを最小限の労力で操作するための強力なツールを提供します。

このガイドは、最も一般的な要件の1つであるC#でPDFからテキストを抽出することに焦点を当てています。 Visual Studioでプロジェクトを設定し、IronPDFをインストールして、簡潔なコード例を使用してテキスト抽出を行う手順を説明します。 途中で、IronPDFの強力な機能を強調し、その機能には.NETを使用してPDFファイルを作成、操作、変換する能力が含まれます。 ドキュメントを多用するアプリケーションを構築している場合でも、単に効率的なPDF処理が必要な場合でも、このチュートリアルがあなたをサポートします。

1. IronPDFの特徴

IronPDFは、ブラウザができるほとんどすべての操作を実行できる強力なPDF変換プログラムです。 開発者向けの.NETライブラリを使用すると、PDFドキュメントの作成、読み取り、および操作が簡単になります。 IronPDFは、Chromeエンジンを使用してHTMLからPDFのドキュメントに変換します。IronPDFは、HTML、ASPX、Razor HTML、MVC ViewなどのWebコンポーネントをサポートしています。 Microsoft .NET アプリケーションは、IronPDF によってサポートされています(ASP.NET Web アプリケーションおよび従来の Windows アプリケーションの両方)。 IronPDFは、視覚的に魅力的なPDFドキュメントを作成するためにも使用できます。

IronPDFを使用して、HTML5、JavaScript、CSS、画像からPDF文書を作成することができます。 さらに、ファイルにはヘッダとフッタを含めることができます。 IronPDFのおかげで、PDFドキュメントを簡単に読むことができます。 IronPDFには、包括的なPDF変換エンジンと強力なHTMLからPDFへの変換機能があり、PDFドキュメントを処理できます。

  • PDF作成: HTML、JavaScript、CSS、画像、またはURLからPDFを生成します。 ヘッダー、フッター、ブックマーク、ウォーターマーク、その他のカスタム要素を追加して、デザインを強化します。
  • HTMLからPDFへの変換: HTML、Razor/MVCビュー、およびメディアタイプのCSSファイルを直接PDF形式に変換します。
  • インタラクティブ PDF 機能:インタラクティブなPDF フォームを作成、入力、および送信します。
  • テキストと画像の抽出: データ処理や再利用のために、既存のPDFドキュメントからテキストや画像を抽出します。
  • ドキュメント操作: 新規または既存のPDFファイルで結合、分割、およびページの並べ替えを行います。
  • 画像とページの処理: PDFページをラスタライズして画像に変換し、画像をPDF形式に変換します。
  • カスタムログイン資格情報を使用する: IronPDF は URL からドキュメントを作成することができます。 また、カスタムネットワークログイン情報、ユーザーエージェント、プロキシ、クッキー、HTTPヘッダー、フォーム変数をサポートしており、HTMLログインフォームの背後でのログインが可能です。
  • 検索とアクセシビリティ: PDFドキュメント内のテキストを検索し、アクセシビリティ標準を満たしていることを確認します。
  • 変換の多様性: PDFをHTMLなどの他の形式に変換し、CSSファイルを使用してPDFを生成します。
  • スタンドアロン機能: Adobe Acrobatや追加のサードパーティツールを必要とせずに独立して動作します。

Visual Studioで新しいプロジェクトを作成する

Visual Studioソフトウェアを開き、[ファイル]メニューに移動します。 「新しいプロジェクト」を選択し、その後「コンソールアプリケーション」を選択します。 この記事では、コンソールアプリケーションを使用してPDFドキュメントを生成します。

C# PDFからテキストを抽出(コード例チュートリアル)、図1: Visual Studioで新しいプロジェクトを作成 Visual Studioで新しいプロジェクトを作成

プロジェクト名を入力し、適切なテキストボックスにファイルパスを選択してください。 その後、作成 ボタンをクリックして、下のスクリーンショットのように必要な .NET Framework を選択します。

C# PDF からテキストを抽出する(コード例チュートリアル)、図 2: Visual Studio で新しいプロジェクトを構成する Visual Studio で新しいプロジェクトを構成する

Visual Studioプロジェクトは、選択したアプリケーションの構造を生成します。コンソール、Windows、Webアプリケーションを選択した場合は、コードを入力してアプリケーションをビルド/実行するためのprogram.csファイルが開きます。

C# PDFからテキストを抽出する方法(コード例チュートリアル)、図3: .NET Coreの選択 .NET Coreの選択

次に、コードをテストするためにライブラリを追加します。

3. IronPDFライブラリのインストール

IronPDFライブラリは、4つの方法でダウンロードおよびインストールできます。

これらは:

  • Visual Studio を使用して。
  • Visual Studio コマンドラインの使用。
  • NuGetウェブサイトから直接ダウンロードします。
  • IronPDFのウェブサイトから直接ダウンロード。

3.1 Visual Studioの使用

Visual Studioソフトウェアは、ソリューションにパッケージを直接インストールするためのNuGetパッケージマネージャーオプションを提供します。 以下のスクリーンショットは、NuGetパッケージマネージャーの開き方を示しています。

C# PDFからテキストを抽出する (コード例チュートリアル)、図 4: Visual Studio program.cs ファイル Visual Studio program.cs ファイル

NuGetサイトからパッケージのリストを表示するための検索ボックスを提供します。パッケージマネージャーでは、以下のスクリーンショットのようにキーワード「IronPDF」を検索する必要があります。

C# PDFからテキストを抽出する(コード例チュートリアル)、図 5: NuGet パッケージマネージャー NuGet パッケージマネージャー

上記の画像には、関連する検索項目のリストが表示されています。 ソリューションにパッケージをインストールするために必要なオプションを選択する必要があります。

3.2 Visual Studio コマンドラインの使用

Visual Studioで、ツール > NuGetパッケージマネージャー > パッケージマネージャーコンソールに移動

パッケージマネージャー コンソール タブに次の行を入力してください:

Install-Package IronPdf

現在、パッケージは現在のプロジェクトにダウンロード/インストールされ、使用できるようになります。

C# PDFからテキストを抽出(コード例チュートリアル)、図6: NuGetパッケージマネージャーのIronPdfライブラリ NuGetパッケージマネージャーのIronPdfライブラリ

NuGetウェブサイトからの直接ダウンロード

NuGet NuGetでインストール

PM >  Install-Package IronPdf

IronPDFNuGetでチェックして、すばやくインストールしましょう。1,000万以上のダウンロードを記録しており、C#によるPDF開発を革新しています。 また、DLLまたはWindows インストーラーをダウンロードすることもできます。

3番目の方法は、IronPDF NuGetパッケージを直接ウェブサイトからダウンロードすることです。

  • NuGetのIronPDFパッケージに移動してください。
  • 右側のメニューからダウンロードパッケージオプションを選択してください。
  • ダウンロードしたパッケージをダブルクリックしてください。 自動的にインストールされます。
  • 次に、ソリューションをリロードして、プロジェクトで使用を開始します。

3.4 IronPDFウェブサイトからの直接ダウンロード

DLL DLLをダウンロード
IronPDF DLL を直接インストールすることを検討してください。プロジェクトまたは GAC のために /ja/packages/IronPdf.zip からダウンロードして手動でインストールします。または、NuGet でインストールしてください。

IronPDF公式サイトを訪れて、最新のパッケージを直接ウェブサイトからダウンロードしてください。ダウンロードしたら、以下の手順に従ってプロジェクトにパッケージを追加します。

  • ソリューションウィンドウからプロジェクトを右クリックします。
  • 次に、オプションの参照を選択し、ダウンロードした参照の場所を参照してください。
  • 次に、「OK」をクリックしてリファレンスを追加します。

テキスト抽出 IronPDF を使用する

IronPDFプログラムを使用すると、PDFファイルからのテキスト抽出を実行し、PDFページをPDFオブジェクトに変換できます。 以下は、IronPDFを使用して既存のPDFを読み取る方法の例です。

最初のアプローチはPDFからテキストを抽出することであり、サンプルコードのスニペットは以下の通りです。

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
$vbLabelText   $csharpLabel

FromFile 静的メソッドは、既存のファイルからPDFドキュメントを読み込み、それをPDFDocument オブジェクトに変換するために使用されます。上記のコードに示されています。 このオブジェクトを使用して、PDFページ上のテキストと画像を読み取ることができます。 このオブジェクトには、PDF文書全体からすべてのテキストを抽出するExtractAllTextというメソッドがあります。このメソッドは、抽出されたテキストを文字列に保持し、我々はその文字列を用いて処理を行うことができます。

以下は、PDFファイルからページごとにテキストを抽出するために使用できる2つ目のメソッドのコード例です。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
$vbLabelText   $csharpLabel

上記のコードでは、最初にPDF文書全体を読み込み、それをPDFオブジェクトに変換することがわかります。 次に、PageCountという組み込みメソッドを使用してPDFドキュメント全体のページ数を取得します。これにより、ロードされたPDFドキュメントで利用可能なページの総数が取得されます。 "for ループ"とExtractTextFromPage 関数を使用することで、読み込まれたドキュメントからテキストを抽出するためにページ番号をパラメーターとして渡すことができます。 その後、正確なテキストを文字列変数に保持します。 同様に、"for"または"for each"ループを使用して、PDFページごとにテキストを抽出します。

5. 結論

IronPDFは、.NETアプリケーションでPDFをシームレスに利用できるよう設計された多用途で強力なPDFライブラリです。 その強力な機能により、開発者はAdobe Readerのようなサードパーティ依存に頼ることなく、PDFの作成、操作、コンテンツの抽出が可能になります。 IronPDFの際立った機能の一つは、PDFドキュメントからテキストを抽出する能力です。 この機能は、データ分析、文書のインデックス作成、コンテンツの移行、アクセシビリティ機能の有効化などのタスクを自動化するために非常に重要です。 IronPDFは、開発者がプログラムを使ってテキストを取得し処理することを可能にすることで、ワークフローを簡素化し、PDFコンテンツの扱いに新たな可能性を開きます。

シンプルな統合とクロスプラットフォームのサポートにより、IronPDFはPDFドキュメントを効率的に処理しようとする開発者にとって優れた選択肢です。 さらに、IronPDFは無料のトライアルを提供しており、コミットする前にリスクなしでその全機能を探索できます。 価格の詳細やライセンスオプションについては、価格ページをご覧ください。

ライブラリ_製品のお試し版_拡張ブロック

Kye Stuart
テクニカルライター

Kye Stuart は Iron Software でプログラミングへの情熱とライティング能力を融合させています。Yoobee College でソフトウェア導入を学び、複雑な技術コンセプトを明確な教育コンテンツに変換しています。Kye は生涯学習を重視し、新しい技術的挑戦を積極的に受け入れています。

仕事の外では、PC ゲーム、Twitch でのストリーミング、庭仕事や犬の Jaiya との散歩などのアウトドア活動を楽しんでいます。Kye の率直なアプローチにより、彼らはグローバルな開発者のためにテクノロジーをわかりやすくすることを使命とする Iron Software にとって重要な存在です。

< 以前
C#を使用してASP.NETでPDFを生成する方法
次へ >
C#でPDFからデータを抽出する方法