透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
PDF(Portable Document Format)ファイルは無数の業界において重要な役割を果たしており、企業が文書を安全に共有、保存、管理することを可能にしています。 開発者にとって、PDFを扱うことは、クライアントのニーズをサポートするために、PDFの作成、読み込み、変換、およびコンテンツの抽出を含むことがよくあります。 PDFからのテキスト抽出は、データ分析、ドキュメントインデックス化、コンテンツ移行、またはアクセシビリティ機能の有効化などのタスクに不可欠です。 モダンなライブラリであるIronPDFは、これらのタスクを今まで以上に簡単にし、PDFファイルを最小限の労力で操作するための強力なツールを提供します。
このガイドは、最も一般的な要件の1つであるC#でPDFからテキストを抽出することに焦点を当てています。 Visual Studioでプロジェクトを設定し、IronPDFをインストールして、簡潔なコード例を使用してテキスト抽出を行う手順を説明します。 途中で、IronPDFの強力な機能を強調し、その機能には.NETを使用してPDFファイルを作成、操作、変換する能力が含まれます。 ドキュメントを多用するアプリケーションを構築している場合でも、単に効率的なPDF処理が必要な場合でも、このチュートリアルがあなたをサポートします。
IronPDFは、ブラウザができるほとんどすべての操作を実行できる強力なPDF変換プログラムです。 開発者向けの.NETライブラリを使用すると、PDFドキュメントの作成、読み取り、および操作が簡単になります。 IronPDFは、Chromeエンジンを使用してHTMLからPDFのドキュメントに変換します。IronPDFは、HTML、ASPX、Razor HTML、MVC ViewなどのWebコンポーネントをサポートしています。 Microsoft .NET アプリケーションは、IronPDF によってサポートされています(ASP.NET Web アプリケーションおよび従来の Windows アプリケーションの両方)。 IronPDFは、視覚的に魅力的なPDFドキュメントを作成するためにも使用できます。
IronPDFを使用して、HTML5、JavaScript、CSS、画像からPDF文書を作成することができます。 さらに、ファイルにはヘッダとフッタを含めることができます。 IronPDFのおかげで、PDFドキュメントを簡単に読むことができます。 IronPDFには、包括的なPDF変換エンジンと強力なHTMLからPDFへの変換機能があり、PDFドキュメントを処理できます。
Visual Studioソフトウェアを開き、[ファイル]メニューに移動します。 「新しいプロジェクト」を選択し、その後「コンソールアプリケーション」を選択します。 この記事では、コンソールアプリケーションを使用してPDFドキュメントを生成します。
Visual Studioで新しいプロジェクトを作成
プロジェクト名を入力し、適切なテキストボックスにファイルパスを選択してください。 その後、作成 ボタンをクリックして、下のスクリーンショットのように必要な .NET Framework を選択します。
Visual Studio で新しいプロジェクトを構成する
Visual Studioプロジェクトは、選択したアプリケーションの構造を生成します。コンソール、Windows、Webアプリケーションを選択した場合は、コードを入力してアプリケーションをビルド/実行するためのprogram.cs
ファイルが開きます。
.NET Coreの選択
次に、コードをテストするためにライブラリを追加します。
IronPDFライブラリは、4つの方法でダウンロードおよびインストールできます。
これらは:
Visual Studioソフトウェアは、ソリューションにパッケージを直接インストールするためのNuGetパッケージマネージャーオプションを提供します。 以下のスクリーンショットは、NuGetパッケージマネージャーの開き方を示しています。
Visual Studio program.cs ファイル
NuGetサイトからパッケージのリストを表示するための検索ボックスを提供します。パッケージマネージャーでは、以下のスクリーンショットのようにキーワード「IronPDF」を検索する必要があります。
NuGet パッケージマネージャー
上記の画像には、関連する検索項目のリストが表示されています。 ソリューションにパッケージをインストールするために必要なオプションを選択する必要があります。
Visual Studioで、ツール > NuGetパッケージマネージャー > パッケージマネージャーコンソールに移動
パッケージマネージャー コンソール タブに次の行を入力してください:
Install-Package IronPdf
現在、パッケージは現在のプロジェクトにダウンロード/インストールされ、使用できるようになります。
NuGetパッケージマネージャーのIronPdfライブラリ
3番目の方法は、IronPDF NuGetパッケージを直接ウェブサイトからダウンロードすることです。
IronPDF公式サイトを訪れて、最新のパッケージを直接ウェブサイトからダウンロードしてください。ダウンロードしたら、以下の手順に従ってプロジェクトにパッケージを追加します。
IronPDFプログラムを使用すると、PDFファイルからのテキスト抽出を実行し、PDFページをPDFオブジェクトに変換できます。 以下は、IronPDFを使用して既存のPDFを読み取る方法の例です。
最初のアプローチはPDFからテキストを抽出することであり、サンプルコードのスニペットは以下の通りです。
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf
Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
FromFile
静的メソッドは、既存のファイルからPDFドキュメントを読み込み、それをPDFDocument
オブジェクトに変換するために使用されます。上記のコードに示されています。 このオブジェクトを使用して、PDFページ上のテキストと画像を読み取ることができます。 このオブジェクトには、PDF文書全体からすべてのテキストを抽出するExtractAllText
というメソッドがあります。このメソッドは、抽出されたテキストを文字列に保持し、我々はその文字列を用いて処理を行うことができます。
以下は、PDFファイルからページごとにテキストを抽出するために使用できる2つ目のメソッドのコード例です。
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
For index = 0 To pdf.PageCount - 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Next index
End Using
上記のコードでは、最初にPDF文書全体を読み込み、それをPDFオブジェクトに変換することがわかります。 次に、PageCount
という組み込みメソッドを使用してPDFドキュメント全体のページ数を取得します。これにより、ロードされたPDFドキュメントで利用可能なページの総数が取得されます。 "for ループ"とExtractTextFromPage
関数を使用することで、読み込まれたドキュメントからテキストを抽出するためにページ番号をパラメーターとして渡すことができます。 その後、正確なテキストを文字列変数に保持します。 同様に、"for"または"for each"ループを使用して、PDFページごとにテキストを抽出します。
IronPDFは、.NETアプリケーションでPDFをシームレスに利用できるよう設計された多用途で強力なPDFライブラリです。 その強力な機能により、開発者はAdobe Readerのようなサードパーティ依存に頼ることなく、PDFの作成、操作、コンテンツの抽出が可能になります。 IronPDFの際立った機能の一つは、PDFドキュメントからテキストを抽出する能力です。 この機能は、データ分析、文書のインデックス作成、コンテンツの移行、アクセシビリティ機能の有効化などのタスクを自動化するために非常に重要です。 IronPDFは、開発者がプログラムを使ってテキストを取得し処理することを可能にすることで、ワークフローを簡素化し、PDFコンテンツの扱いに新たな可能性を開きます。
シンプルな統合とクロスプラットフォームのサポートにより、IronPDFはPDFドキュメントを効率的に処理しようとする開発者にとって優れた選択肢です。 さらに、IronPDFは無料のトライアルを提供しており、コミットする前にリスクなしでその全機能を探索できます。 価格の詳細やライセンスオプションについては、価格ページをご覧ください。
ライブラリ_製品のお試し版_拡張ブロック