C# PDFをテキストに変換する(コード例)
この記事では、.NET開発者がPDFファイルをより効率的にアクセスできるTXT形式に変換するプロセスを概説します。
C#を使用してPDFをテキストファイルに変換する方法
- PDFをテキストに変換するC#ライブラリをダウンロードする。
- Visual Studioで新しいプロジェクトを作成する
- プロジェクトにライブラリをインストールする
- PdfDocument.FromFile関数を使用してPDFドキュメントを開く
- 抽出された出力テキストを見る
チュートリアルで取り上げるトピック
- IronPDF
- プログラムでPDFファイルを作成する手順
- ステップ1:C#プロジェクトを作成する
- ステップ2:IronPDFライブラリをインストールする
- 方法1: NuGetパッケージマネージャー
- 方法2: NuGetパッケージマネージャーコンソール
- 方法3: DLLファイルを使用
- ステップ3:IronPDF名前空間を追加する
- ステップ4: PDFをテキストに変換
- 出力
- 結論
IronPDF
IronPDFは、PDF生成用 for .NETライブラリです。 これはネイティブな.NETライブラリであり、外部DLLや他のツールに依存しません。 IronPDFは、C#と.NETで書かれたクロスプラットフォームライブラリで、PDFドキュメントを操作するために必要なすべての機能を提供します。 このライブラリには、ドキュメントのレンダリング、フォーム編集、テキスト抽出、ファイル暗号化、その他の機能が含まれています。 これらすべての操作は、Windows Forms、WPF、ASP.NET MVCなどのさまざまなプラットフォームで広くテストされた直感的なAPIを通じて実行できます。
IronPDFの現在のリリースでは、これらの機能への簡単なアクセスが提供されます:
- PDF生成
- PDF暗号化
- テンプレートと検証ロジックを備えたPDFフォームフィールド
- PDFからのテキスト抽出(OCR)
- 記入可能フォーム
ドキュメント内部(表示、ナビゲーション、注釈)への読み取り専用アクセス
メタデータとドキュメントプロパティ(タイトル、キーワード、著者、主題)へのアクセス
IronPDFは、HTML文書を完全にフォーマットされたPDFファイルに変換するのを助けるためのいくつかの追加のヘルパークラスも含んでいます。 IronPDFは、PDFをテキストファイルに変換するための非常にシンプルなAPIを提供します。
IronPDFライブラリを使用してPDFドキュメントをテキストファイルに変換する方法を始めましょう。
PDFドキュメントをテキストファイルに変換する手順
最初のステップは、Visual Studio で C# プロジェクトを作成することです。 ニーズに応じて任意の C# アプリケーションテンプレートを選択できます。 簡単のために、このチュートリアルではコンソールアプリケーションテンプレートを使用します。 既存の C# プロジェクトを使用してPDFをTXTファイルに変換することもできます。
ステップ1:C#プロジェクトを作成
Visual Studio でC#プロジェクトを作成するか、既存のプロジェクトを開きます。 最新バージョンのVisual Studioをお勧めします。 与えられた手順に従って、Visual StudioでC#プロジェクトを作成してください。
- Visual Studioを開きます。
- C#コンソールアプリケーションテンプレートを選択するか、既存のプロジェクトを開きます。
- プロジェクトに適切な名前を付けます。
- .NET Framework バージョン 6.0 を選択します。これは最新で最も安定したフレームワークですが、ニーズに応じて他の .NET Framework を選ぶこともできます。
ステップ2:IronPDFライブラリをインストール
IronPDF には、開発時間を短縮し混乱を減らす簡単なインストールプロセスも備わっています。 IronPDF ライブラリには、インストールするための複数の方法があります:
- NuGet パッケージマネージャーを使用する
- NuGet パッケージマネージャーコンソールを使用する
- DLLファイルによる
方法1: NuGet パッケージマネージャー
NuGet パッケージマネージャーを使用するには、パッケージマネージャータブを開くための手順に従ってください。
C#プロジェクトを開いて、ツール > NuGet パッケージマネージャー > ソリューションの NuGet パッケージを管理をクリックします。
NuGetパッケージマネージャーに移動する
- 次に、参照タブに移動してIronPDFを検索します。
- 検索結果からIronPDFを選択し、インストールをクリックします。 これで、プロジェクトでIronPDFライブラリを使用できるようになり、IronPDFライブラリがインストールされます。
NuGet パッケージマネージャーの検索結果からのIronPdfパッケージ
方法2: NuGet パッケージマネージャーコンソール
パッケージマネージャーコンソールを使用してのIronPDFライブラリのインストールは最も簡単な方法です。 これらの簡単な手順に従ってください:
- パッケージマネージャーコンソールを開きます。
- コンソールに次の行を書き、Enterを押します。 これにより、すぐにIronPDFライブラリがインストールされます。
Install-Package IronPdf
NuGet パッケージマネージャーコンソールUIに表示されたインストールの進行状況
方法3: DLLファイルを使用
IronPDF DLLファイルをIron Softwareのウェブサイトからダウンロードできます。ダウンロードが完了したら、プロジェクトの参照として使用します。
より詳細なインストールガイドについては、IronPDFインストールガイドをご覧ください。
IronPDFライブラリのインストールはこれで完了です。 次のステップは、PDFファイルをテキストファイルに変換する手順を案内します。
ステップ3:IronPDF名前空間を追加
IronPDFを使用するには、すべてのコードファイルにIronPDF名前空間を追加することが必要です。以下のコード行を関連するすべてのコードファイルの先頭に書いてください。これにより、プログラムでIronPDFの機能を使用できるようになります。
using IronPdf;
using IronPdf;
Imports IronPdf
ステップ4: PDFドキュメントをテキストファイルに変換
次は、PDFファイルをTXTファイルに変換するか、またはテキストのみを抽出する必要があります。 そこで、以下のサンプルコードをコードファイルに記述してください:
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}
using IronPdf;
using System;
class Program
{
static void Main()
{
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
// Display the extracted text in the console
Console.WriteLine(allText);
}
}
Imports IronPdf
Imports System
Friend Class Program
Shared Sub Main()
' Extracting image and text content from PDF Document
' Open a 128-bit encrypted PDF
Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
' Get all text to put in a search index
Dim allText As String = pdf.ExtractAllText()
' Display the extracted text in the console
Console.WriteLine(allText)
End Using
End Sub
End Class
まず、 PdfDocument classからFromFile functionを使用して PDF ドキュメントを開きます。 パラメータには、ファイル名とパスワード(ある場合)を渡してください。 その後、 ExtractAllText functionを使用して PDF ファイルからすべてのテキストを抽出し、allText という名前の変数に保存します。 その後、コンソールに出力テキストを表示します。
出力
PDFドキュメントから抽出されたテキスト
これは、IronPDFによって抽出された出力テキストです。 それはPDFファイルで見られるのと同じテキストであり、IronPDFの精度が非常に高いことを示しています。
結論
この記事では、IronPDF .NET 向け PDFライブラリを使用してPDFファイルからテキストを簡単に抽出する方法を紹介します。 これは、数行のコードを書くだけで非常に高い精度で達成されました。 さらに、IronPDFにはHTMLからPDFへの変換、PDF書式設定ツールなど、PDF編集に不可欠な多数のコアPDF機能が備わっています。 IronPDFはAdobe Acrobatへの依存を排除します。
IronPDFは開発目的で無料で、製品テスト用の無料トライアルも提供しています。 IronPDFは、ニーズに応じたさまざまな料金プランを提供しています。 IronPDFの価格は、競合他社と比べて比較的重要に低いです。 個人から大企業に至るまでの価格のバリエーションがあり、印象的なパフォーマンスで納得のいく購入となります。
Iron Software's Suiteの価格プラン
さらに、Iron Softwareは、5つのIron Softwareパッケージを2つの価格で提供します。 詳細については、Iron Software のライセンス詳細をご覧ください。
よくある質問
C#アプリケーションでPDFドキュメントをテキストに変換する方法は?
IronPDFを使用してC#アプリケーションでPDFドキュメントをテキストに変換するには、PdfDocument.FromFileメソッドを使用してPDFを読み込み、次にExtractAllTextメソッドを呼び出してテキストコンテンツを取得します。
Visual Studio C#プロジェクトでIronPDFを設定するプロセスは?
Visual Studio C#プロジェクトでIronPDFを設定するには、新しいプロジェクトを作成し、NuGetパッケージマネージャー、パッケージマネージャーコンソール、またはDLLを手動で追加してIronPDFをインストールし、コードファイルにIronPDF名前空間を含める必要があります。
IronPDFは暗号化されたPDFファイルを取り扱えますか?
はい、IronPDFは暗号化されたPDFファイルを開いて処理することができ、そこからテキストコンテンツを抽出できます。
PDFをTXT形式に変換する利点は何ですか?
IronPDFを使用してPDFをTXT形式に変換すると、テキストデータのアクセシビリティが向上し、処理や検索が容易になります。これは、テキスト処理や検索を必要とするアプリケーションにとって有益です。
IronPDFはPDFからのテキスト抽出の精度をどのように保証しますか?
IronPDFは、PDF内に表示されるテキストの整合性を維持することでテキスト抽出の高い精度を保証し、さらなる処理のために信頼できる出力を提供します。
IronPDFライブラリのテスト用の無料トライアルは利用可能ですか?
はい、IronPDFは開発およびテストの目的で無料トライアルを提供しており、購入する前にその機能と能力を評価できます。
IronPDFがクロスプラットフォーム開発に適した選択肢である理由は何ですか?
IronPDFはC#および.NETで記述されており、追加の外部ツールなしでクロスプラットフォーム開発に適した選択肢です。
IronPDFはテキスト抽出以外の目的で使用できますか?
はい、IronPDFは、PDF生成、ドキュメント暗号化、フォーム処理、HTMLからPDFへの変換など、テキスト抽出以外にもさまざまな機能を提供します。
IronPDF は PDF からテキストへの変換において .NET 10 をどの程度サポートしていますか?
IronPDFは.NET 10と完全に互換性があり、特別な設定なしですぐに使用できます。.NET 10でIronPDFを使用してPDFをテキストに変換すると、ヒープ割り当ての削減やランタイムの強化など、パフォーマンスの向上による抽出速度の向上とメモリ使用量の削減といったメリットが得られます。
IronPDF を .NET 10 で使用する場合、どのプラットフォームとプロジェクト タイプがサポートされますか?
IronPDF for .NET 10は、Windows(10以降、サーバー)、macOS、Linux、コンテナ環境など、幅広いプラットフォームをサポートしています。コンソール、デスクトップ(WPF、MAUI)、Web(MVC、Blazor)などのプロジェクトタイプに対応し、C#、F#、VB.NETなどの言語をサポートしています。


