フッターコンテンツにスキップ
IRONPDFの使用
C# PDFからテキストを抽出

C# PDFをテキストに変換する(コード例)

この記事では、.NET開発者がPDFファイルをより効率的にアクセスできるTXT形式に変換するプロセスを概説します。

class="hsg-featured-snippet">

PDFをテキストファイルに変換する方法(C#を使用)

  1. PDFをテキストに変換するC#ライブラリをダウンロード
  2. Visual Studioで新しいプロジェクトを作成
  3. ライブラリをプロジェクトにインストール
  4. PdfDocument.FromFile関数を使用してPDFドキュメントを開く
  5. 抽出された出力テキストを表示

チュートリアルで扱うトピック

  • IronPDF
  • プログラムでPDFファイルを作成する手順
  • ステップ1: C#プロジェクトを作成
  • ステップ2: IronPDFライブラリをインストール
    • 方法1: NuGetパッケージマネージャー
    • 方法2: NuGetパッケージマネージャーコンソール
    • 方法3: DLLファイルを使用
  • ステップ3: IronPDF名前空間を追加
  • ステップ4: PDFをテキストに変換
    • 出力
  • 結論

IronPDF

IronPDFは、PDF生成用の.NETライブラリです。 これはネイティブな.NETライブラリであり、外部DLLや他のツールに依存しません。 IronPDFは、C#と.NETで書かれたクロスプラットフォームライブラリで、PDFドキュメントを操作するために必要なすべての機能を提供します。 このライブラリには、ドキュメントのレンダリング、フォーム編集、テキスト抽出、ファイル暗号化、その他の機能が含まれています。 これらすべての操作は、Windows Forms、WPF、ASP.NET MVCなどのさまざまなプラットフォームで広くテストされた直感的なAPIを通じて実行できます。

IronPDFの現在のリリースでは、これらの機能への簡単なアクセスが提供されます:

ドキュメント内部(表示、ナビゲーション、注釈)への読み取り専用アクセス

メタデータとドキュメントプロパティ(タイトル、キーワード、著者、主題)へのアクセス

IronPDFには、HTMLドキュメントを完全にフォーマットされたPDFファイルに変換し、テキストを抽出するための追加のヘルパークラスも含まれています。 IronPDFは、PDFをテキストファイルに変換するための非常にシンプルなAPIを提供します。

IronPDFライブラリを使用してPDFドキュメントをテキストファイルに変換する方法を始めましょう。

PDFドキュメントをテキストファイルに変換する手順

最初のステップは、Visual Studio で C# プロジェクトを作成することです。 ニーズに応じて任意の C# アプリケーションテンプレートを選択できます。 簡単のために、このチュートリアルではコンソールアプリケーションテンプレートを使用します。 既存の C# プロジェクトを使用してPDFをTXTファイルに変換することもできます。

ステップ1: C#プロジェクトを作成

Visual Studio でC#プロジェクトを作成するか、既存のプロジェクトを開きます。 最新バージョンのVisual Studioをお勧めします。 与えられた手順に従って、Visual StudioでC#プロジェクトを作成してください。

  1. Visual Studioを開きます。
  2. C#コンソールアプリケーションテンプレートを選択するか、既存のプロジェクトを開きます。
  3. プロジェクトに適切な名前を付けます。
  4. .NET Framework バージョン 6.0 を選択します。これは最新で最も安定したフレームワークですが、ニーズに応じて他の .NET Framework を選ぶこともできます。

ステップ2: IronPDFライブラリをインストール

IronPDF には、開発時間を短縮し混乱を減らす簡単なインストールプロセスも備わっています。 IronPDF ライブラリには、インストールするための複数の方法があります:

  • NuGet パッケージマネージャーを使用する
  • NuGet パッケージマネージャーを使用する Console
  • DLLファイルによる

方法1: NuGet パッケージマネージャー

NuGet パッケージマネージャーを使用するには、パッケージマネージャータブを開くための手順に従ってください。

C#プロジェクトを開いて、ツール > NuGet パッケージマネージャー > ソリューションの NuGet パッケージを管理をクリックします。

C# PDFをテキストに変換(コード例)、図0: NuGet パッケージマネージャーへの移動 NuGetパッケージマネージャーに移動する

  • 次に、参照タブに移動してIronPDFを検索します。
  • 検索結果からIronPDFを選択し、インストールをクリックします。 これで、プロジェクトでIronPDFライブラリを使用できるようになり、IronPDFライブラリがインストールされます。

C# PDFをテキストに変換(コード例)、図1: NuGet パッケージマネージャーの検索結果からのIronPdfパッケージ NuGet パッケージマネージャーの検索結果からのIronPdfパッケージ

方法2: NuGet パッケージマネージャーコンソール

パッケージマネージャーコンソールを使用してのIronPDFライブラリのインストールは最も簡単な方法です。 これらの簡単な手順に従ってください:

  • パッケージマネージャーコンソールを開きます。
  • コンソールに次の行を書き、Enterを押します。 これにより、すぐにIronPDFライブラリがインストールされます。
Install-Package IronPdf

C# PDFをテキストに変換(コード例)、図2: NuGet パッケージマネージャーコンソールUIに表示されたインストールの進行状況 NuGet パッケージマネージャーコンソールUIに表示されたインストールの進行状況

方法3: DLLファイルを使用

IronPDF DLLファイルをIron Softwareのウェブサイトからダウンロードできます。ダウンロードが完了したら、プロジェクトの参照として使用します。

より詳細なインストールガイドについては、IronPDFインストールガイドをご覧ください。

IronPDFライブラリのインストールはこれで完了です。 次のステップは、PDFファイルをテキストファイルに変換する手順を案内します。

ステップ3: IronPDF名前空間を追加

IronPDFを使用するには、すべてのコードファイルにIronPDF名前空間を追加することが必要です。以下のコード行を関連するすべてのコードファイルの先頭に書いてください。これにより、プログラムでIronPDFの機能を使用できるようになります。

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

ステップ4: PDFドキュメントをテキストファイルに変換

次は、PDFファイルをTXTファイルに変換するか、またはテキストのみを抽出する必要があります。 そこで、以下のサンプルコードをコードファイルに記述してください:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
Imports IronPdf
Imports System

Friend Class Program
	Shared Sub Main()
		' Extracting image and text content from PDF Document

		' Open a 128-bit encrypted PDF
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Get all text to put in a search index
			Dim allText As String = pdf.ExtractAllText()
	
			' Display the extracted text in the console
			Console.WriteLine(allText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

First, open the PDF document using the FromFile function from the PdfDocument class. パラメータには、ファイル名とパスワード(ある場合)を渡してください。 その後、ExtractAllText関数を使用して、PDFファイルからすべてのテキストを抽出し、allTextという名前の変数に格納します。 その後、コンソールに出力テキストを表示します。

出力

C# PDFをテキストに変換(コード例)、図3: PDFドキュメントから抽出されたテキスト PDFドキュメントから抽出されたテキスト

これは、IronPDFによって抽出された出力テキストです。 それはPDFファイルで見られるのと同じテキストであり、IronPDFの精度が非常に高いことを示しています。

結論

この記事では、IronPDF .NET PDFライブラリを使用してPDFファイルからテキストを簡単に抽出する方法を紹介します。 これは、数行のコードを書くだけで非常に高い精度で達成されました。 加えて、IronPDF には、HTML から PDF への変換、PDF の形式設定ツール、および PDF 編集に不可欠なたくさんのコアPDF機能など、多くの便利な機能があります。 IronPDFはアドビアクロバットへの依存も排除します。

IronPDFは開発目的で無料で、製品テスト用の無料トライアルも提供しています。 IronPDF はニーズに応じて入手できる様々な価格プランを提供します。 IronPDFの価格は競合他社に比べて比較的低いです。 個人から大企業に至るまでの価格のバリエーションがあり、印象的なパフォーマンスで納得のいく購入となります。

C# PDFをテキストに変換(コード例)、図4: Iron Software's Suiteの価格プラン Iron Software's Suiteの価格プラン

さらに、Iron Softwareは5つのIron Softwareパッケージを2つの価格で提供しています。 詳細については、Iron Software のライセンス詳細をご覧ください。

よくある質問

C#アプリケーションでPDFドキュメントをテキストに変換する方法は?

IronPDFを使用してC#アプリケーションでPDFドキュメントをテキストに変換するには、PdfDocument.FromFileメソッドを使用してPDFを読み込み、次にExtractAllTextメソッドを呼び出してテキストコンテンツを取得します。

Visual Studio C#プロジェクトでIronPDFを設定するプロセスは?

Visual Studio C#プロジェクトでIronPDFを設定するには、新しいプロジェクトを作成し、NuGetパッケージマネージャー、パッケージマネージャーコンソール、またはDLLを手動で追加してIronPDFをインストールし、コードファイルにIronPDF名前空間を含める必要があります。

IronPDFは暗号化されたPDFファイルを取り扱えますか?

はい、IronPDFは暗号化されたPDFファイルを開いて処理することができ、そこからテキストコンテンツを抽出できます。

PDFをTXT形式に変換する利点は何ですか?

IronPDFを使用してPDFをTXT形式に変換すると、テキストデータのアクセシビリティが向上し、処理や検索が容易になります。これは、テキスト処理や検索を必要とするアプリケーションにとって有益です。

IronPDFはPDFからのテキスト抽出の精度をどのように保証しますか?

IronPDFは、PDF内に表示されるテキストの整合性を維持することでテキスト抽出の高い精度を保証し、さらなる処理のために信頼できる出力を提供します。

IronPDFライブラリのテスト用の無料トライアルは利用可能ですか?

はい、IronPDFは開発およびテストの目的で無料トライアルを提供しており、購入する前にその機能と能力を評価できます。

IronPDFがクロスプラットフォーム開発に適した選択肢である理由は何ですか?

IronPDFはC#および.NETで記述されており、追加の外部ツールなしでクロスプラットフォーム開発に適した選択肢です。

IronPDFはテキスト抽出以外の目的で使用できますか?

はい、IronPDFは、PDF生成、ドキュメント暗号化、フォーム処理、HTMLからPDFへの変換など、テキスト抽出以外にもさまざまな機能を提供します。

IronPDF は PDF からテキストへの変換において .NET 10 をどの程度サポートしていますか?

IronPDFは.NET 10と完全に互換性があり、特別な設定なしですぐに使用できます。.NET 10でIronPDFを使用してPDFをテキストに変換すると、ヒープ割り当ての削減やランタイムの強化など、パフォーマンスの向上による抽出速度の向上とメモリ使用量の削減といったメリットが得られます。

IronPDF を .NET 10 で使用する場合、どのプラットフォームとプロジェクト タイプがサポートされますか?

IronPDF for .NET 10は、Windows(10以降、サーバー)、macOS、Linux、コンテナ環境など、幅広いプラットフォームをサポートしています。コンソール、デスクトップ(WPF、MAUI)、Web(MVC、Blazor)などのプロジェクトタイプに対応し、C#、F#、VB.NETなどの言語をサポートしています。

Curtis Chau
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。