IRONPDFの使用

C# PDFをテキストに変換 (コード例)

この記事では、.NET開発者がPDFファイルをTXT形式に変換してより効率的にアクセスするプロセスを説明します。

チュートリアルのトピック

  • IronPDF
  • プログラムによってPDFファイルを作成する手順
  • ステップ1: C#プロジェクトを作成
  • ステップ 2: IronPDFライブラリをインストールする

    • 方法 1: NuGet パッケージ マネージャー

    • 方法2: NuGet パッケージマネージャーコンソール
  • 方法 3: DLLファイルの使用
  • ステップ 3: IronPDF 名前空間を追加
  • ステップ 4: PDF をテキストに変換
  • 出力
  • 結論

IronPDF

IronPDFは、PDF生成のための.NETライブラリです。 それはネイティブの .NET ライブラリであり、外部DLLや他のツールに依存しません。 IronPDFは、PDFドキュメントを扱うために必要なすべての機能を提供するC#と.NETで書かれたクロスプラットフォームライブラリです。 ドキュメントのレンダリング、フォームの編集、テキストの抽出、ファイルの暗号化、およびその他の機能が含まれています。 これらすべての操作は、Windows Forms、WPF、ASP.NET MVCなどのさまざまなプラットフォームで広範にテストされてきた直感的なAPIを通じて実行できます。

現在リリースされているIronPDFでは、次の機能に簡単にアクセスできます:

PDFドキュメントをテキストファイルに変換する手順

最初のステップは、Visual StudioでC#プロジェクトを作成することです。 ニーズに応じて任意のC#アプリケーションテンプレートを選択できます。 簡便化のために、このチュートリアルではコンソールアプリケーションテンプレートを使用します。 既存のC#プロジェクトを使用してPDFファイルをTXTファイルに変換することができます。

ステップ1:C#プロジェクトを作成

Visual StudioでC#プロジェクトを作成するか、既存のプロジェクトを開きます。 最新バージョンのVisual Studioを推奨します。スムーズに動作します。 次の手順に従って、Visual StudioでC#プロジェクトを作成してください。

  1. Visual Studioを開きます。

  2. C#コンソールアプリケーションテンプレートを選択するか、既存のプロジェクトを開いてください。

  3. プロジェクトに適切な名前をつけてください。

  4. .NET Framework のバージョン 6.0 を選択してください。これは最新かつ最も安定した .NET のフレームワークですが、必要に応じて他の .NET Framework を選択することもできます。

ステップ 2: IronPDFライブラリをインストールする

IronPDF には、インストールが簡単であるため開発時間が短縮され、混乱を減らす機能も備わっています。 IronPDFライブラリは複数のインストール方法を提供しています:

  • NuGet パッケージ マネージャーの使用
  • NuGet パッケージ マネージャー コンソールを使用
  • DLLファイルによる

方法 1: NuGet パッケージ マネージャー

NuGet パッケージ マネージャーを使用するには、指定された手順に従ってパッケージ マネージャー タブを開いてください。

C#プロジェクトを開き、ツール > NuGetパッケージマネージャー > ソリューションのNuGetパッケージを管理するをクリックします。

C# PDFをテキストに変換する(コード例)、図0:NuGetパッケージマネージャーに移動

NuGet パッケージ マネージャーに移動

  • 次に、ブラウズタブに移動し、IronPDFを検索してください。
  • 検索結果からIronPDFを選択し、インストールをクリックします。 これにより、IronPDF ライブラリがインストールされ、プロジェクトで IronPDF ライブラリを利用できるようになります。

    C# PDFをテキストに変換(コード例)、図1: NuGet パッケージ マネージャの検索結果からの IronPdf パッケージ

    NuGetパッケージマネージャーの検索結果からのIronPdfパッケージ

方法2: NuGet パッケージマネージャーコンソール

Package Manager Console で IronPDF ライブラリをインストールするのが最も簡単な方法です。 以下の簡単な手順に従ってください:

  • パッケージマネージャーコンソールを開きます。
  • 次の行をコンソールに書き込み、Enterキーを押してください。 これですぐにIronPDFライブラリがインストールされます。
Install-Package IronPdf

C# PDFをテキストに変換する(コード例)、図2: NuGetパッケージマネージャーコンソールUIに表示されたインストールの進行状況

NuGetパッケージマネージャーコンソールUIに表示されるインストール進行状況

方法3: DLLファイルの使用

Iron SoftwareのウェブサイトからIronPDF DLLファイルをダウンロードできます。ダウンロードが完了したら、それをプロジェクトの参照として使用してください。

より詳細なインストールガイドについては、IronPDFインストールガイドをご覧ください。

IronPDFライブラリのインストールが完了しました。 以下の手順に従ってPDFファイルをテキストファイルに変換することができます。

ステップ 3: IronPDF 名前空間を追加

IronPDFを使用するには、すべてのコードファイルにIronPDFの名前空間を追加する必要があります。関連するすべてのコードファイルの先頭に次のコード行を書いてください。これにより、プログラム内でIronPDFの機能を使用できるようになります。

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

ステップ4: PDFドキュメントをテキストファイルに変換

PDFファイルをTXTファイルに変換するか、テキストのみを抽出する必要があります。 では、以下のサンプルコードをコードファイルに書き込んでください:

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing

' Extracting image and text content from PDF Document

' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
$vbLabelText   $csharpLabel

まず、FromFile関数を使用してPdfDocumentクラスからPDF文書を開きます。 パラメーターでは、ファイル名とパスワード(ある場合)を渡します。 その後、PDFファイルからすべてのテキストを抽出し、allTextという名前の変数に格納するために、ExtractAllText関数を使用します。 コンソールに出力される以下の内容を翻訳します:

以下の内容をコンソールに表示します

出力

C# PDFをテキストに変換(コード例)、図3: PDFドキュメントから抽出されたテキスト

PDFドキュメントから抽出されたテキスト

これはIronPDFによって抽出された出力テキストです。 IronPDFの精度が非常に正確であることを示すために、PDFファイルと同じテキストを使用しています。

結論

この記事では、IronPDF .NET PDFライブラリを使用してPDFファイルからテキストを簡単に抽出する方法を紹介します。 これは数行のコードを書くことで達成され、高い精度で実現されました。 また、IronPDFには、HTMLからPDFへの変換、PDFの書式設定ツールなど、PDF編集に不可欠な多くの基本的なPDF機能を備えています。 IronPDFはAdobe Acrobatへの依存も排除します。

IronPDF は開発目的で無料であり、プロダクションテスト用の無料試用も提供しています。 IronPDFは、ニーズに応じて様々な価格プランを提供しています。 IronPDFの価格は競合他社に比べてかなり低く設定されています。 価格は個人から大企業まで様々で、その優れたパフォーマンスから魅力的な購入対象となっています。

C# PDFをテキストに変換する(コード例)、図4:Iron SoftwareのSuiteの価格プラン

Iron Software Suite の価格プラン

さらに、Iron Softwareは、5つのIron Softwareパッケージを2つの価格で提供しています。 詳細については、Iron Software のライセンス情報をご覧ください。

チペゴ
ソフトウェアエンジニア
チペゴは優れた傾聴能力を持ち、それが顧客の問題を理解し、賢明な解決策を提供する助けとなっています。彼は情報技術の学士号を取得後、2023年にIron Softwareチームに加わりました。現在、彼はIronPDFとIronOCRの2つの製品に注力していますが、顧客をサポートする新しい方法を見つけるにつれて、他の製品に関する知識も日々成長しています。Iron Softwareでの協力的な生活を楽しんでおり、さまざまな経験を持つチームメンバーが集まり、効果的で革新的な解決策を提供することに貢献しています。チペゴがデスクを離れているときは、良い本を楽しんだり、サッカーをしていることが多いです。
< 以前
C# でバイト配列をPDFに保存(コード例)
次へ >
複数ページを1つのPDFファイルにスキャンする方法