using IronPdf; // Disable local disk access or cross-origin requests Installation.EnableWebSecurity = true; // Instantiate Renderer var renderer = new ChromePdfRenderer(); // Create a PDF from a HTML string using C# var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>"); // Export to a file or Stream pdf.SaveAs("output.pdf"); // Advanced Example with HTML Assets // Load external html assets: Images, CSS and JavaScript. // An optional BasePath 'C:\site\assets\' is set as the file location to load assets from var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\"); myAdvancedPdf.SaveAs("html-with-assets.pdf");

製品比較

PDFsharpでPDFからテキストを抽出する VS IronPDF（例）

カーティス・チャウ

更新日:2026年1月18日

今日のチュートリアルでは、強力なPDFライブラリであるIronPDFとPDFsharpを使用してPDFドキュメントからテキストを抽出する方法を探ります。 Adobeライブラリを持たずに、これらのツールでテキスト抽出の仕組みを学びます。

選択肢として数十のPDF専用ライブラリがあり、それらを比較し、機能がどのように動作するかを学ぶことで、プロジェクトのニーズに合ったライブラリを選ぶことができます。テキスト抽出は、PDFs上で実行する必要があるかもしれないタスクの多くの例の1つに過ぎず、特にPDFファイルからデータを効率的に読み取ったり解析したりする必要がある場合に役立ちます。

PDFsharp

PDFsharpは、プログラムでPDFドキュメントを作成および変更するために設計されたオープンソース for .NETライブラリです。その主な強みはPDFの生成と操作にありますが、適切な外部ライブラリと組み合わせることで、既存のPDFファイルを読み取り、コンテンツを抽出するための基本的なツールも提供します。

PDFsharpは、新しいPDFドキュメントの作成を超え、既存のPDFファイルを変更したり、ドキュメントを統合および分割したり、注釈を追加したりすることに使うことができます。

IronPDF

IronPDFは、C#でPDFドキュメントを扱うプロセスを簡素化するために設計された業界標準 for .NETライブラリです。 PDFの生成、操作、PDF暗号化、PDFファイルの変換、PDFページの結合、HTMLからPDFへの変換、コンテンツ抽出などを含む、アプリケーションを構築するための機能豊富なツールです。

その強力な機能により、IronPDFは小規模プロジェクトおよびエンタープライズレベルのアプリケーションの両方でPDFを作成および管理するための多用途なソリューションとして際立っています。

IronPDFは、.NET Core、.NET 5、.NET 6、.NET 7などの最新 for .NETフレームワークおよび.NET Frameworkのようなレガシーバージョンと互換性があるように設計されています。 Windows、macOS、Linuxなどのオペレーティングシステムでシームレスに動作し、Docker、Azure、AWS環境とも完全に互換性があります。これにより、開発者は任意のプラットフォームやクラウドサービスでPDFのワークフローをデプロイできます。

今日の例のために、Visual Studio内でこのPDFドキュメントからテキストを抽出してみましょう。

PDFsharpを使用してPDFファイルからテキストを抽出する

PDFSharpは、現在のバージョンではPDFドキュメントからのテキスト抽出のネイティブサポートがありません。主にPDFの作成と操作、グラフィックスの描画、内容の追加、ドキュメントの統合などを目的として設計されていますが、独自のテキスト抽出メカニズムがなく、特殊文字、高度なエンコーディングなどを処理できません。断片的または不完全なテキスト出力が生じ、PDF内容の代わりに空の文字列が出力されることがあります。 6. ironpdfengine コンテナを実行します。

PDFsharp による PDF からのテキスト抽出とIronPDF の比較 (例): 図 3

異なるフォント、エンコーディング、レイアウトに対する強力なサポートを持つ高度なテキスト抽出が必要な場合は、より専門的なライブラリを使用する必要があるかもしれません。

iTextSharp (またはiText 7): テキスト抽出と解析に強い人気のあるPDFライブラリです。
Pdfium:特に複雑な書式の PDF からテキストを抽出するのに優れたもう 1 つのオプションです。

IronPDFを使用してPDFファイルからテキストを抽出する

さて、テキスト抽出がIronPDFを使用してどのように処理されるかを見てみましょう。 IronPDFのテキスト抽出機能は、開発者に対してPDFドキュメントから効率的にテキストを抽出するための簡潔で強力なメソッドを提供し、データ文字列を正しくフォーマットして読み取り可能なテキストにするために追加のコードが必要ありません。

using IronPdf;

public class Program
{
    public static void Main(string[] args)
    {
        // Provide the file path to the PDF document
        string pdfPath = @"invoice.pdf"; 

        // Load the PDF document using IronPDF
        var pdf = PdfDocument.FromFile(pdfPath);

        // Extract all text from the PDF
        var extractedText = pdf.ExtractAllText();

        // Output the extracted text to the console
        Console.WriteLine(extractedText);
    }
}

using IronPdf;

public class Program
{
    public static void Main(string[] args)
    {
        // Provide the file path to the PDF document
        string pdfPath = @"invoice.pdf"; 

        // Load the PDF document using IronPDF
        var pdf = PdfDocument.FromFile(pdfPath);

        // Extract all text from the PDF
        var extractedText = pdf.ExtractAllText();

        // Output the extracted text to the console
        Console.WriteLine(extractedText);
    }
}

$vbLabelText $csharpLabel

PDFsharp による PDF からのテキスト抽出とIronPDF の比較 (例): 図 4

IronPDFは与えられたPDFパスからテキストを抽出するための簡単で効率的なAPIを提供します。抽出されたテキストが構造的で正確であることを保証し、アプリケーションでPDFコンテンツを処理する必要がある開発者にとって信頼できるオプションとなっています。

比較

PDFSharpは基本的なPDF作成と操作に適した無料のオープンソースライブラリである一方、機能には制限があり、複雑なPDFには苦戦します。理論的にはPDFファイルからテキストを抽出するために使用できるかもしれませんが、高度なテキスト解析を必要とし、断片的な出力をもたらすことがあります。

IronPDFは、正確なテキスト抽出、HTMLからPDFへの変換、現代のPDF標準への対応など、高度な機能を備えたより堅牢なソリューションを提供します。直感的なAPIで、パフォーマンスと使いやすさが最適化されています。開発には無料で利用でき、商用ライセンスのための商用ライセンスも提供しています。

結論

PDFsharpとIronPDFの両方ともC#でPDFからテキストを抽出するための貴重なツールですが、異なるユースケースに対応しています:

PDFSharp は、基本的なPDF作成とテキスト抽出のための無料のオープンソースライブラリを必要とする開発者に最適な選択肢です。ただし、そのテキスト抽出機能は限定的で、より複雑なアプリケーションのニーズを満たさないかもしれません。
他方でIronPDFはテキスト抽出、HTMLからPDFへの変換、高度なPDF編集タスクに優れています。その使いやすさ、クロスプラットフォーム互換性、広範な機能は、プロフェッショナルなPDFワークフローを扱う開発者にとって優れた選択肢となっています。

IronPDFが他のライブラリを上回る方法についての詳細な検討は、公式のIronPDFドキュメントをご覧ください。

ご注意PDFsharpはその所有者の登録商標です。このサイトはPDFsharpと提携しておらず、承認や後援を受けていません。すべての製品名、ロゴ、ブランドはそれぞれの所有者の所有物です。比較は情報提供のみを目的としており、執筆時点で公開されている情報を反映しています。

よくある質問

.NETライブラリを使用してPDFドキュメントからテキストを抽出するにはどうすればよいですか？

IronPDFを使用すると、PDFドキュメントから効率的にテキストを抽出できます。IronPDFは追加のテキストフォーマット用コードを必要とせず、構造化され正確なテキストを提供します。

PDFsharpを使用する際のテキスト抽出の制限は何ですか？

PDFsharpは主にPDFの作成と変更を目的としており、効率的なテキスト抽出をサポートするネイティブ機能が欠けています。これにより、複雑なPDFドキュメントからテキストを抽出しようとする際に断片的または不完全なテキスト出力が発生する可能性があります。

PDFからのテキスト抽出においてPDFsharpよりもIronPDFを選ぶ理由は何ですか？

IronPDFは強力なテキスト抽出機能を提供し、正確で構造化されたテキスト結果を提供します。複雑なPDF形式や最新 for .NETフレームワークをサポートしており、包括的なテキスト抽出タスクにおいて、PDFsharpよりも多用途な選択肢となります。

IronPDFはクロスプラットフォームのPDF開発に使用できますか？

はい、IronPDFは最新 for .NETフレームワークと互換性があり、Windows、macOS、Linuxでのクロスプラットフォーム開発をサポートしています。また、Docker、Azure、AWSなどのクラウドサービスともシームレスに動作します。

PDFシャープ以外のPDFテキスト抽出の代替は何ですか？

PDFsharpのテキスト抽出の代替には、先進的なテキスト抽出機能を提供するIronPDFや、テキスト抽出と解析の強力なサポートで知られるiTextSharp (iText 7)、Pdfiumがあります。

IronPDFはプロフェッショナルグレードのPDF操作に適していますか？

はい、IronPDFはPDF生成、操作、暗号化、HTMLからPDFへの変換の広範な機能を提供するプロフェッショナルグレード for .NETライブラリであり、プロフェッショナルな環境における高度なPDFワークフローに理想的です。

IronPDFのようなライブラリを使用するユースケースは何ですか？

IronPDFはPDF生成、操作、テキスト抽出、HTMLからPDFへの変換、高度なPDF編集タスクを含むアプリケーションに適しており、信頼性が高く効率的なPDFソリューションを必要とする開発者にとって理想的な選択です。

無料の使用と商業ライセンスの両方を提供するライブラリはありますか？

IronPDFは開発目的での無料使用を提供し、有料のティアには商業的なライセンスも提供され、さまざまなプロジェクトのニーズとプロフェッショナルな要件に対応しています。

カーティス・チャウ

今すぐエンジニアリングチームとチャット

テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT（Internet of Things）への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。

顧客ハイライト:

開発者スポットライト:

ウェビナー:

30日間無料トライアルを開始