透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
このチュートリアルでは、テキストを抽出する方法を、C#で2つの異なるPDFライブラリを使用してPDF (Portable Document Format) ドキュメントから探ります。
現代のウェブ時代において、PDFファイルからテキストや画像を抽出して解析や読み取りを行うことができるライブラリが数多く存在します。 今日は、2つの強力なPDFライブラリ、IronPDFとQuestPDFを使ってPDFファイルからテキストを抽出します。これらのライブラリがどのように単純なテキスト抽出タスクを処理するかを比較することで、どちらが高度なPDFタスクの処理により適しているかを判断できます。 比較セクションに入る前に、それぞれのライブラリの簡単な紹介を見てみましょう。
QuestPDFは、特に.NET開発者向けに設計された先進的なオープンソースのPDF生成ライブラリです。 それは、ユーザーが高い柔軟性と精度を持って複雑なPDFレイアウトを定義および生成できるモダンな宣言的APIを利用します。 QuestPDFの主な焦点はテキスト抽出ではなくドキュメント生成にありますが、ゼロからドキュメントを作成し、ドキュメント内のさまざまな要素を操作するための、わかりやすく直感的なアプローチを提供します。 これは、カスタマイズされた動的なPDFコンテンツを必要とするアプリケーションに特に適しています。
IronPDFは、C#でのPDF操作をより簡単かつ効率的にするために設計された多用途のPDF処理ライブラリです。 QuestPDFとは異なり、IronPDFはPDFの生成と操作の両方に特化して構築されています。 提供される機能には、PDF暗号化、既存のPDFの編集と注釈の広範なサポート、さまざまなドキュメントをPDF形式に変換、ヘッダーとフッターの追加(ページ番号を表示するために使用可能)、ドキュメントメタデータの編集、マルチスレッドおよび非同期サポート、高度なPDF変換ツールなどがあります。
豊富な機能セットに加え、IronPDFは.NET 5/6/7、.NET Core、.NET Frameworkをサポートすることにより、完全なクロスプラットフォームサポートを提供します。 また、Windows、macOS、Linux、およびAzureやAWSのようなクラウドプラットフォームとも完全に互換性があるため、クロスプラットフォームの.NETアプリケーションに最適な選択となります。
今日の例では、両方のライブラリを使用して、例の請求書PDFドキュメントからテキストを抽出します。
まず、QuestPDFがこのタスクを処理できるかどうかを見ていきます。
残念ながら、QuestPDFはPDF作成や特定のPDFタスクのパフォーマンスに優れていますが、テキスト抽出は現在提供されている機能に含まれていません。 QuestPDFは既存のPDFファイルからテキストを抽出するように設計されているわけではありませんが、PDFを扱うための基本的なツールを提供しており、追加のロジックやサードパーティの統合によってテキスト抽出を拡張することができます。 例えば、QuestPDFを使用して構造化されたコンテンツを持つPDFドキュメントを生成し、サードパーティのライブラリを使用してドキュメントの構造に基づいてコンテンツを抽出するためのカスタムソリューションを実装することができます。
テキスト抽出は、IronPDFがPDFを扱う際に卓越しているタスクの一つです。わずか数行のコードで、PDFドキュメント全体からテキストを抽出することができます。 これは次のコードスニペットで見ることができます:
using IronPdf;
public class Program
{
public static void main(string[] args)
{
PdfDocument pdf = PdfDocument.FromFile("exampleInvoice.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
}
}
using IronPdf;
public class Program
{
public static void main(string[] args)
{
PdfDocument pdf = PdfDocument.FromFile("exampleInvoice.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
}
}
Imports IronPdf
Public Class Program
Public Shared Sub main(ByVal args() As String)
Dim pdf As PdfDocument = PdfDocument.FromFile("exampleInvoice.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
End Sub
End Class
IronPDFはテキストを抽出するためのシンプルなAPIを提供しており、効率を重視する開発者にとって理想的です。 わずか3行で、PDFドキュメント内のテキストコンテンツを抽出して表示し、読むことができました。 ここから、抽出されたテキストを簡単に保存して、さらに使用したり操作したりできます。
一方、QuestPDFは、IronPDFのようなライブラリに比べて機能が限られているため、テキスト抽出のようなタスクを処理することができませんでした。 PDFの生成や基本的な操作など他のタスクを処理できますが、テキストを抽出するためには外部ライブラリを実装する必要があります。
テキストを抽出する場合。 QuestPDFは、プライベートプロジェクトに対してコミュニティライセンスを使用することで無料ですが、商用ライセンスのオプションもあります。
どちらのライブラリも正確で信頼性がありますが、最終的にはプロジェクトの要件に依存します。
これらのライブラリをより詳しく比較するには、IronPDF vs QuestPDFに関する完全なブログをご覧ください。