製品比較

iText7 PDFからテキストを抽出 vs IronPDF (コード例チュートリアル)

公開済み 2023年2月2日
共有:

このチュートリアルでは、PDFからデータを読み取る方法を学びます。(ポータブルドキュメントフォーマット)以下の2つのツールを使用したC#でのドキュメント例。

PDFからテキストや画像を抽出できるパーサーライブラリ/リーダーは、オンライン上に多数存在します。 PDFファイルから最新の関連サービスを備えた2つの最も有用で最高のライブラリを使用して情報を抽出します。 また、両方のライブラリを比較して、どちらが優れているかを見つけ出します。

「比較します」 iText 7 そして IronPDF. 進む前に、両方のライブラリを紹介します。

iText 7

iText 7

iText 7ライブラリは、iTextSharpの最新バージョンです。これは.NETおよびJavaアプリケーションの両方で使用されます。 ドキュメントエンジンを搭載しています(Adobe Acrobat Readerのように)高レベルおよび低レベルのプログラミング機能、イベントリスナー、PDF編集機能。 iText 7は、エラーなくPDFドキュメントのページを作成、編集、強化できます。 その他の機能には、パスワードの追加、エンコーディング戦略の作成、PDF文書への権限オプションの保存などがあります。 以下の内容を日本語に翻訳してください:

これはコンテンツやキャンバス画像の追加や変更、PDF要素の追加にも使用されます。[辞書など。]透かしとブックマークを作成し、フォントサイズを変更し、機密データに署名します。

iText 7は、.NET環境でWeb、モバイル、デスクトップ、カーネル、クラウドアプリ向けのカスタムPDF処理アプリケーションを構築することを可能にします。

IronPDF

IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。

機能

  • HTML to PDF: HTML、CSS、JavaScriptを利用してPDFを生成。
  • PDFの編集: 既存のPDFドキュメントにテキスト、画像、ページ番号、さらにはカスタムヘッダーやフッターを追加。
  • PDFの読み取り: PDFファイルからテキスト、画像、メタデータを抽出。
  • セキュリティ: パスワード保護や暗号化オプションでPDFドキュメントを保護。

利点

  • 使いやすさ: シンプルなAPIで時間を節約。
  • 高品質: 正確で美しいPDFドキュメントを生成。
  • 柔軟性: 様々なプラットフォームや言語で利用可能。

対応ライセンス

IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。

技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。

IronPDFはIron Softwareによって開発されたライブラリで、C#やJavaのソフトウェアエンジニアがPDFコンテンツを作成、編集、抽出できるようにします。 通常、この製品はHTML、ウェブページ、または画像からPDFを生成するために使用されます。 それはPDFを読み取り、そのテキストを抽出するために使用されます。 その他の機能には、ヘッダー/フッター、署名、添付ファイル、パスワード、セキュリティ質問の追加が含まれます。 それはマルチスレッドおよび非同期機能による完全なパフォーマンス最適化を提供します。

IronPDFは.NET 5、.NET 6、.NET 7、.NET Core、Standard、Frameworkのクロスプラットフォームに対応しています。 これはWindows、macOS、Linux、Docker、Azure、AWSに対応しています。

では、両方のデモンストレーションをご覧ください。

iText 7を使用してPDFファイルからテキストを抽出する

次のPDFファイルを使用して、PDFからテキストを抽出します。

PDFからテキストを抽出する:iText vs IronPDF - 図1: PDFファイル

IronPDF

以下は、iText 7を使用してテキストを抽出するためのソースコードです。

//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
 var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
 using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
    {
      var pageNumbers = document.GetNumberOfPages();
       for (int page = 1; page <= pageNumbers; page++)
        {
//new LocationTextExtractionStrategy creates a new text extraction renderer
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
     PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
     parser.ProcessPageContent(document.GetFirstPage());
     pageText.Append(strategy.GetResultantText());
         }
            Console.WriteLine(pageText.ToString());
     }
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
 Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
 Using document As New PdfDocument(New PdfReader(pdfPath))
	  Dim pageNumbers = document.GetNumberOfPages()
	   For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
	Dim strategy As New LocationTextExtractionStrategy()
	 Dim parser As New PdfCanvasProcessor(strategy)
	 parser.ProcessPageContent(document.GetFirstPage())
	 pageText.Append(strategy.GetResultantText())
	   Next page
			Console.WriteLine(pageText.ToString())
 End Using
VB   C#
PDFからのテキスト抽出: iText vs IronPDF - 図2: 抽出されたテキスト出力

抽出されたテキスト出力

それでは、IronPDFを使ってPDFからテキストを抽出してみましょう。

IronPDFを使用してPDF文書からテキストを抽出

次のソースコードは、IronPDFを使用してPDFからテキストを抽出する例を示しています。

var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
VB   C#
PDFからのテキスト抽出: iText対IronPDF - 図3: IronPDFを使用して抽出されたテキスト

IronPDFを使用したテキスト抽出

比較

IronPDFを使用すると、PDFからテキストを抽出するのに2行で済みます。 一方で、iText 7の場合、同じタスクに約10行のコードを書く必要があります。

IronPDFは、標準で便利なテキスト抽出メソッドを提供します。 しかし、iText 7では同じタスクを実行するために独自のロジックを記述する必要があります。

IronPDFはパフォーマンスとコードの可読性の両面において効率的です。

両方のライブラリは精度の面で等しく、どちらも100%の正確な出力を提供します。

結論

iText 7は以下のバージョンで提供されています 商業利用 のみ。 IronPDFは無料で開発することができ、次のようなサービスも提供しています。 無料試用 for 商用利用.

IronPDF と iText 7 の詳細な比較については、こちらをご覧ください。 IronPDF vs. iText 7に関するブログ記事.

< 以前
IronPDFとの製品比較
次へ >
IronPDFとPDFium.NETの比較