透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
今日のチュートリアルでは、2つの強力なPDFライブラリIronPDFとPDFSharpを使用してPDFドキュメントからテキストを抽出する方法を探ります。 Adobeライブラリライセンスを所有することなく、これらのツールを使用してテキスト抽出がどのように機能するかを学び、互いにどのように比較できるかを学びます。
PDFに特化したライブラリは何十も存在し、それらを比較して機能を学ぶ時間を取ることで、プロジェクトのニーズに合った適切なライブラリを選ぶことができるでしょう。 テキスト抽出は、PDFで実行する必要がある多くのタスクの一例に過ぎません。テキスト抽出は、PDFファイルからデータを効率的に読み取ったり解析したりする必要がある場合に役立ちます。
PDFsharpは、PDFドキュメントをプログラム上で作成および修正するために設計されたオープンソースの.NETライブラリです。 その主な強みはPDFの生成と操作にありますが、適切な外部ライブラリと組み合わせることで、既存のPDFファイルを読み取り、コンテンツを抽出するための基本的なツールも提供します。
PDFsharpは、新しいPDFドキュメントをその場で作成するだけでなく、既存のPDFファイルの変更、ドキュメントの統合および分割、注釈の追加なども行えます。
IronPDFは、C#でPDFドキュメントを扱うプロセスを簡素化するために設計されたプロフェッショナルグレードの.NETライブラリです。 これは、PDFの生成、操作、PDFの暗号化、PDFファイルの変換、PDFページの結合、HTMLからPDFへの変換、コンテンツの抽出などを含むアプリケーションを開発する開発者向けに設計された機能豊富なツールです。
その強力な機能により、IronPDF は小規模なプロジェクトや企業レベルのアプリケーションの両方で PDF を作成および管理するための多用途なソリューションとして際立っています。
IronPDFは、.NET Core、.NET 5、.NET 6、.NET 7などの最新の.NETフレームワークと、.NET Frameworkのような従来のバージョンに対応するように設計されています。 それは、Windows、macOS、Linuxのようなオペレーティングシステム全体でシームレスに動作し、Docker、Azure、AWS環境と完全に互換性があります。 これにより、開発者はPDFワークフローを任意のプラットフォームやクラウドサービスで展開できるようになります。
今日の例では、Visual Studio内でこのPDFドキュメントからテキストを抽出することを試みます。
PDFSharpは、現在のバージョンにおいてPDFドキュメントからのテキスト抽出をネイティブサポートしていません。 これは主に、グラフィックの描画、コンテンツの追加、ドキュメントの結合など、PDFの作成と操作を目的として設計されていますが、独自にテキストを抽出するための組み込みメカニズムには欠けており、特殊文字や高度なエンコーディングの処理ができません。 断片的または不完全なテキスト出力、または実際のPDFコンテンツの代わりに空の文字列を生成する可能性があります。 例:
異なるフォント、エンコーディング、レイアウトに対するサポートがより優れた高度なテキスト抽出が必要な場合は、次のようなより専門的なライブラリを使用する必要があります:
iTextSharp(または iText 7):これは、テキスト抽出と解析に強力なサポートを持つ人気のあるPDFライブラリです。
さて、IronPDF を使用してテキスト抽出がどのように処理されるかを見てみましょう。 IronPDFのテキスト抽出機能は、開発者にPDFドキュメントから効率的にテキストを抽出するための簡潔で強力な方法を提供します。追加のコードでデータ文字列を読みやすいテキストにフォーマットする必要はありません。
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
Imports IronPdf
Public Class Program
Shared Sub Main(ByVal args() As String)
' Provide the file path
Dim pdfPath As String = "invoice.pdf"
' Load the PDF document using IronPDF
Dim pdf = PdfDocument.FromFile(pdfPath)
' Extract all text from the PDF
Dim text = pdf.ExtractAllText()
' Output the extracted text
Console.WriteLine(extractedText)
End Sub
End Class
IronPDFは、指定されたPDFパスからテキストを抽出するためのシンプルで効率的なAPIを提供します。 その抽出されたテキストが構造化され、正確であることを保証し、アプリケーションでPDFコンテンツを処理する必要がある開発者にとって信頼できるオプションとなります。
PDFSharp は基本的なPDFの作成と操作に適した無料のオープンソースライブラリですが、機能が限られており、複雑なPDFには対応しにくいです。 理論上、PDFファイルからテキストを抽出するために使用することができるかもしれませんが、これは高度なテキスト解析を必要とし、断片化された出力をもたらす可能性があります。
IronPDF は、正確なテキスト抽出、HTMLからPDFへの変換、最新のPDF標準のサポートなど、より高度な機能を備えた堅牢なソリューションを提供します。 直感的なAPIで、パフォーマンスと使いやすさが最適化されています。 開発用としては無料ですが、有料ライセンス階層のための商用ライセンスも提供しています。
PDFsharpとIronPDFは、C#でPDFからテキストの抽出に使用できる貴重なツールですが、異なるユースケースに対応しています。
IronPDF は、一方でテキスト抽出、HTMLからPDFへの変換、高度なPDF編集タスクにおいて優れています。 その使いやすさ、クロスプラットフォーム互換性、豊富な機能により、プロフェッショナルグレードのPDFワークフローを処理する開発者にとって好まれる選択肢となっています。
IronPDFが他のライブラリをどのように上回るかについての詳細は、公式のIronPDF Documentationをご覧ください。