ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
このチュートリアルでは、PDFからデータを読み取る方法を学びます。(ポータブルドキュメントフォーマット)以下の2つのツールを使用したC#でのドキュメント例。
PDFからテキストや画像を抽出できるパーサーライブラリ/リーダーは、オンライン上に多数存在します。 PDFファイルから最新の関連サービスを備えた2つの最も有用で最高のライブラリを使用して情報を抽出します。 また、両方のライブラリを比較して、どちらが優れているかを見つけ出します。
「比較します」 iText 7 そして IronPDF. 進む前に、両方のライブラリを紹介します。
iText 7ライブラリは、iTextSharpの最新バージョンです。これは.NETおよびJavaアプリケーションの両方で使用されます。 ドキュメントエンジンを搭載しています(Adobe Acrobat Readerのように)高レベルおよび低レベルのプログラミング機能、イベントリスナー、PDF編集機能。 iText 7は、エラーなくPDFドキュメントのページを作成、編集、強化できます。 その他の機能には、パスワードの追加、エンコーディング戦略の作成、PDF文書への権限オプションの保存などがあります。 以下の内容を日本語に翻訳してください:
これはコンテンツやキャンバス画像の追加や変更、PDF要素の追加にも使用されます。[辞書など。]透かしとブックマークを作成し、フォントサイズを変更し、機密データに署名します。
iText 7は、.NET環境でWeb、モバイル、デスクトップ、カーネル、クラウドアプリ向けのカスタムPDF処理アプリケーションを構築することを可能にします。
IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。
IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。
技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。
IronPDFはIron Softwareによって開発されたライブラリで、C#やJavaのソフトウェアエンジニアがPDFコンテンツを作成、編集、抽出できるようにします。 通常、この製品はHTML、ウェブページ、または画像からPDFを生成するために使用されます。 それはPDFを読み取り、そのテキストを抽出するために使用されます。 その他の機能には、ヘッダー/フッター、署名、添付ファイル、パスワード、セキュリティ質問の追加が含まれます。 それはマルチスレッドおよび非同期機能による完全なパフォーマンス最適化を提供します。
IronPDFは.NET 5、.NET 6、.NET 7、.NET Core、Standard、Frameworkのクロスプラットフォームに対応しています。 これはWindows、macOS、Linux、Docker、Azure、AWSに対応しています。
では、両方のデモンストレーションをご覧ください。
次のPDFファイルを使用して、PDFからテキストを抽出します。
以下は、iText 7を使用してテキストを抽出するためのソースコードです。
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
{
var pageNumbers = document.GetNumberOfPages();
for (int page = 1; page <= pageNumbers; page++)
{
//new LocationTextExtractionStrategy creates a new text extraction renderer
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(document.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
Console.WriteLine(pageText.ToString());
}
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
{
var pageNumbers = document.GetNumberOfPages();
for (int page = 1; page <= pageNumbers; page++)
{
//new LocationTextExtractionStrategy creates a new text extraction renderer
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(document.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
Console.WriteLine(pageText.ToString());
}
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
Using document As New PdfDocument(New PdfReader(pdfPath))
Dim pageNumbers = document.GetNumberOfPages()
For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
Dim strategy As New LocationTextExtractionStrategy()
Dim parser As New PdfCanvasProcessor(strategy)
parser.ProcessPageContent(document.GetFirstPage())
pageText.Append(strategy.GetResultantText())
Next page
Console.WriteLine(pageText.ToString())
End Using
それでは、IronPDFを使ってPDFからテキストを抽出してみましょう。
次のソースコードは、IronPDFを使用してPDFからテキストを抽出する例を示しています。
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
IronPDFを使用すると、PDFからテキストを抽出するのに2行で済みます。 一方で、iText 7の場合、同じタスクに約10行のコードを書く必要があります。
IronPDFは、標準で便利なテキスト抽出メソッドを提供します。 しかし、iText 7では同じタスクを実行するために独自のロジックを記述する必要があります。
IronPDFはパフォーマンスとコードの可読性の両面において効率的です。
両方のライブラリは精度の面で等しく、どちらも100%の正確な出力を提供します。
iText 7は以下のバージョンで提供されています 商業利用 のみ。 IronPDFは無料で開発することができ、次のようなサービスも提供しています。 無料試用 for 商用利用.
IronPDF と iText 7 の詳細な比較については、こちらをご覧ください。 IronPDF vs. iText 7に関するブログ記事.
9つの .NET API製品 オフィス文書用