透かしなしで本番環境でテストしてください。
必要な場所で動作します。
30日間、完全に機能する製品をご利用いただけます。
数分で稼働させることができます。
製品トライアル期間中にサポートエンジニアリングチームへの完全アクセス
今日のチュートリアルでは、2つの強力なPDFライブラリを使用してPDFドキュメントからテキストを抽出する方法を探ります。IronPDF以下のコンテンツを日本語に翻訳してください:[PDFSharp
](https://docs.pdfsharp.net). Adobeライブラリライセンスを所有することなく、これらのツールを使用してテキスト抽出がどのように機能するかを学び、互いにどのように比較できるかを学びます。
PDFに特化したライブラリは何十も存在し、それらを比較して機能を学ぶ時間を取ることで、プロジェクトのニーズに合った適切なライブラリを選ぶことができるでしょう。 テキスト抽出は、PDFで実行する必要がある多くのタスクの一例に過ぎません。テキスト抽出は、PDFファイルからデータを効率的に読み取ったり解析したりする必要がある場合に役立ちます。
PDFsharpは、PDFドキュメントをプログラム上で作成および修正するために設計されたオープンソースの.NETライブラリです。 その主な強みはPDFの生成と操作にありますが、適切な外部ライブラリと組み合わせることで、既存のPDFファイルを読み取り、コンテンツを抽出するための基本的なツールも提供します。
PDFsharpは、新しいPDFドキュメントをその場で作成するだけでなく、既存のPDFファイルの変更、ドキュメントの統合および分割、注釈の追加なども行えます。
IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。
IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。
技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。
IronPDFは、C#でPDFドキュメントを扱うプロセスを簡素化するために設計されたプロフェッショナルグレードの.NETライブラリです。 PDF生成を含むアプリケーションを構築する開発者向けに設計された、機能が豊富なツールです。操作, PDF暗号化、PDFファイルを変換する、PDFページを結合する, HTMLからPDFへの変換、コンテンツ抽出、その他。
その強力な機能により、IronPDF は小規模なプロジェクトや企業レベルのアプリケーションの両方で PDF を作成および管理するための多用途なソリューションとして際立っています。
IronPDFは、.NET Core、.NET 5、.NET 6、.NET 7などの最新の.NETフレームワークと、.NET Frameworkのような従来のバージョンに対応するように設計されています。 それは、Windows、macOS、Linuxのようなオペレーティングシステム全体でシームレスに動作し、Docker、Azure、AWS環境と完全に互換性があります。 これにより、開発者はPDFワークフローを任意のプラットフォームやクラウドサービスで展開できるようになります。
今日の例では、試みる予定ですテキストを抽出Visual Studio内のこのPDFドキュメントから:
PDFSharpは、現在のバージョンにおいてPDFドキュメントからのテキスト抽出をネイティブサポートしていません。 これは主に、グラフィックの描画、コンテンツの追加、ドキュメントの結合など、PDFの作成と操作を目的として設計されていますが、独自にテキストを抽出するための組み込みメカニズムには欠けており、特殊文字や高度なエンコーディングの処理ができません。 断片的または不完全なテキスト出力、または実際のPDFコンテンツの代わりに空の文字列を生成する可能性があります。 例:
異なるフォント、エンコーディング、レイアウトに対するサポートがより優れた高度なテキスト抽出が必要な場合は、次のようなより専門的なライブラリを使用する必要があります:
iTextSharp(または iText 7)これは、テキスト抽出と解析の強力なサポートを備えた人気のあるPDFライブラリです。
さて、次にどのようにするか見てみましょうテキスト抽出はIronPDFを使用して処理されます。 IronPDFのテキスト抽出機能は、開発者にPDFドキュメントから効率的にテキストを抽出するための簡潔で強力な方法を提供します。追加のコードでデータ文字列を読みやすいテキストにフォーマットする必要はありません。
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
using IronPdf;
public class Program
{
static void Main(string[] args)
{
// Provide the file path
string pdfPath = @"invoice.pdf";
// Load the PDF document using IronPDF
var pdf = PdfDocument.FromFile(pdfPath);
// Extract all text from the PDF
var text = pdf.ExtractAllText();
// Output the extracted text
Console.WriteLine(extractedText);
}
}
IronPDFは、指定されたPDFパスからテキストを抽出するためのシンプルで効率的なAPIを提供します。 その抽出されたテキストが構造化され、正確であることを保証し、アプリケーションでPDFコンテンツを処理する必要がある開発者にとって信頼できるオプションとなります。
PDFSharpは、基本的なPDF作成と操作に適した無料のオープンソースライブラリですが、機能が制限されており、複雑なPDFには対応しにくいです。 理論上、PDFファイルからテキストを抽出するために使用することができるかもしれませんが、これは高度なテキスト解析を必要とし、断片化された出力をもたらす可能性があります。
IronPDF は、正確なテキスト抽出、HTMLからPDFへの変換、最新のPDF標準のサポートなど、高度な機能を備えたより強力なソリューションを提供します。 直感的なAPIで、パフォーマンスと使いやすさが最適化されています。 開発用には無料ですが、それに加えて商業ライセンス有料ライセンス層向けに。
PDFsharpとIronPDFはどちらも、扱いにおいて価値のあるツールです。テキストの抽出C#でPDFからですが、それぞれ異なるユースケースに対応しています:
一方、IronPDF は、テキスト抽出、HTML から PDF への変換、および高度な PDF 編集タスクに優れています。 その使いやすさ、クロスプラットフォーム互換性、豊富な機能により、プロフェッショナルグレードのPDFワークフローを処理する開発者にとって好まれる選択肢となっています。
についての詳細な情報はIronPDF他のライブラリより優れている、公式を訪問する**IronPDFドキュメンテーション.