ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
PDFは、Adobe Acrobat Readerによって作成されたポータブルドキュメント形式であり、インターネット上でデジタル情報を共有するために広く使用されています。 それはデータのフォーマットを保持し、セキュリティ権限の設定やパスワード保護といった機能を提供します。 C#開発者として、あなたのソフトウェアアプリケーションにPDF機能を統合する必要があるシナリオに直面したことがあるかもしれません。 スクラッチから構築するのは、時間がかかり面倒な作業となる可能性があります。 したがって、アプリケーションのパフォーマンス、効果、および効率を考慮すると、ゼロから新しいサービスを作成するか、プリビルトライブラリを使用するかのトレードオフは重要です。
C# 用の PDF ライブラリはいくつかあります。 この記事では、C#でPDFドキュメントを読み取るための最も人気のある2つのPDFライブラリを探ります。
iText 7旧称iText 7 Coreと呼ばれていたのは、.NET C#およびJavaでPDF文書をプログラムするためのPDFライブラリです。 オープンソースライセンスとして提供されています。 (AGPL) そして、商業アプリケーションにライセンス供与することができます。
iText Coreは、可能な限りあらゆる方法でPDFを生成および編集するための簡単な方法を提供する高レベルAPIです。 iText 7 Coreでは、PDFファイルの分割、結合、注釈の追加、フォームの入力、デジタル署名など多くのことが可能です。 iText 7は、 HTMLからPDFへのコンバーター.
IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。
IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。
技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。
IronPDF は、URL、HTMLファイル、またはHTML文字列からHTML、CSS、JavaScriptを使用してPDFドキュメントを生成するために使用される.NETおよび.NET Framework C#およびJava APIです。 IronPDFを使用すると、既存のPDFファイルを分割、結合、注釈追加、デジタル署名など多くの操作が可能です。
IronPDFは、PDFファイルの作成、読み取り、および編集に50以上の機能が搭載されています。 それは、Adobe Acrobat Readerを使用して高品質でピクセルパーフェクトなプロフェッショナルPDFファイルを作成する際に、速度、使いやすさ、および正確さを優先します。 APIは十分に文書化されており、コード例のページには多くのサンプルソースコードが掲載されています。
最初にアプリケーションを作成するために、Visual Studio 2022 IDEを使用します。 Visual StudioはC#開発の公式IDEであり、インストールしておく必要があります。 以下からダウンロードできます マイクロソフト ビジュアル スタジオのウェブサイト, 未インストールの場合。
以下の手順で「DemoApp」という名前の新しいプロジェクトを作成します。
Visual Studio を開き、「Create a New Project」をクリックしてください。
「コンソールアプリケーション」を選択し、「次へ」をクリックします。
プロジェクトの名前を設定してください。
.NETバージョンを選択してください。 安定版の.NET 6.0を選択してください。
プロジェクトが作成されたら、IronPDFライブラリをプロジェクトにインストールする必要があります。 インストールするには、次の手順に従ってください。
ソリューションエクスプローラーまたはツールからNuGetパッケージマネージャーを開きます。
IronPDFライブラリを閲覧し、現在のプロジェクトに選択してください。 「インストール」をクリックします。
Program.csファイルの上部に次の名前空間を追加します。
using IronPdf;
using IronPdf;
Imports IronPdf
プロジェクトが作成されたら、iText 7ライブラリをプロジェクトにインストールして使用する必要があります。 インストールする手順に従ってください。
ソリューションエクスプローラーまたはツールからNuGetパッケージマネージャーを開きます。
iText 7ライブラリを検索して、現在のプロジェクトに選択してください。 インストールをクリックしてください。
以下の名前空間をProgram.csファイルの先頭に追加します
using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf;
Imports iText.Kernel.Pdf.Canvas.Parser.Listener
Imports iText.Kernel.Pdf.Canvas.Parser
Imports iText.Kernel.Pdf
以下のPDFファイルを使用してテキストを抽出します。 それは2ページのPDFドキュメントです。
iTextライブラリを使用してPDFファイルを開くには、2段階のプロセスがあります。 まず、PdfReader
オブジェクトを作成し、ファイルの場所をパラメータとして渡します。 次に、PdfDocument
クラスを使用して新しいPDFドキュメントを作成します。 コードは次のようになります:
PdfReader pdfReader = new PdfReader("sample.pdf");
PdfDocument pdfDoc = new PdfDocument(pdfReader);
PdfReader pdfReader = new PdfReader("sample.pdf");
PdfDocument pdfDoc = new PdfDocument(pdfReader);
Dim pdfReader As New PdfReader("sample.pdf")
Dim pdfDoc As New PdfDocument(pdfReader)
IronPDFを使用してPDFファイルを開くのは簡単です。 PdfDocument
クラスのFromFile
メソッドを使用して、任意のファイル場所からPDFを開く。 次の一行コードで、データを読み取るためにPDFファイルを開きます:
var pdf = PdfDocument.FromFile("sample.pdf");
var pdf = PdfDocument.FromFile("sample.pdf");
Dim pdf = PdfDocument.FromFile("sample.pdf")
iText 7ライブラリでPDFデータを読み取るのはそれほど簡単ではありません。 PDFドキュメントの各ページからテキストを抽出するために、各ページを手動でループする必要があります。 以下のソースコードは、PDFドキュメントからページごとにテキストを抽出するのに役立ちます:
for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
Console.WriteLine(pageContent);
}
pdfDoc.Close();
pdfReader.Close();
for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
Console.WriteLine(pageContent);
}
pdfDoc.Close();
pdfReader.Close();
Dim page As Integer = 1
Do While page <= pdfDoc.GetNumberOfPages()
Dim strategy As ITextExtractionStrategy = New SimpleTextExtractionStrategy()
Dim pageContent As String = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy)
Console.WriteLine(pageContent)
page += 1
Loop
pdfDoc.Close()
pdfReader.Close()
上記のコードには多くの処理が行われています。 まず、テキスト抽出戦略を宣言し、その後に PdfExtractor
クラスの GetTextFromPage
メソッドを使用してテキストを読み取ります。 このメソッドは2つのパラメータを受け取ります。最初のパラメータはPDFドキュメントのページで、2番目のパラメータはストラテジーです。 PDFドキュメントのページを取得するには、PdfDocument
のインスタンスを使用してGetPage
メソッドを呼び出し、パラメーターとしてページ番号を渡します。 出力は文字列として返され、その後コンソール出力画面に表示されます。 最後に、PDFReader
と PdfDocument
オブジェクトを閉じます。 以下のコード例もご覧ください これ.
PDFファイルを開くのが1行のコードであるのと同様に、PDFファイルからテキストを読み取るのも1行のプロセスです。 PDFDocument
クラスは、ExtractAllText
メソッドを提供します 全文をお読みください ファイルから読み取ります。Console.WriteLine
は画面にテキストを出力するために使用されます。 コードは以下の通りです:
string text = pdf.ExtractAllText();
Console.WriteLine(text);
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
出力は正確でエラーはありません。 しかし、ExtractAllText
メソッドを使用するためには、ライセンスが必要です。このメソッドはプロダクションモードでのみ動作します。 以下のリンクから30日間の試用ライセンスキーを取得できます リンク.
比較すると、両ライブラリともPDFドキュメントからテキストを抽出する際に100%正確な結果を出します。 精度に関しては、どちらも同じです。 しかし、IronPDFはパフォーマンスとコードの可読性に関してより効率的です。
IronPDFは、iTextと同じタスクを達成するのにわずか2行のコードしか必要としません。 追加のロジックを実装することなく、そのままテキスト抽出メソッドを提供します。 iTextコードは少し難しく、PDFドキュメントを開くときに作成される2つのインスタンスを閉じる必要があります。 これに対し、IronPDFはタスクが実行された後に自動的にメモリをクリアします。
この記事では、C#でiTextライブラリを使用してPDFドキュメントを読み取る方法を検討し、その後IronPDFと比較しました。 両方のライブラリは正確な結果を提供し、PDFの操作方法を多数提供します。 以下のライブラリを使用して、PDFファイルの作成、編集、およびデータの読み取りができます。
iTextはオープンソースで無料で使用できますが、制約があります。 それは可能です ライセンス済み 商業利用のため。 IronPDF は無料で使用でき、 ライセンス済み 商業活動には 30日間無料試用.
IronPDFをダウンロードして試してみてください。
9つの .NET API製品 オフィス文書用