ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
PDFは、Adobe Acrobat Readerによって作成されたポータブルドキュメント形式であり、インターネット上でデジタル情報を共有するために広く使用されています。 それはデータのフォーマットを保持し、セキュリティ権限の設定やパスワード保護といった機能を提供します。 C#開発者として、あなたのソフトウェアアプリケーションにPDF機能を統合する必要があるシナリオに直面したことがあるかもしれません。 スクラッチから構築するのは、時間がかかり面倒な作業となる可能性があります。 したがって、アプリケーションのパフォーマンス、効果、および効率を考慮すると、ゼロから新しいサービスを作成するか、プリビルトライブラリを使用するかのトレードオフは重要です。
C# 用の PDF ライブラリはいくつかあります。 この記事では、C#でPDFドキュメントを読み取るための最も人気のある2つのPDFライブラリを探ります。
iText 7旧称iText 7 Coreと呼ばれていたのは、.NET C#およびJavaでPDF文書をプログラムするためのPDFライブラリです。 オープンソースライセンスとして提供されています。(AGPL)そして、商業アプリケーションにライセンス供与することができます。
iText Coreは、あらゆる方法でPDFを生成・編集する簡単な方法を提供する高レベルAPIです。 iText 7 Core を使えば、PDF ファイルの分割、結合、注釈、フォームへの記入、デジタル署名など、さまざまなことができます。 iText 7は、HTMLからPDFへのコンバーター.
IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。
IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。
技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。
IronPDFについてもっと知るは、.NETと.NET Framework C#とJava APIで、URL、HTMLファイル、またはHTML文字列から、HTML、CSS、JavaScriptからPDF文書を生成するために使用されます。 IronPDFは既存のPDFファイルの分割、結合、注釈、電子署名などの操作を可能にします。
IronPDFはPDFファイルを作成、読み込み、編集するための50以上の機能を備えています。 Adobe Acrobat Readerで高品質でピクセルパーフェクトなプロフェッショナルPDFファイルを提供する必要がある場合は、スピード、使いやすさ、正確さを優先します。 APIは十分に文書化されており、多くのサンプルソースコードがコード例ページ.
最初にアプリケーションを作成するために、Visual Studio 2022 IDEを使用します。 Visual StudioはC#開発の公式IDEであり、インストールしておく必要があります。 こちらからダウンロードできます:マイクロソフト ビジュアル スタジオのウェブサイトインストールされていない場合
次の手順で「DemoApp」という新しいプロジェクトを作成します。
Visual Studio を開き、「Create a New Project」をクリックしてください。
「コンソールアプリケーション」を選択し、「次へ」をクリックします。
プロジェクトの名前を設定してください。
.NETバージョンを選択してください。 安定版の.NET 6.0を選択してください。
プロジェクトが作成されたら、それを使用するためにIronPDFライブラリをプロジェクトにインストールする必要があります。 インストールするには、次の手順に従ってください。
ソリューションエクスプローラーまたはツールからNuGetパッケージマネージャーを開きます。
IronPDF Libraryをブラウズし、現在のプロジェクトに選択してください。 「インストール」をクリックします。
Program.csファイルの上部に次の名前空間を追加します。
using IronPdf;
using IronPdf;
Imports IronPdf
プロジェクトが作成されたら、iText 7 ライブラリを使用するためにプロジェクトにインストールする必要があります。 インストールする手順に従ってください。
ソリューションエクスプローラーまたはツールからNuGetパッケージマネージャーを開きます。
iText 7 Library を参照し、現在のプロジェクトで選択してください。 インストールをクリックしてください。
以下の名前空間をProgram.csファイルの先頭に追加します
using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf;
Imports iText.Kernel.Pdf.Canvas.Parser.Listener
Imports iText.Kernel.Pdf.Canvas.Parser
Imports iText.Kernel.Pdf
以下のPDFファイルを使用してテキストを抽出します。 それは2ページのPDFドキュメントです。
iTextライブラリを使用してPDFファイルを開くには、2つのステップがあります。 まず、PdfReader
オブジェクトを作成し、ファイルの場所をパラメータとして渡します。 次に、PdfDocument
クラスを使用して新しい PDF ドキュメントを作成します。 コードは次のようになります:
PdfReader pdfReader = new PdfReader("sample.pdf");
PdfDocument pdfDoc = new PdfDocument(pdfReader);
PdfReader pdfReader = new PdfReader("sample.pdf");
PdfDocument pdfDoc = new PdfDocument(pdfReader);
Dim pdfReader As New PdfReader("sample.pdf")
Dim pdfDoc As New PdfDocument(pdfReader)
IronPDFを使用してPDFファイルを開くのは簡単です。 PdfDocument
クラスのFromFile
メソッドを使用して、任意のファイル場所からPDFを開く。 次の1行コードは、データを読み込むためにPDFファイルを開きます:
var pdf = PdfDocument.FromFile("sample.pdf");
var pdf = PdfDocument.FromFile("sample.pdf");
Dim pdf = PdfDocument.FromFile("sample.pdf")
PDF データの読み取りは、iText 7 ライブラリではそれほど簡単ではありません。 PDFドキュメントの各ページからテキストを抽出するために、各ページを手動でループする必要があります。 以下のソースコードは、PDFドキュメントからページごとにテキストを抽出するのに役立ちます:
for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
Console.WriteLine(pageContent);
}
pdfDoc.Close();
pdfReader.Close();
for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
Console.WriteLine(pageContent);
}
pdfDoc.Close();
pdfReader.Close();
Dim page As Integer = 1
Do While page <= pdfDoc.GetNumberOfPages()
Dim strategy As ITextExtractionStrategy = New SimpleTextExtractionStrategy()
Dim pageContent As String = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy)
Console.WriteLine(pageContent)
page += 1
Loop
pdfDoc.Close()
pdfReader.Close()
上記のコードには多くの処理が行われています。 まず、テキスト抽出ストラテジーを宣言し、次に PdfExtractor
クラスの GetTextFromPage
メソッドを使ってテキストを読み込む。 このメソッドは2つのパラメータを受け付けます:最初のパラメータはPDFドキュメントのページで、2番目のパラメータはストラテジーです。 PDF ドキュメントのページを取得するには、PdfDocument
のインスタンスを使用して GetPage
メソッドを呼び出し、パラメータとしてページ番号を渡します。 出力は文字列として返され、その後コンソール出力画面に表示されます。 最後に、PDFReader
と PdfDocument
オブジェクトを閉じます。 また、次のコード例を見てください。iText7を使ったPDFからのテキスト抽出.
PDFファイルを開くのが1行のコードであるのと同様に、PDFファイルからテキストを読み取るのも1行のプロセスです。 PDFDocument
クラスは、ExtractAllText
メソッドを提供しますPDFから全コンテンツを読む. Console.WriteLine`は、画面にテキストを印刷するために使用されます。 コードは以下の通りです:
string text = pdf.ExtractAllText();
Console.WriteLine(text);
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
出力は正確でエラーはありません。 しかし、ExtractAllText
メソッドを使用するためには、ライセンスが必要です。このメソッドはプロダクションモードでのみ動作します。 30日間のトライアルライセンスキーは、次のサイトから入手できます。IronPDFトライアルライセンスページ.
比較すると、両ライブラリともPDFドキュメントからテキストを抽出する際に100%正確な結果を出します。 正確さに関しては同じです。 しかし、IronPDFはパフォーマンスとコードの可読性に関してより効率的です。
IronPDFは、iTextと同じタスクを達成するのにわずか2行のコードしか必要としません。 追加のロジックを実装することなく、そのままテキスト抽出メソッドを提供します。 iTextコードは少し難しく、PDFドキュメントを開くときに作成される2つのインスタンスを閉じる必要があります。 これに対し、IronPDFはタスクが実行された後に自動的にメモリをクリアします。
この記事では、C#でiTextライブラリを使用してPDFドキュメントを読む方法を調べ、IronPDFと比較しました。 どちらのライブラリも正確な結果を与え、作業するための数多くのPDF操作方法を提供します。 これらの両方のライブラリを使用して、PDFファイルを作成、編集、およびPDFファイルからデータを読み取ることができます。
iTextはオープンソースで無料で使用できますが、制約があります。 それは可能です商業利用向けにライセンスされています. IronPDF は無料で使用でき、商用ライセンス「との」30日間無料トライアルあり.
9つの .NET API製品 オフィス文書用