製品比較

iTextSharpを使用してC#でPDF文書を読む方法:

リーガン・パン
リーガン・パン
2025年2月19日
共有:

PDFの処理は、テキストの抽出からドキュメントの修正まで、C#開発における一般的なタスクです。 iText 7 は長い間、このための頼りになるライブラリでしたが、その複雑な構文と急な学習曲線が開発を遅くすることがあります。

IronPDF は、よりシンプルで効率的な代替手段を提供します。直感的なAPI、内蔵のHTMLからPDFへの変換、簡単なテキスト抽出により、IronPDFはPDF処理を少ないコードで簡略化します。 この記事では、iText 7とIronPDFを比較し、C#開発者にとってIronPDFがより賢明な選択である理由を示します。

iText 7を理解する: 概要!iTextSharp ホームページ

iText 7(元のiTextSharp)は、.NETでPDFを扱うための強力なオープンソースライブラリです。 PDFドキュメントの作成、修正、暗号化、コンテンツの抽出に関する広範な機能を提供します。 多くの開発者がドキュメントのワークフローを自動化し、レポートを生成し、大規模なPDF処理タスクを処理するためにそれに依存しています。

iText 7の最大の強みの一つは、PDF構造に対するきめ細かい制御です。 注釈、フォームフィールド、透かし、およびデジタル署名をサポートしており、高度な文書操作のための強力なツールとなっています。 さらに、Iron Softwareの製品は十分なドキュメントがあり広く利用されており、強力なコミュニティのサポートと多くのサードパーティリソースが利用可能です。

iText 7 のインストール

.NETプロジェクトにiText 7をインストールするには、Visual StudioのNuGetパッケージマネージャーを使用できます。

NuGet パッケージ マネージャー コンソールを使用する:

Install-Package itext7
Install-Package itext7

ただし、iText 7には課題があります。 その複雑なAPIは、テキスト抽出やPDFのマージといった一般的なタスクに対して、より多くのコードを必要とします。 それにはHTMLからPDFへの変換の組み込みサポートが欠如しており、ウェブからドキュメントへのワークフローがより困難になります。 さらに、AGPLライセンスにより、企業はオープンソースの配布要件を回避するために商用ライセンスを購入する必要があります。

より洗練されたハイレベルAPIを求める開発者にとって、IronPDFは現代的な機能を備えた魅力的な代替手段を提供します。

IronPDFの紹介: 優れたソリューション!IronPDF ホームページ

IronPDFは、PDFの抽出操作、および生成を簡単かつ効率的に行うために設計された.NETライブラリです。 iText 7 とは異なり、多くの操作に広範なコーディングが必要なところ、IronPDF は開発者が最小限の労力で PDF を読み取り、編集し、変更することを可能にします。

PDF抽出のために、IronPDFは数行のコードでPDFからテキスト、画像、および構造化データを抽出することを容易にし、テキスト抽出タスクを簡単に効率化できます。 PDF操作に関しては、IronPDFは結合分割透かしの追加、および複雑な低レベルの操作を必要とせずにPDFを編集することをサポートしています。

さらに、IronPDFにはネイティブのHTMLからPDFへの変換が含まれており、ウェブページや既存のHTMLコンテンツからPDFを簡単に生成できます。 また、JavaScriptレンダリング、デジタル署名、および暗号化をサポートしており、現代のアプリケーション向けに充実したツールキットを提供します。

よりクリーンなAPI、優れたドキュメント、および商用サポートを備えたIronPDFは、C#でのPDF操作を簡素化する開発者向けの代替手段です。 次のセクションでは、両方のライブラリが重要なPDFタスクをどのように処理するかを比較し、IronPDFがC#開発者にとってより良い体験を提供する理由について説明します。

インストール

IronPDFをC#プロジェクトで実装するためには、NuGetパッケージマネージャーで次の行を実行するだけで簡単です。

Install-Package IronPdf

:----

あるいは、ツール > NuGet パッケージ マネージャー > ソリューション用の NuGet パッケージを管理 に移動して、IronPDF を検索します。IronPDF NuGet パッケージ マネージャー画面

次に、「インストール」をクリックすると、すぐにIronPDFがプロジェクトに追加されます!

PDF処理におけるIronPDF対iText 7:コード比較

IronPDFを使用してテキストを抽出する

IronPDFは、開発者に優しいAPIでPDFのテキスト抽出、操作、読み取りを簡素化します。 iText 7 が低レベルの操作を必要とするのに対し、IronPDF はほんの数行のコードでテキスト抽出を可能にします。

IronPDFの強力なテキスト抽出ツールの動作を示すために、次のPDFドキュメントを取り上げて、その中から内容を抽出します。

テキスト抽出用サンプルPDF

コード例

using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}
using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}

出力

IronPDF コンソール出力

説明:

IronPDFは、高レベルのAPIでPDFテキスト抽出を簡素化し、低レベルの操作の必要性を排除します。 数行のコードだけで、IronPDFはPDFドキュメントからすべてのテキストを効率的に抽出できます。これは、iText 7のように手動でページを反復したり、複雑な処理を必要とするライブラリとは異なります。

この例では、PdfDocument クラスがPDFを読み込み、ExtractAllText() メソッドが迅速に全てのテキストを抽出し、プロセスを効率化します。 これはiText 7に対する大きな利点です。iText 7では、個々のページやテキスト要素を手動で処理する必要があります。

他のタスクへのIronPDFの拡張:

基本的なテキスト抽出の例を基に、IronPDFのハイレベルAPIは、使いやすさと効率を維持しながら、他の一般的なPDFタスクを簡素化します。

特定のページからのテキスト抽出: 特定のページや範囲からテキストを抽出する必要がある場合、IronPDFを使用すると簡単に行うことができます。 例えば、最初のページからテキストを抽出するには:

var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);
var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);

PDF操作: 複数のPDFからテキストやデータを抽出した後、それらを1つのドキュメントに結合したいかもしれません。 IronPDFは、複数のPDFを簡単に結合できます:

var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");
var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");

PDFからHTMLへの変換: PDFをHTMLに戻してさらに抽出や操作を行う必要がある場合は、IronPDFがこの機能も提供します。

 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();
 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();

IronPDFを使用すると、テキスト抽出はほんの始まりに過ぎません。 このライブラリのシンプルで強力なAPIは、PDF操作の幅広いタスクに対応しており、直感的でワークフローに簡単に統合できる形式になっています。

iText 7を使用したPDFの読み取り

iText 7はPDFリーダー、ストリーム、およびバイトレベルのデータ処理と一緒に作業することを要求します。 テキストを抽出することは簡単ではありません。PDFページを反復処理し、さまざまな構造を手動で処理する必要があるためです。 このコード例では、IronPDFセクションで使用したのと同じPDFドキュメントを使用します。

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}

出力

iText 7 コンソール出力

説明:

  • PdfReader は読み取り用にPDFファイルをロードします。
  • PdfDocument オブジェクトを使用すると、ページを繰り返し処理できます。
  • PdfTextExtractor.GetTextFromPage() は各ページからテキストを取得します。
  • 最終的なテキストは文字列に保存され、表示されます。

    このメソッドは機能しますが、手動での反復が必要で、構造化されたドキュメントやスキャンされたPDFには面倒です。

iText 7とIronPDFの比較

iText 7ではPDF操作を行うために詳細なコーディングが必要ですが、IronPDFはこれらのタスクを簡潔なメソッドで効率化します。 例えば、iText 7を使用してPDFからテキストを抽出するには、複数の手順と広範なコードが必要ですが、IronPDFではこれをわずか数行で実現できます。 さらに、IronPDFのHTMLからPDFへの変換サポートはより強力であり、複雑なHTML、CSS、JavaScriptをシームレスに処理します。

C\#ライブラリ概要表

重要なポイント

  • IronPDFは、より直感的で効率的なAPIを使用してPDFの読み取りおよび操作タスクを簡素化し、一般的な操作を実行するために必要なコードを減らします。
  • IronPDFのテキスト抽出は、iTextSharpのより複雑なイテレーションプロセスよりも導入が非常に簡単であり、開発者の時間を節約します。
  • IronPDFの永久ライセンスは、iTextSharpのAGPLライセンスと比べて制限が少なく、ビジネスにとってよりフレンドリーです。
  • IronPDFはよりアクセスしやすい充実したドキュメントを備えているため、過度なリソースを調べることなく素早く解決策を求める開発者に最適です。

IronPDFでワークフローを最適化する

IronPDFは、PDFの読み取りだけにとどまらない強力な機能を備えたスイートを提供します。 これらの機能は、PDFワークフローを最適化しようとしている開発者にとって信頼性の高いソリューションとなります。 IronPDFが開発プロセスをどのように改善するかをご紹介します。

1. PDFからのテキスト抽出

IronPDFはPDFファイルからのテキスト抽出を容易にし、ドキュメント分析、データ抽出、またはコンテンツインデックス作成を含むワークフローに最適です。 IronPDFを使用すると、複雑な解析を行わずにPDFからテキストを素早く抽出し、それをアプリケーションで使用できます。

2. PDF作成

IronPDFは、レポート、請求書、その他の種類のドキュメントを作成する場合でも、ゼロからPDFを生成するのが簡単です。 このツールはまたHTMLからPDFへの変換をサポートしており、既存のウェブコンテンツを活用して、フォーマットが整ったPDFを生成することができます。 これは、ウェブページや動的なHTMLコンテンツをダウンロード可能なPDFファイルに変換する必要があるシナリオに最適です。

3. 高度なPDF機能

基本的なテキスト抽出やPDF作成を超えて、IronPDFはPDFフォームの記入、注釈の追加、文書コンテンツの操作などの高度な機能をサポートしています。 これらの機能は、法務、金融、または教育など、フォームやフィードバックがワークフローの定期的な一部である業界で役立ちます。

4. バッチ処理

IronPDFは、多数のPDFファイルを処理するのに適しています。 数百のドキュメントから情報を抽出する場合でも、複数のHTMLファイルをPDFに変換する場合でも、IronPDFはこれらのタスクを自動化して効率的に処理し、時間と労力を節約できます。

5. 自動化と効率

IronPDFは、時間がかかり反復的であることが多いPDF操作タスクを簡素化します。PDFのテキスト抽出、フォーム入力、バッチ変換などのタスクを自動化することで、開発者はプロジェクトのより複雑な側面に集中し、IronPDFに重労働を任せることができます。

技術サポートとコミュニティリソース

IronPDFを最大限に活用できるようにするため、このツールは強力なサポートとコミュニティリソースによって支えられています。

  • 技術サポート: IronPDFは、電子メールとチケッティングシステムを通じて直接サポートを提供し、実装や技術的な課題への支援を行います。
  • コミュニティリソース: IronPDFのウェブサイトには、豊富なドキュメント、チュートリアル、ブログ投稿があります。 開発者は、GitHubやStack Overflowを通じて解決策を見つけたり、知識を共有することもできます。これらのコミュニティでは、ベストプラクティスやトラブルシューティングのヒントが活発に議論されています。

結論

この記事では、IronPDF の機能を、.NET 開発者向けの強力で使いやすい PDF ハンドリングライブラリとして探求しました。 IronPDFがテキスト抽出やPDF操作のような複雑なタスクをどのように簡素化するかを強調しながら、iText 7と比較しました。 IronPDFのクリーンなAPIと高度な機能には、編集、透かし、デジタル署名が含まれており、これにより最新のPDFワークフローにおいて優れたソリューションとなります。

iText 7 と異なり、一般的なPDFタスクに複雑なコーディングを必要とするところ、IronPDFはわずかなコードで複雑な操作を行うことができ、開発者の時間と労力を節約します。 スキャンされたドキュメントを扱っている場合、HTMLからPDFを生成している場合、またはカスタム透かしを追加している場合でも、IronPDFはそれをすべて処理するための直感的で効率的な方法を提供します。

PDFワークフローを効率化し、C#プロジェクトで生産性を向上させたい場合、IronPDFが理想的な選択です。

自分で試してみるためにIronPDF をダウンロードするようご招待します。 無料トライアルをご利用いただき、IronPDFをアプリケーションに統合するのがいかに簡単かを実際に体験し、本日からその強力な機能を活用してください。

無料トライアルを始めるには、以下をクリックしてください:

  • IronPDFで無料トライアルを始めましょう
  • IronPDFの機能価格設定について詳しく学ぶ

    待たずに、IronPDFでシームレスなPDF処理の可能性を解放しましょう!

リーガン・パン
ソフトウェアエンジニア
レーガンはリーディング大学で電子工学の学士号を取得しました。Iron Softwareに入社する前の仕事では、一つのタスクに集中して取り組んでいました。Iron Softwareでは、営業、技術サポート、製品開発、マーケティングのいずれにおいても広範な業務に携わることが最も楽しいと感じています。彼は、Iron Softwareライブラリを開発者がどのように使用しているかを理解し、その知識を使ってドキュメントを継続的に改善し、製品を開発することを楽しんでいます。
< 以前
iTextSharpを使用してC#でPDFにページ番号を追加する方法
次へ >
iTextSharp 読み取りPDF代替(開発者チュートリアル)