製品比較

iTextSharpを使用してC#でPDF文書を読む方法:

公開済み 2025年2月19日
共有:

PDFの処理は、テキストの抽出からドキュメントの修正まで、C#開発における一般的なタスクです。 iText 7は長い間、この目的のための頼りになるライブラリでしたが、その複雑な構文と急な学習曲線が開発を遅らせる可能性があります。

IronPDFより簡単で効率的な代替案を提供します。直感的なAPI、組み込みのHTML-to-PDF変換、そして簡単なテキスト抽出機能を備えたIronPDFは、より少ないコードでPDF処理を効率化します。 この記事では、iText 7とIronPDFを比較し、C#開発者にとってIronPDFがより賢明な選択である理由を示します。

iText 7を理解する:概要iTextSharp ホームページ

iText 7(元々はiTextSharp)は、.NETでPDFを取り扱うための強力なオープンソースライブラリです。 PDFドキュメントの作成、修正、暗号化、コンテンツの抽出に関する広範な機能を提供します。 多くの開発者がドキュメントのワークフローを自動化し、レポートを生成し、大規模なPDF処理タスクを処理するためにそれに依存しています。

iText 7の最大の強みの一つは、PDF構造に対するきめ細かい制御です。 注釈、フォームフィールド、透かし、およびデジタル署名をサポートしており、高度な文書操作のための強力なツールとなっています。 さらに、Iron Softwareの製品は十分なドキュメントがあり広く利用されており、強力なコミュニティのサポートと多くのサードパーティリソースが利用可能です。

iText 7のインストール

.NETプロジェクトにiText 7をインストールするには、Visual StudioのNuGetパッケージマネージャーを使用できます。

NuGet パッケージ マネージャー コンソールの使用:

Install-Package itext7

ただし、iText 7には課題があります。 その複雑なAPIは、テキスト抽出やPDFのマージといった一般的なタスクに対して、より多くのコードを必要とします。 それにはHTMLからPDFへの変換の組み込みサポートが欠如しており、ウェブからドキュメントへのワークフローがより困難になります。 さらに、AGPLライセンスにより、企業はオープンソースの配布要件を回避するために商用ライセンスを購入する必要があります。

より洗練されたハイレベルAPIを求める開発者にとって、IronPDFは現代的な機能を備えた魅力的な代替手段を提供します。

IronPDFの紹介: 優れたソリューションIronPDF ホームページ

IronPDFは、作成するために設計された.NETライブラリですPDF抽出, 操作, および世代シンプルで効率的。 iText 7 とは異なり、多くの操作に広範なコーディングが必要なところ、IronPDF は開発者が最小限の労力で PDF を読み取り、編集し、変更することを可能にします。

PDF抽出のために、IronPDFは数行のコードでPDFからテキスト、画像、および構造化データを抽出することを容易にし、テキスト抽出タスクを簡単に効率化できます。 PDF操作に関しては、IronPDFはサポートしています。マージ, 分割, 透かし複雑な低レベル操作を必要とせずに、PDFの編集。

さらに、IronPDFにはネイティブが含まれています。HTMLからPDFへの変換、ウェブページや既存のHTMLコンテンツからPDFを簡単に生成できます。 また、JavaScriptレンダリングもサポートしています。デジタル署名、および暗号化 (あんごうか)、現代のアプリケーションのためのバランスの取れたツールキットを提供します。

よりクリーンなAPI、優れたドキュメント、および商用サポートを備えたIronPDFは、C#でのPDF操作を簡素化する開発者向けの代替手段です。 次のセクションでは、両方のライブラリが重要なPDFタスクをどのように処理するかを比較し、IronPDFがC#開発者にとってより良い体験を提供する理由について説明します。

インストール

IronPDFをC#プロジェクトで実装するためには、NuGetパッケージマネージャーで次の行を実行するだけで簡単です。

Install-Package IronPdf

:----

または、ツール > NuGet パッケージ マネージャー > ソリューションの NuGet パッケージの管理に移動し、IronPDF を検索します。IronPDF NuGet パッケージ マネージャー スクリーン

次に、「インストール」をクリックするだけで、すぐにIronPDFがプロジェクトに追加されます。!

PDF処理におけるIronPDF対iText 7:コード比較

IronPDFを使用してテキストを抽出する

IronPDFは簡素化しますPDFテキスト抽出、操作、およびはるかに開発者に優しいAPIを使用した読み取り。 iText 7 が低レベルの操作を必要とするのに対し、IronPDF はほんの数行のコードでテキスト抽出を可能にします。

IronPDFの強力なテキスト抽出ツールの動作を示すために、次のPDFドキュメントを取り上げて、その中から内容を抽出します。

テキスト抽出用サンプルPDF

コード例

using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}
using IronPdf;
class Program
{
    static void Main()
    {
        string pdfPath = "sample.pdf";

        var pdf = new PdfDocument(pdfPath);

        string extractedText = pdf.ExtractAllText();

        Console.WriteLine(extractedText);
    }
}
Imports IronPdf
Friend Class Program
	Shared Sub Main()
		Dim pdfPath As String = "sample.pdf"

		Dim pdf = New PdfDocument(pdfPath)

		Dim extractedText As String = pdf.ExtractAllText()

		Console.WriteLine(extractedText)
	End Sub
End Class
$vbLabelText   $csharpLabel

出力

IronPDFコンソール出力

**説明

IronPDFは、高レベルのAPIでPDFテキスト抽出を簡素化し、低レベルの操作の必要性を排除します。 数行のコードだけで、IronPDFはPDFドキュメントからすべてのテキストを効率的に抽出できます。これは、iText 7のように手動でページを反復したり、複雑な処理を必要とするライブラリとは異なります。

この例では、PdfDocumentクラスがPDFをロードし、ExtractAllText()メソッドはすばやくすべてのテキストを抽出し、プロセスを合理化します。 これはiText 7に対する大きな利点です。iText 7では、個々のページやテキスト要素を手動で処理する必要があります。

他のタスクへのIronPDFの拡張:

基本的なテキスト抽出の例を基に、IronPDFのハイレベルAPIは、使いやすさと効率を維持しながら、他の一般的なPDFタスクを簡素化します。

特定のページからテキストを抽出する: 特定のページや範囲からテキストを抽出する必要がある場合、IronPDFを使用すると簡単に行うことができます。 例えば、最初のページからテキストを抽出するには:

var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);
var pdf = new PdfDocument("sample.pdf");

string pageText = pdf.Pages[0].Text;

Console.WriteLine(pageText);
Dim pdf = New PdfDocument("sample.pdf")

Dim pageText As String = pdf.Pages(0).Text

Console.WriteLine(pageText)
$vbLabelText   $csharpLabel

PDF操作: 複数のPDFからテキストやデータを抽出した後、それらを1つのドキュメントに結合したい場合があります。 IronPDFは、複数のPDFを簡単に結合できます:

var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");
var pdf1 = new PdfDocument("file1.pdf");
var pdf2 = new PdfDocument("file2.pdf");
var combinedPdf = PdfDocument.Merge(pdf1, pdf2);

combinedPdf.SaveAs("combined_output.pdf");
Dim pdf1 = New PdfDocument("file1.pdf")
Dim pdf2 = New PdfDocument("file2.pdf")
Dim combinedPdf = PdfDocument.Merge(pdf1, pdf2)

combinedPdf.SaveAs("combined_output.pdf")
$vbLabelText   $csharpLabel

PDFからHTMLへの変換: PDFをHTMLに変換してさらなる抽出や操作を行いたい場合、IronPDFはこの機能も提供します。

 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();
 var pdf = new PdfDocument("sample.pdf");

 string htmlContent = pdf.ToHtmlString();
Dim pdf = New PdfDocument("sample.pdf")

 Dim htmlContent As String = pdf.ToHtmlString()
$vbLabelText   $csharpLabel

IronPDFを使用すると、テキスト抽出は始まりに過ぎません。 このライブラリのシンプルで強力なAPIは、PDF操作の幅広いタスクに対応しており、直感的でワークフローに簡単に統合できる形式になっています。

iText 7を使用したPDFの読み取り

iText 7は、PDFリーダー、ストリーム、バイトレベルのデータ処理を扱う必要があります。 テキストを抽出することは簡単ではありません。PDFページを反復処理し、さまざまな構造を手動で処理する必要があるためです。 このコード例では、IronPDFセクションで使用したのと同じPDFドキュメントを使用します。

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;

class Program
{
    static void Main()
    {

        string pdfPath = "sample.pdf";
        string extractedText = ExtractTextFromPdf(pdfPath);
        Console.WriteLine(extractedText);
    }

    static string ExtractTextFromPdf(string pdfPath)
    {
        using (PdfReader reader = new PdfReader(pdfPath))
        using (iText.Kernel.Pdf.PdfDocument pdfDoc = new iText.Kernel.Pdf.PdfDocument(reader))
        {
            string text = "";
            for (int i = 1; i <= pdfDoc.GetNumberOfPages(); i++)
            {
                text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) + Environment.NewLine;
            }
            return text;
        }
    }
}
Imports iText.Kernel.Pdf
Imports iText.Kernel.Pdf.Canvas.Parser

Friend Class Program
	Shared Sub Main()

		Dim pdfPath As String = "sample.pdf"
		Dim extractedText As String = ExtractTextFromPdf(pdfPath)
		Console.WriteLine(extractedText)
	End Sub

	Private Shared Function ExtractTextFromPdf(ByVal pdfPath As String) As String
		Using reader As New PdfReader(pdfPath)
		Using pdfDoc As New iText.Kernel.Pdf.PdfDocument(reader)
			Dim text As String = ""
			Dim i As Integer = 1
			Do While i <= pdfDoc.GetNumberOfPages()
				text &= PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(i)) & Environment.NewLine
				i += 1
			Loop
			Return text
		End Using
		End Using
	End Function
End Class
$vbLabelText   $csharpLabel

出力

iText 7 コンソール出力

**説明

  • PdfReader はPDFファイルを読み込みのためにロードします。
  • PdfDocument オブジェクトを使用すると、ページを繰り返し処理できます。

    PdfTextExtractor.GetTextFromPage()各ページからテキストを取得します。

  • 最終的なテキストは文字列に保存され、表示されます。

    このメソッドは機能しますが、手動での反復が必要で、構造化されたドキュメントやスキャンされたPDFには面倒です。

iText 7とIronPDFの比較

iText 7ではPDF操作を行うために詳細なコーディングが必要ですが、IronPDFはこれらのタスクを簡潔なメソッドで効率化します。 例えば、iText 7を使用してPDFからテキストを抽出するには、複数の手順と広範なコードが必要ですが、IronPDFではこれをわずか数行で実現できます。 さらに、IronPDFのHTMLからPDFへの変換サポートはより強力であり、複雑なHTML、CSS、JavaScriptをシームレスに処理します。

C\# ライブラリ概要表

重要なポイント

  • IronPDFは、より直感的で効率的なAPIを使用してPDFの読み取りおよび操作タスクを簡素化し、一般的な操作を実行するために必要なコードを減らします。
  • IronPDFのテキスト抽出は、iTextSharpのより複雑なイテレーションプロセスよりも導入が非常に簡単であり、開発者の時間を節約します。
  • IronPDFの永久ライセンスは、iTextSharpのAGPLライセンスと比べて制限が少なく、ビジネスにとってよりフレンドリーです。
  • IronPDFはよりアクセスしやすい充実したドキュメントを備えているため、過度なリソースを調べることなく素早く解決策を求める開発者に最適です。

IronPDFでワークフローを最適化する

IronPDFは、PDFの読み取りだけにとどまらない強力な機能を備えたスイートを提供します。 これらの機能は、PDFワークフローを最適化しようとしている開発者にとって信頼性の高いソリューションとなります。 IronPDFが開発プロセスをどのように改善するかをご紹介します。

1.

PDFからのテキスト抽出

IronPDFはPDFファイルからのテキスト抽出を容易にし、ドキュメント分析、データ抽出、またはコンテンツインデックス作成を含むワークフローに最適です。 IronPDFを使用すると、複雑な解析を行わずにPDFからテキストを素早く抽出し、それをアプリケーションで使用できます。

**2.

PDF作成

IronPDFは、レポート、請求書、その他の種類のドキュメントを作成する場合でも、ゼロからPDFを生成するのが簡単です。 このツールはまたHTMLからPDFへの変換をサポートしており、既存のウェブコンテンツを活用して、フォーマットが整ったPDFを生成することができます。 これは、ウェブページや動的なHTMLコンテンツをダウンロード可能なPDFファイルに変換する必要があるシナリオに最適です。

**3.

高度なPDF機能

基本的なテキスト抽出やPDF作成を超えて、IronPDFはPDFフォームの記入、注釈の追加、文書コンテンツの操作などの高度な機能をサポートしています。 これらの機能は、法務、金融、または教育など、フォームやフィードバックがワークフローの定期的な一部である業界で役立ちます。

**4.

バッチ処理

IronPDFは、多数のPDFファイルを処理するのに適しています。 数百のドキュメントから情報を抽出する場合でも、複数のHTMLファイルをPDFに変換する場合でも、IronPDFはこれらのタスクを自動化して効率的に処理し、時間と労力を節約できます。

5.

自動化と効率

IronPDFは、時間がかかり反復的であることが多いPDF操作タスクを簡素化します。PDFのテキスト抽出、フォーム入力、バッチ変換などのタスクを自動化することで、開発者はプロジェクトのより複雑な側面に集中し、IronPDFに重労働を任せることができます。

技術サポートとコミュニティリソース

IronPDFを最大限に活用できるようにするため、このツールは強力なサポートとコミュニティリソースによって支えられています。

  • 技術サポート: IronPDF は、電子メールとチケッティングシステムを通じて直接サポートを提供し、実装や技術的な課題に関する支援を行っています。
  • コミュニティリソース: IronPDFのウェブサイトには、詳細なドキュメント、チュートリアル、ブログ投稿が含まれています。 開発者は、GitHubやStack Overflowを通じて解決策を見つけたり、知識を共有することもできます。これらのコミュニティでは、ベストプラクティスやトラブルシューティングのヒントが活発に議論されています。

結論

この記事では、の機能について探りましたIronPDF強力でユーザーフレンドリーなPDF処理ライブラリとして、.NET開発者向け。 IronPDFがテキスト抽出やPDF操作のような複雑なタスクをどのように簡素化するかを強調しながら、iText 7と比較しました。 IronPDFのクリーンなAPIと高度な機能には、編集、透かし、デジタル署名が含まれており、これにより最新のPDFワークフローにおいて優れたソリューションとなります。

以下の内容を日本語に翻訳してください:

Unlike PDFs generated with other libraries, PDFs created with IronPDF preserve the exact design and formatting of the original document. This makes IronPDF the perfect choice for creating professional-quality PDFs from HTML, ASPX, MVC, or images. IronPDF offers simple integration with popular frameworks, making it easy for developers to add PDF functionality to their applications.


他のライブラリで生成されたPDFとは異なり、IronPDFで作成されたPDFは元のドキュメントの正確なデザインとフォーマットを保持します。これにより、HTML、ASPX、MVC、または画像からプロフェッショナル品質のPDFを作成するのにIronPDFが最適な選択となります。IronPDFは人気のあるフレームワークとの簡単な統合を提供しており、開発者がアプリケーションにPDF機能を追加するのを容易にします。iText 7、一般的なPDFタスクに複雑なコーディングを必要とするところを、IronPDFを使用すると、最小限のコードで複雑な操作を実行でき、開発者の時間と労力を節約します。 スキャンされたドキュメントを扱っている場合、HTMLからPDFを生成している場合、またはカスタム透かしを追加している場合でも、IronPDFはそれをすべて処理するための直感的で効率的な方法を提供します。

PDFワークフローを効率化し、C#プロジェクトで生産性を向上させたい場合、IronPDFが理想的な選択です。

私たちはあなたを招待しますIronPDFをダウンロードそして自分で試してみてください。 次の内容を日本語に翻訳してください:

With a無料試用利用可能であれば、IronPDFをアプリケーションに統合するのがいかに簡単かを直接体験し、その強力な機能の恩恵を今日から受け始めることができます。

無料トライアルを始めるには、以下をクリックしてください:

  • スタート無料体験IronPDF を使用して
  • IronPDFの詳細については、機能以下のコンテンツを日本語に翻訳してください:価格設定

    お急ぎください – IronPDFでシームレスなPDF処理の可能性を解き放ちましょう!

リーガン・パン

リーガン・パン

ソフトウェアエンジニア

 LinkedIn

レーガンはリーディング大学で電子工学の学士号を取得しました。Iron Softwareに入社する前の仕事では、一つのタスクに集中して取り組んでいました。Iron Softwareでは、営業、技術サポート、製品開発、マーケティングのいずれにおいても広範な業務に携わることが最も楽しいと感じています。彼は、Iron Softwareライブラリを開発者がどのように使用しているかを理解し、その知識を使ってドキュメントを継続的に改善し、製品を開発することを楽しんでいます。
< 以前
iTextSharpを使用してC#でPDFにページ番号を追加する方法
次へ >
iTextSharp 読み取りPDF代替(開発者チュートリアル)