フッターコンテンツにスキップ
IRONPDFの使用
C#を使用してPDFからテキストを抽出する方法

C# で PDF からデータを抽出する方法

PDFからデータを抽出することは、手動入力の時間を節約するために重要です。 この記事では、IronPDFライブラリを使用してPDF文書からテキストと画像を抽出する方法を説明します。

IronPDF: C# PDFライブラリ

IronPDFは、PDFファイルを作成、編集、変換するために使用できる.NETライブラリです。 それは、開発者が自分のアプリケーションで使用するための使いやすいAPIを提供します。 それは、グローバルにPDFファイルを作成、編集、変換するための最も人気のあるライブラリの1つです。 IronPDFを使用すると、PDFに対する簡単で迅速なソリューションを作成できます。 各文書のためにカスタマイズされます、レイアウトは簡単に読めるように設定され、グラフィックは付随する.NETプログラムの助けを借りて設計されます。

IronPDFライブラリは、PDFファイルからデータを抽出するための素晴らしい機能を持っています。 この記事では、IronPDFを使用してデータを抽出する方法を見ていきます。 まず、C#プロジェクトを作成または開く必要があります。 次のセクションに進みましょう。

Visual StudioでC#プロジェクトを作成または開く

このチュートリアルでは、最新のVisual Studioバージョンを使用することをお勧めします。

Visual Studioが開いたら、以下の手順に従って新しいC#プロジェクトを作成してください。 既存のプロジェクトがあり、そのプロジェクトを使用したい場合は、次の手順をスキップして直接次のセクションに進んでください。

  • Visual Studioを開きます
  • "新しいプロジェクトを作成"ボタンをクリックします。

PDFからデータを抽出する方法 C#で、図1: Visual Studioの起動画面 Visual Studioの起動画面

  • テンプレートから"C#コンソールアプリケーション"を選択します。

PDFからデータを抽出する方法 C#で、図2: 新しいプロジェクトを作成する 新しいプロジェクトを作成する

  • プロジェクトに名前を付け、次へボタンをクリックします。
  • プロジェクトの要件に応じた.NET Frameworkを選択し、作成ボタンをクリックします。

PDFからデータを抽出する方法 C#で、図3: .NET Frameworkの選択 .NETフレームワークの選択

Visual Studioは今、新しいC# .NETプロジェクトを生成します。

IronPDFライブラリをインストールする

IronPDFライブラリは、さまざまな方法でインストールできます。

パッケージマネージャコンソールの使用

  • ツール > NuGetパッケージマネージャー > パッケージマネージャーコンソールに移動して、パッケージマネージャーコンソールを開きます。
  • IronPDFライブラリをインストールするために次のコマンドを実行します:
Install-Package IronPdf

PDFからデータを抽出する方法 C#で、図4: インストール進行状況をパッケージマネージャーコンソールタブで確認する パッケージマネージャーコンソールタブでのインストール進行状況

インストール後、ソリューションエクスプローラーのdependenciesセクションに、IronPDF依存関係が表示されます。

PDFからデータを抽出する方法 C#で、図5: ソリューションエクスプローラーでIronPdfパッケージを参照する ソリューションエクスプローラーでIronPdfパッケージを参照する

NuGetパッケージマネージャーを使用する

IronPDFライブラリをインストールするもう一つの方法は、Visual Studioの統合されたNuGetパッケージマネージャーUIを使用することです。

  • メインメニューからツールに移動します。 ドロップダウンメニューから"NuGetパッケージマネージャー"にホバーし、"ソリューション用のNuGetパッケージを管理..."を選択します。

PDFからデータを抽出する方法 C#で、図6: NuGetパッケージマネージャーに移動する NuGetパッケージマネージャへのナビゲート

  • これにより、NuGetパッケージマネージャウィンドウが開きます。 ブラウズタブに移動し、検索にIronPdfと記入してEnterキーを押します。
  • 検索結果からIronPDFを選択し、"インストール"ボタンをクリックしてインストールを開始します。

PDFからデータを抽出する方法 C#で、図7: NuGetパッケージマネージャーからIronPdfパッケージをインストールする NuGetパッケージマネージャからIronPdfパッケージをインストール

PDFファイルからデータを抽出する

以下のコードを見て、IronPDFを使用してデータを抽出する方法を見てみましょう:

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing

Public Class PDFExtractor
	Public Sub ExtractDataFromPDF()
		' Open a 128-bit encrypted PDF file by providing the filename and password
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Extract all text from the PDF document
			Dim allText As String = pdf.ExtractAllText()
	
			' Extract all images from the PDF document
			Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
	
			' Iterate over each page in the PDF document
			For index = 0 To pdf.PageCount - 1
				Dim pageNumber As Integer = index + 1
	
				' Extract text from the specific page
				Dim text As String = pdf.ExtractTextFromPage(index)
	
				' Extract images from the specific page
				Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
	
				' Code to process the extracted text and images
				'...
			Next index
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

このコード例では:

  1. FromFileメソッドは、入力PDF文書をロードし、その文書は暗号化されており、パスワードが必要です。
  2. ExtractAllTextメソッドはPDFからすべてのテキストコンテンツを抽出します。
  3. ExtractAllImagesメソッドはすべての埋め込まれた画像を取得します。
  4. ループは文書の各ページを反復して、ExtractTextFromPageExtractImagesFromPageを使用してその特定のページからテキストと画像を抽出します。

結論

IronPDFを使用すると、開発者は簡単にPDFファイルからテキストと画像を抽出できます。 ExtractAllTextExtractAllImagesを使用すると、PDFファイルの内容全体を瞬時に抽出できます。 また、これらのメソッドを使用して特定のページから内容を抽出することもできます。 前述のコードでは、これらのメソッドを使って複数のページからテキストと画像を読み取る方法を示しました。

さらに、IronPDFは、チャートの描画バーコードを追加パスワードでセキュリティを強化透かしをプログラムでPDFフォームを処理する機能などを提供します。

IronPDFは、開発中は無料で利用可能であり、商業利用には支払いが必要です。 商業利用での支払いなしでIronPDFの無料トライアルが利用可能です。

2つのIronPDF Lite Licensesの費用で[Iron Softwareのドキュメントライブラリのフルスイート](Iron Suite)を購入してください。

今日からPDFからデータを抽出を開始するために、IronPDFを今すぐダウンロードしてください!

よくある質問

C#でPDFからテキストを抽出する方法は?

IronPDF の ExtractAllText メソッドを使用して、PDF ドキュメントからすべてのテキストを抽出できます。このメソッドは、PDF のテキストコンテンツに簡単にアクセスできるようにすることでプロセスを簡素化します。

C# を使用して PDF から画像を抽出するプロセスは何ですか?

IronPDF を使用することで、ExtractAllImages メソッドを利用して PDF から画像を抽出できます。このメソッドは PDF ファイルから埋め込まれたすべての画像を効率的に取得します。

C# プロジェクトに PDF 操作ライブラリをインストールするにはどうすればよいですか?

C# プロジェクトに IronPDF をインストールするには、パッケージ マネージャー コンソールで Install-Package IronPdf コマンドを使用するか、Visual Studio の NuGet パッケージ マネージャー UI を通じてパッケージをインストールします。

C# で暗号化された PDF を扱うことは可能ですか?

はい、IronPDF を使用すると、FromFile メソッドによって、ファイル名とパスワードを指定してコンテンツにアクセスすることにより、暗号化された PDF ファイルを開いたり操作したりできます。

C# で PDF の特定のページからデータを抽出することはできますか?

IronPDF は、PDF ドキュメントの各ページを反復処理し、ExtractTextFromPageExtractImagesFromPage のようなメソッドを使用して特定のページからデータを抽出することを可能にします。

C# PDF ライブラリが提供する追加機能は何ですか?

データ抽出の他に、IronPDF はグラフのレンダリング、バーコードの追加、パスワードでのドキュメントのセキュリティ強化、透かし、および PDF フォームのプログラム的な処理などの機能を提供します。

C# で HTML を PDF に変換するにはどうすればいいですか?

IronPDF の RenderHtmlAsPdf メソッドを使用して HTML 文字列を PDF に変換することができます。これは特にウェブコンテンツから PDF ドキュメントを作成する際に便利です。

C# PDF ライブラリの試用版はありますか?

IronPDF は開発中は無料で使用でき、その機能をテストすることができます。商用利用には商用ライセンスが必要ですが、無料試用版も利用可能です。

PDF からのデータ抽出に C# ライブラリを使用し始めるにはどうすればよいですか?

IronPDF を使用してデータ抽出を開始するには、ライブラリをダウンロードし、Visual Studio で C# プロジェクトを作成または開き、IronPDF をインストールし、コード例に従って PDF からテキストと画像を効率的に抽出します。

.NET 10 の互換性: IronPDF のデータ抽出機能を .NET 10 で使用できますか?

はい。IronPDFは、テキストや画像の抽出などのデータ抽出機能を含め、.NET 10で完全にサポートされています。特別な設定なしで、.NET 10プロジェクトでIronPDFを使用できます。.NET 10、.NET 9、.NET 8、およびそれ以前のバージョンに加え、.NET Standardと.NET Frameworkをサポートしています。(ironpdf.com)

カーティス・チャウ
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。