C# で PDF からデータを抽出する方法
PDFからデータを抽出することは、手動入力の時間を節約するために重要です。 この記事では、IronPDFライブラリを使用してPDF文書からテキストと画像を抽出する方法を説明します。
C# で PDF からデータを抽出する方法
- PDFからデータを抽出するC#ライブラリをダウンロードする。
- Visual Studioで新しいプロジェクトを作成する
- プロジェクトにライブラリをインストールする
- 特定のページからデータを抽出し、PDFから特定のデータを抽出する。
- PDF ドキュメントからデータ出力を表示
IronPDF: C# PDFライブラリ
IronPDFは、PDFファイルを作成、編集、変換するために使用できる.NETライブラリです。 それは、開発者が自分のアプリケーションで使用するための使いやすいAPIを提供します。 それは、グローバルにPDFファイルを作成、編集、変換するための最も人気のあるライブラリの1つです。 IronPDFを使用すると、PDFに対する簡単で迅速なソリューションを作成できます。 各文書のためにカスタマイズされます、レイアウトは簡単に読めるように設定され、グラフィックは付随する.NETプログラムの助けを借りて設計されます。
IronPDFライブラリは、PDFファイルからデータを抽出するための素晴らしい機能を持っています。 この記事では、IronPDFを使用してデータを抽出する方法を見ていきます。 まず、C#プロジェクトを作成または開く必要があります。 次のセクションに進みましょう。
Visual StudioでC#プロジェクトを作成または開く
このチュートリアルでは、最新のVisual Studioバージョンを使用することをお勧めします。
Visual Studioが開いたら、以下の手順に従って新しいC#プロジェクトを作成してください。 既存のプロジェクトがあり、そのプロジェクトを使用したい場合は、次の手順をスキップして直接次のセクションに進んでください。
- Visual Studioを開きます
- "新しいプロジェクトを作成"ボタンをクリックします。
Visual Studioの起動画面
- テンプレートから"C#コンソールアプリケーション"を選択します。
新しいプロジェクトを作成する
- プロジェクトに名前を付け、次へボタンをクリックします。
- プロジェクトの要件に応じた.NET Frameworkを選択し、作成ボタンをクリックします。
.NETフレームワークの選択
Visual Studioは今、新しいC# .NETプロジェクトを生成します。
IronPDFライブラリをインストールする
IronPDFライブラリは、さまざまな方法でインストールできます。
パッケージマネージャコンソールの使用
- ツール > NuGetパッケージマネージャー > パッケージマネージャーコンソールに移動して、パッケージマネージャーコンソールを開きます。
- IronPDFライブラリをインストールするために次のコマンドを実行します:
Install-Package IronPdf
パッケージマネージャーコンソールタブでのインストール進行状況
インストール後、ソリューションエクスプローラーのdependenciesセクションに、IronPDF依存関係が表示されます。
ソリューションエクスプローラーでIronPdfパッケージを参照する
NuGetパッケージマネージャーを使用する
IronPDFライブラリをインストールするもう一つの方法は、Visual Studioの統合されたNuGetパッケージマネージャーUIを使用することです。
- メインメニューからツールに移動します。 ドロップダウンメニューから"NuGetパッケージマネージャー"にホバーし、"ソリューション用のNuGetパッケージを管理..."を選択します。
NuGetパッケージマネージャへのナビゲート
- これにより、NuGetパッケージマネージャウィンドウが開きます。 ブラウズタブに移動し、検索に
IronPdfと記入してEnterキーを押します。 - 検索結果からIronPDFを選択し、"インストール"ボタンをクリックしてインストールを開始します。
NuGetパッケージマネージャからIronPdfパッケージをインストール
PDFファイルからデータを抽出する
以下のコードを見て、IronPDFを使用してデータを抽出する方法を見てみましょう:
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
public class PDFExtractor
{
public void ExtractDataFromPDF()
{
// Open a 128-bit encrypted PDF file by providing the filename and password
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Extract all text from the PDF document
string allText = pdf.ExtractAllText();
// Extract all images from the PDF document
IEnumerable<Image> allImages = pdf.ExtractAllImages();
// Iterate over each page in the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
int pageNumber = index + 1;
// Extract text from the specific page
string text = pdf.ExtractTextFromPage(index);
// Extract images from the specific page
IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);
// Code to process the extracted text and images
//...
}
}
}// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
public class PDFExtractor
{
public void ExtractDataFromPDF()
{
// Open a 128-bit encrypted PDF file by providing the filename and password
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Extract all text from the PDF document
string allText = pdf.ExtractAllText();
// Extract all images from the PDF document
IEnumerable<Image> allImages = pdf.ExtractAllImages();
// Iterate over each page in the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
int pageNumber = index + 1;
// Extract text from the specific page
string text = pdf.ExtractTextFromPage(index);
// Extract images from the specific page
IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);
// Code to process the extracted text and images
//...
}
}
}' Import necessary namespaces
Imports IronPdf
Imports System.Collections.Generic
Imports System.Drawing
Public Class PDFExtractor
Public Sub ExtractDataFromPDF()
' Open a 128-bit encrypted PDF file by providing the filename and password
Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
' Extract all text from the PDF document
Dim allText As String = pdf.ExtractAllText()
' Extract all images from the PDF document
Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages()
' Iterate over each page in the PDF document
For index = 0 To pdf.PageCount - 1
Dim pageNumber As Integer = index + 1
' Extract text from the specific page
Dim text As String = pdf.ExtractTextFromPage(index)
' Extract images from the specific page
Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index)
' Code to process the extracted text and images
'...
Next index
End Using
End Sub
End Classこのコード例では:
FromFileメソッドは、入力PDF文書をロードし、その文書は暗号化されており、パスワードが必要です。ExtractAllTextメソッドはPDFからすべてのテキストコンテンツを抽出します。ExtractAllImagesメソッドはすべての埋め込まれた画像を取得します。- ループは文書の各ページを反復して、
ExtractTextFromPageとExtractImagesFromPageを使用してその特定のページからテキストと画像を抽出します。
結論
IronPDFを使用すると、開発者は簡単にPDFファイルからテキストと画像を抽出できます。 ExtractAllTextとExtractAllImagesを使用すると、PDFファイルの内容全体を瞬時に抽出できます。 また、これらのメソッドを使用して特定のページから内容を抽出することもできます。 前述のコードでは、これらのメソッドを使って複数のページからテキストと画像を読み取る方法を示しました。
さらに、IronPDFは、チャートの描画、バーコードを追加、パスワードでセキュリティを強化、透かしをプログラムでPDFフォームを処理する機能などを提供します。
IronPDFは、開発中は無料で利用可能であり、商業利用には支払いが必要です。 商業利用での支払いなしでIronPDFの無料トライアルが利用可能です。
2つのIronPDF Lite Licensesの費用で[Iron Softwareのドキュメントライブラリのフルスイート](Iron Suite)を購入してください。
今日からPDFからデータを抽出を開始するために、IronPDFを今すぐダウンロードしてください!
よくある質問
C#でPDFからテキストを抽出する方法は?
IronPDF の ExtractAllText メソッドを使用して、PDF ドキュメントからすべてのテキストを抽出できます。このメソッドは、PDF のテキストコンテンツに簡単にアクセスできるようにすることでプロセスを簡素化します。
C# を使用して PDF から画像を抽出するプロセスは何ですか?
IronPDF を使用することで、ExtractAllImages メソッドを利用して PDF から画像を抽出できます。このメソッドは PDF ファイルから埋め込まれたすべての画像を効率的に取得します。
C# プロジェクトに PDF 操作ライブラリをインストールするにはどうすればよいですか?
C# プロジェクトに IronPDF をインストールするには、パッケージ マネージャー コンソールで Install-Package IronPdf コマンドを使用するか、Visual Studio の NuGet パッケージ マネージャー UI を通じてパッケージをインストールします。
C# で暗号化された PDF を扱うことは可能ですか?
はい、IronPDF を使用すると、FromFile メソッドによって、ファイル名とパスワードを指定してコンテンツにアクセスすることにより、暗号化された PDF ファイルを開いたり操作したりできます。
C# で PDF の特定のページからデータを抽出することはできますか?
IronPDF は、PDF ドキュメントの各ページを反復処理し、ExtractTextFromPage や ExtractImagesFromPage のようなメソッドを使用して特定のページからデータを抽出することを可能にします。
C# PDF ライブラリが提供する追加機能は何ですか?
データ抽出の他に、IronPDF はグラフのレンダリング、バーコードの追加、パスワードでのドキュメントのセキュリティ強化、透かし、および PDF フォームのプログラム的な処理などの機能を提供します。
C# で HTML を PDF に変換するにはどうすればいいですか?
IronPDF の RenderHtmlAsPdf メソッドを使用して HTML 文字列を PDF に変換することができます。これは特にウェブコンテンツから PDF ドキュメントを作成する際に便利です。
C# PDF ライブラリの試用版はありますか?
IronPDF は開発中は無料で使用でき、その機能をテストすることができます。商用利用には商用ライセンスが必要ですが、無料試用版も利用可能です。
PDF からのデータ抽出に C# ライブラリを使用し始めるにはどうすればよいですか?
IronPDF を使用してデータ抽出を開始するには、ライブラリをダウンロードし、Visual Studio で C# プロジェクトを作成または開き、IronPDF をインストールし、コード例に従って PDF からテキストと画像を効率的に抽出します。
.NET 10 の互換性: IronPDF のデータ抽出機能を .NET 10 で使用できますか?
はい。IronPDFは、テキストや画像の抽出などのデータ抽出機能を含め、.NET 10で完全にサポートされています。特別な設定なしで、.NET 10プロジェクトでIronPDFを使用できます。.NET 10、.NET 9、.NET 8、およびそれ以前のバージョンに加え、.NET Standardと.NET Frameworkをサポートしています。(ironpdf.com)






