IRONPDFの使用

C#でPDFからデータを抽出する方法

リーガン・パン

2022年6月26日

更新済み 2024年1月21日

共有:

イントロダクション

あなたのビジネスはPDFのセキュリティおよびコンプライアンスの年間サブスクリプションに過剰な支出をしています。考慮 IronSecureDoc一回の支払いですべてのデジタル署名、編集、暗号化、および保護などのSaaSサービスの管理ソリューションを提供します。 IronSecureDocについてもっと知る

PDFからデータを抽出することは、手動入力の時間を節約するために重要です。この記事では、開発者がIronPDFライブラリを使用して如何にテキストと画像を抽出するPDFドキュメントから。

C#でPDFからデータを抽出する方法

PDFからデータを抽出するC#ライブラリをダウンロード
Visual Studioで新しいプロジェクトを作成する
プロジェクトにライブラリをインストール
特定のページからデータを抽出し、PDFから特定のデータを抽出します。
PDFドキュメントのデータ出力を表示

IronPDF: C# PDFライブラリ

IronPDFPDFファイルの作成、編集、変換に使用できる.NETライブラリです。これは、開発者が自分のアプリケーションで使用できる使いやすいAPIを提供します。これは、PDFファイルの作成、編集、および変換のための最も人気のあるライブラリの一つです。 IronPDFを使用すると、PDFに対するシンプルで迅速な解決策を作成できます。お客様のテキストはカスタマイズされます各ドキュメントごとにあなたのレイアウト.NETプログラムのサポートを受け、簡単に読みやすく設定され、グラフィックがデザインされます。

IronPDFライブラリには、PDFファイルからデータを抽出するための素晴らしい機能があります。この記事では、IronPDFを使用してデータを抽出する方法について説明します。まず、C#プロジェクトを作成するか、開く必要があります。次のセクションに進みましょう。

Visual StudioでC#プロジェクトを作成または開く

このチュートリアルでは、最新バージョンの Visual Studio を使用することを推奨します。

Visual Studioを開いたら、以下の手順に従って新しいC#プロジェクトを作成してください。既存のプロジェクトを使用したい場合は、次のステップをスキップして、次のセクションに直接進んでください。

Visual Studio を開く
「新しいプロジェクトを作成」ボタンをクリックしてください。

Visual Studioの起動画面UI
テンプレートから「C# コンソールアプリケーション」を選択します。

プロジェクトを新規作成
プロジェクトに名前を付けて、「次へ」ボタンをクリックしてください。
プロジェクトの要件に応じて.NET Frameworkを選択し、作成ボタンをクリックしてください。

.NETフレームワークの選択

Visual Studio は、今、新しい C# .NET プロジェクトを生成します。

IronPDFライブラリをインストールする

IronPDF ライブラリは複数の方法でインストールできます。

パッケージマネージャーコンソールの使用

ツール > NuGet パッケージマネージャ > パッケージマネージャコンソール の順に選択して、パッケージマネージャコンソールを開きます。
次のコマンドを実行します:

Install-Package IronPdf

PDFからデータを抽出する方法（C#）、図4: パッケージマネージャーコンソールタブでのインストール進行状況

パッケージマネージャーコンソールタブでのインストール進行状況

インストール後、以下に示されているように、ソリューションエクスプローラーの dependencies セクションに IronPDF 依存関係が表示されます。

PDFからデータを抽出する方法 (C#)、図5：ソリューションエクスプローラーでIronPDFパッケージを参照する

Solution ExplorerでIronPDFパッケージを参照する

NuGetパッケージマネージャーを使用する

IronPDFライブラリをインストールする別の方法は、Visual Studioの統合されたNuGetパッケージマネージャーのUIを使用することです。

メインメニューからツールに移動します。ドロップダウンメニューから「NuGet パッケージマネージャー」にホバーし、「NuGet パッケージマネージャーソリューション」を選択します。

NuGetパッケージマネージャーに移動
これにより、NuGetパッケージマネージャーウィンドウが開きます。ブラウズタブに移動し、検索ボックスに「IronPDF」と入力し、Enterキーを押します。
検索結果からIronPDFを選択し、「インストール」ボタンをクリックしてインストールを開始してください。

NuGet パッケージマネージャーから IronPDF パッケージをインストールする

PDFファイルからデータを抽出

次のコードを使ってIronPDFを使用してデータを抽出する方法を見てみましょう:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}

'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index

まず、FromFile（ファイルから）メソッドは、プログラム内で入力PDFドキュメントを読み込むために使用されます。暗号化されたPDFファイルが提供され、ファイルにアクセスするためにパスワードが必要です。その後、テキストデータが抽出されます。ExtractAllTextすべてのテキストデータをString変数に取り込むメソッド。ここから、PdfDocument は多くの機能を提供します:[以下の内容を日本語に翻訳してください:

IronPDFは、.NET、Java、Python、Node.jsで利用できるPDF生成および操作ライブラリです。開発者は、このツールを使用して、プログラム内から直接PDFを作成、編集、または変換することができます。

IronOCRは、.NETプラットフォーム向けのOCR（光学式文字認識）ライブラリで、画像やPDFからテキストを抽出できます。高精度の文字認識機能により、紙文書のデジタル化や自動化が大幅に向上します。

IronXLは、.NETおよびPythonプラットフォーム向けのスプレッドシートライブラリであり、Excelファイルの作成、読み取り、編集、保存を簡単に行えます。開発者は、.NETまたはPythonのコード内でExcelファイルを操作することができます。

IronBarcodeは、.NETプラットフォーム向けのバーコード認識および生成ライブラリで、異なる形式のバーコードを迅速かつ正確に処理します。製品のトラッキングや在庫管理システムで非常に有用です。

IronQRは、.NET向けのQRコードジェネレータおよびリーダーツールで、簡単にQRコードを生成し、また読み取ることができます。

IronZIPは、.NETプラットフォーム向けの圧縮および解凍ライブラリで、大量のデータを効率的に管理するのに役立ちます。

IronWordは、.NETプラットフォーム向けのWord文書ライブラリで、プログラム内からWord文書の作成、読み取り、編集が可能です。

IronPrintは、.NET向けの印刷ライブラリで、様々なフォーマットのドキュメントや画像を簡単に印刷することができます。

IronWebscraperは、.NET向けのウェブスクレイピングツールで、ウェブページからデータを迅速に収集し、解析することができます。

それぞれのライセンスにはLite License、Plus License、Professional License、Unlimited Licenseがあります。また、全製品を含むIron Suiteも提供しています。](/blog/using-ironpdf/csharp-convert-pdf-to-text-tutorial/)、TXTファイルにダンプして、データベースに保存するなど。

IronPDFはPDFテーブルからテキストを抽出1つ以上に含めるためにCSVファイル.

Line 11は次の ExtractAllImages（すべての画像を抽出）PDFドキュメントから埋め込まれたすべての画像を抽出するメソッド。

IronPDFは、特定のPDFページからコンテンツを抽出することもできます。上記の例の残りのコード行は、どのように使用するかを示していますExtractTextFromPage以下のコンテンツを日本語に翻訳してください：ExtractImagesFromPage一部のページからテキストと画像を取得する方法。両方のメソッドは、目的のページのゼロベースのインデックスを表す整数引数を受け取ります。

結論

IronPDFは、開発者がExtractAllTextとExtractAllImagesを使用してPDFファイルのテキストと画像をわずか1行のコードで抽出し、PDFファイルの全内容を瞬時に取得できるようにします。その一方で、ExtractAllImage または ExtractAllText を呼び出すことで、特定の1ページのPDFからテキストや画像を取得することができます。前回のサンプルコードでは、複数のページからテキストと画像を読み取るための二つの方法を使用する方法を示しました。

さらに、IronPDFは以下も可能ですグラフのレンダリングPDF内バーコードの追加, パスワードによるセキュリティの強化以下のコンテンツを日本語に翻訳してください：透かし、およびさらにはPDFフォームの処理プログラムによって

IronPDFは開発に完全に無料です。商業利用には支払いが必要ですが、次のものにアクセスできます：IronPDFの無料トライアル支払いなしで製品に使用できます。

購入Iron Softwareのドキュメントライブラリ一式2つ分の価格IronPDF Liteライセンス.

ダウンロードIronPdfはこちら今日からPDFからデータを抽出し始めるために!

リーガン・パン

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

レーガンはリーディング大学で電子工学の学士号を取得しました。Iron Softwareに入社する前の仕事では、一つのタスクに集中して取り組んでいました。Iron Softwareでは、営業、技術サポート、製品開発、マーケティングのいずれにおいても広範な業務に携わることが最も楽しいと感じています。彼は、Iron Softwareライブラリを開発者がどのように使用しているかを理解し、その知識を使ってドキュメントを継続的に改善し、製品を開発することを楽しんでいます。

< 以前
C＃でPDFからテキストを抽出する方法（コード例チュートリアル）

次へ >
C#を使用してPDFにページ番号を追加する方法