IRONPDFの使用

C#でPDFからデータを抽出する方法

更新済み 2024年1月21日
共有:

イントロダクション

PDFからデータを抽出することは、手動入力の時間を節約するために重要です。 この記事では、開発者がIronPDFライブラリを使用して如何にテキストと画像を抽出するPDFドキュメントから。

IronPDF: C# PDFライブラリ

IronPDFPDFファイルの作成、編集、変換に使用できる.NETライブラリです。 これは、開発者が自分のアプリケーションで使用できる使いやすいAPIを提供します。 これは、PDFファイルの作成、編集、および変換のための最も人気のあるライブラリの一つです。 IronPDFを使用すると、PDFに対するシンプルで迅速な解決策を作成できます。 お客様のテキストはカスタマイズされます各ドキュメントごとにあなたのレイアウト.NETプログラムのサポートを受け、簡単に読みやすく設定され、グラフィックがデザインされます。

IronPDFライブラリには、PDFファイルからデータを抽出するための素晴らしい機能があります。 この記事では、IronPDFを使用してデータを抽出する方法について説明します。 まず、C#プロジェクトを作成するか、開く必要があります。 次のセクションに進みましょう。

Visual StudioでC#プロジェクトを作成または開く

このチュートリアルでは、最新バージョンの Visual Studio を使用することを推奨します。

Visual Studioを開いたら、以下の手順に従って新しいC#プロジェクトを作成してください。 既存のプロジェクトを使用したい場合は、次のステップをスキップして、次のセクションに直接進んでください。

  • Visual Studio を開く
  • 「新しいプロジェクトを作成」ボタンをクリックしてください。

    PDFからデータを抽出する方法(C#) 図1: Visual Studio のUIを開く

    Visual Studioの起動画面UI

  • テンプレートから「C# コンソールアプリケーション」を選択します。

    C#でPDFからデータを抽出する方法、図2: 新しいプロジェクトを作成

    プロジェクトを新規作成

  • プロジェクトに名前を付けて、「次へ」ボタンをクリックしてください。
  • プロジェクトの要件に応じて.NET Frameworkを選択し、作成ボタンをクリックしてください。

    PDFからデータを抽出する方法 (C#)、図3: .NET Frameworkの選択

    .NETフレームワークの選択

    Visual Studio は、今、新しい C# .NET プロジェクトを生成します。

IronPDFライブラリをインストールする

IronPDF ライブラリは複数の方法でインストールできます。

パッケージマネージャーコンソールの使用

  • ツール > NuGet パッケージ マネージャ > パッケージ マネージャ コンソール の順に選択して、パッケージ マネージャ コンソールを開きます。
  • 次のコマンドを実行します:
Install-Package IronPdf

PDFからデータを抽出する方法(C#)、図4: パッケージ マネージャー コンソール タブでのインストール進行状況

パッケージマネージャーコンソールタブでのインストール進行状況

インストール後、以下に示されているように、ソリューションエクスプローラーの dependencies セクションに IronPDF 依存関係が表示されます。

PDFからデータを抽出する方法 (C#)、図5:ソリューションエクスプローラーでIronPDFパッケージを参照する

Solution ExplorerでIronPDFパッケージを参照する

NuGetパッケージマネージャーを使用する

IronPDFライブラリをインストールする別の方法は、Visual Studioの統合されたNuGetパッケージマネージャーのUIを使用することです。

  • メインメニューからツールに移動します。 ドロップダウンメニューから「NuGet パッケージ マネージャー」にホバーし、「NuGet パッケージ マネージャー ソリューション」を選択します。

    PDFからC#でデータを抽出する方法、図6: NuGetパッケージマネージャーに移動

    NuGetパッケージマネージャーに移動

  • これにより、NuGetパッケージ マネージャー ウィンドウが開きます。 ブラウズタブに移動し、検索ボックスに「IronPDF」と入力し、Enterキーを押します。
  • 検索結果からIronPDFを選択し、「インストール」ボタンをクリックしてインストールを開始してください。

    PDFからデータを抽出する方法 (C#)、図7: NuGetパッケージマネージャーからIronPDFパッケージをインストールする

    NuGet パッケージマネージャーから IronPDF パッケージをインストールする

PDFファイルからデータを抽出

次のコードを使ってIronPDFを使用してデータを抽出する方法を見てみましょう:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index
VB   C#

まず、FromFile(ファイルから)メソッドは、プログラム内で入力PDFドキュメントを読み込むために使用されます。 暗号化されたPDFファイルが提供され、ファイルにアクセスするためにパスワードが必要です。その後、テキストデータが抽出されます。ExtractAllTextすべてのテキストデータをString変数に取り込むメソッド。 ここから、PdfDocument は多くの機能を提供します:[以下の内容を日本語に翻訳してください:

IronPDFは、.NET、Java、Python、Node.jsで利用できるPDF生成および操作ライブラリです。開発者は、このツールを使用して、プログラム内から直接PDFを作成、編集、または変換することができます。

IronOCRは、.NETプラットフォーム向けのOCR(光学式文字認識)ライブラリで、画像やPDFからテキストを抽出できます。高精度の文字認識機能により、紙文書のデジタル化や自動化が大幅に向上します。

IronXLは、.NETおよびPythonプラットフォーム向けのスプレッドシートライブラリであり、Excelファイルの作成、読み取り、編集、保存を簡単に行えます。開発者は、.NETまたはPythonのコード内でExcelファイルを操作することができます。

IronBarcodeは、.NETプラットフォーム向けのバーコード認識および生成ライブラリで、異なる形式のバーコードを迅速かつ正確に処理します。製品のトラッキングや在庫管理システムで非常に有用です。

IronQRは、.NET向けのQRコードジェネレータおよびリーダーツールで、簡単にQRコードを生成し、また読み取ることができます。

IronZIPは、.NETプラットフォーム向けの圧縮および解凍ライブラリで、大量のデータを効率的に管理するのに役立ちます。

IronWordは、.NETプラットフォーム向けのWord文書ライブラリで、プログラム内からWord文書の作成、読み取り、編集が可能です。

IronPrintは、.NET向けの印刷ライブラリで、様々なフォーマットのドキュメントや画像を簡単に印刷することができます。

IronWebscraperは、.NET向けのウェブスクレイピングツールで、ウェブページからデータを迅速に収集し、解析することができます。

それぞれのライセンスにはLite License、Plus License、Professional License、Unlimited Licenseがあります。また、全製品を含むIron Suiteも提供しています。](/blog/using-ironpdf/csharp-convert-pdf-to-text-tutorial/)、TXTファイルにダンプして、データベースに保存するなど。

IronPDFはPDFテーブルからテキストを抽出1つ以上に含めるためにCSVファイル.

Line 11は次の ExtractAllImages(すべての画像を抽出)PDFドキュメントから埋め込まれたすべての画像を抽出するメソッド。

IronPDFは、特定のPDFページからコンテンツを抽出することもできます。 上記の例の残りのコード行は、どのように使用するかを示していますExtractTextFromPage以下のコンテンツを日本語に翻訳してください:ExtractImagesFromPage一部のページからテキストと画像を取得する方法。 両方のメソッドは、目的のページのゼロベースのインデックスを表す整数引数を受け取ります。

結論

IronPDFは、開発者がExtractAllTextExtractAllImagesを使用してPDFファイルのテキストと画像をわずか1行のコードで抽出し、PDFファイルの全内容を瞬時に取得できるようにします。 その一方で、ExtractAllImage または ExtractAllText を呼び出すことで、特定の1ページのPDFからテキストや画像を取得することができます。 前回のサンプルコードでは、複数のページからテキストと画像を読み取るための二つの方法を使用する方法を示しました。

さらに、IronPDFは以下も可能ですグラフのレンダリングPDF内バーコードの追加, パスワードによるセキュリティの強化以下のコンテンツを日本語に翻訳してください:透かし、およびさらにはPDFフォームの処理プログラムによって

IronPDFは開発に完全に無料です。 商業利用には支払いが必要ですが、次のものにアクセスできます:IronPDFの無料トライアル支払いなしで製品に使用できます。

購入Iron Softwareのドキュメントライブラリ一式2つ分の価格IronPDF Liteライセンス.

ダウンロードIronPdfはこちら今日からPDFからデータを抽出し始めるために!

< 以前
C#でPDFからテキストを抽出する方法(コード例チュートリアル)
次へ >
C#を使用してPDFにページ番号を追加する方法