ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
PDFからデータを抽出することは、手動入力の時間を節約するために重要です。 この記事では、開発者がIronPDFライブラリを使用して如何にテキストと画像を抽出するPDFドキュメントから。
IronPDFPDFファイルの作成、編集、変換に使用できる.NETライブラリです。 これは、開発者が自分のアプリケーションで使用できる使いやすいAPIを提供します。 これは、PDFファイルの作成、編集、および変換のための最も人気のあるライブラリの一つです。 IronPDFを使用すると、PDFに対するシンプルで迅速な解決策を作成できます。 お客様のテキストはカスタマイズされます各ドキュメントごとにあなたのレイアウト.NETプログラムのサポートを受け、簡単に読みやすく設定され、グラフィックがデザインされます。
IronPDFライブラリには、PDFファイルからデータを抽出するための素晴らしい機能があります。 この記事では、IronPDFを使用してデータを抽出する方法について説明します。 まず、C#プロジェクトを作成するか、開く必要があります。 次のセクションに進みましょう。
このチュートリアルでは、最新バージョンの Visual Studio を使用することを推奨します。
Visual Studioを開いたら、以下の手順に従って新しいC#プロジェクトを作成してください。 既存のプロジェクトを使用したい場合は、次のステップをスキップして、次のセクションに直接進んでください。
「新しいプロジェクトを作成」ボタンをクリックしてください。
Visual Studioの起動画面UI
テンプレートから「C# コンソールアプリケーション」を選択します。
プロジェクトを新規作成
プロジェクトの要件に応じて.NET Frameworkを選択し、作成ボタンをクリックしてください。
.NETフレームワークの選択
Visual Studio は、今、新しい C# .NET プロジェクトを生成します。
IronPDF ライブラリは複数の方法でインストールできます。
Install-Package IronPdf
パッケージマネージャーコンソールタブでのインストール進行状況
インストール後、以下に示されているように、ソリューションエクスプローラーの dependencies
セクションに IronPDF 依存関係が表示されます。
Solution ExplorerでIronPDFパッケージを参照する
IronPDFライブラリをインストールする別の方法は、Visual Studioの統合されたNuGetパッケージマネージャーのUIを使用することです。
メインメニューからツールに移動します。 ドロップダウンメニューから「NuGet パッケージ マネージャー」にホバーし、「NuGet パッケージ マネージャー ソリューション」を選択します。
NuGetパッケージマネージャーに移動
検索結果からIronPDFを選択し、「インストール」ボタンをクリックしてインストールを開始してください。
NuGet パッケージマネージャーから IronPDF パッケージをインストールする
次のコードを使ってIronPDFを使用してデータを抽出する方法を見てみましょう:
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
まず、FromFile(ファイルから)
メソッドは、プログラム内で入力PDFドキュメントを読み込むために使用されます。 暗号化されたPDFファイルが提供され、ファイルにアクセスするためにパスワードが必要です。その後、テキストデータが抽出されます。ExtractAllText
すべてのテキストデータをString変数に取り込むメソッド。 ここから、PdfDocument
は多くの機能を提供します:[以下の内容を日本語に翻訳してください:
IronPDFは、.NET、Java、Python、Node.jsで利用できるPDF生成および操作ライブラリです。開発者は、このツールを使用して、プログラム内から直接PDFを作成、編集、または変換することができます。
IronOCRは、.NETプラットフォーム向けのOCR(光学式文字認識)ライブラリで、画像やPDFからテキストを抽出できます。高精度の文字認識機能により、紙文書のデジタル化や自動化が大幅に向上します。
IronXLは、.NETおよびPythonプラットフォーム向けのスプレッドシートライブラリであり、Excelファイルの作成、読み取り、編集、保存を簡単に行えます。開発者は、.NETまたはPythonのコード内でExcelファイルを操作することができます。
IronBarcodeは、.NETプラットフォーム向けのバーコード認識および生成ライブラリで、異なる形式のバーコードを迅速かつ正確に処理します。製品のトラッキングや在庫管理システムで非常に有用です。
IronQRは、.NET向けのQRコードジェネレータおよびリーダーツールで、簡単にQRコードを生成し、また読み取ることができます。
IronZIPは、.NETプラットフォーム向けの圧縮および解凍ライブラリで、大量のデータを効率的に管理するのに役立ちます。
IronWordは、.NETプラットフォーム向けのWord文書ライブラリで、プログラム内からWord文書の作成、読み取り、編集が可能です。
IronPrintは、.NET向けの印刷ライブラリで、様々なフォーマットのドキュメントや画像を簡単に印刷することができます。
IronWebscraperは、.NET向けのウェブスクレイピングツールで、ウェブページからデータを迅速に収集し、解析することができます。
それぞれのライセンスにはLite License、Plus License、Professional License、Unlimited Licenseがあります。また、全製品を含むIron Suiteも提供しています。](/blog/using-ironpdf/csharp-convert-pdf-to-text-tutorial/)、TXTファイルにダンプして、データベースに保存するなど。
IronPDFはPDFテーブルからテキストを抽出1つ以上に含めるためにCSVファイル.
Line 11は次の ExtractAllImages(すべての画像を抽出)
PDFドキュメントから埋め込まれたすべての画像を抽出するメソッド。
IronPDFは、特定のPDFページからコンテンツを抽出することもできます。 上記の例の残りのコード行は、どのように使用するかを示していますExtractTextFromPage
以下のコンテンツを日本語に翻訳してください:ExtractImagesFromPage
一部のページからテキストと画像を取得する方法。 両方のメソッドは、目的のページのゼロベースのインデックスを表す整数引数を受け取ります。
IronPDFは、開発者がExtractAllText
とExtractAllImages
を使用してPDFファイルのテキストと画像をわずか1行のコードで抽出し、PDFファイルの全内容を瞬時に取得できるようにします。 その一方で、ExtractAllImage
または ExtractAllText
を呼び出すことで、特定の1ページのPDFからテキストや画像を取得することができます。 前回のサンプルコードでは、複数のページからテキストと画像を読み取るための二つの方法を使用する方法を示しました。
さらに、IronPDFは以下も可能ですグラフのレンダリングPDF内バーコードの追加, パスワードによるセキュリティの強化以下のコンテンツを日本語に翻訳してください:透かし、およびさらにはPDFフォームの処理プログラムによって
IronPDFは開発に完全に無料です。 商業利用には支払いが必要ですが、次のものにアクセスできます:IronPDFの無料トライアル支払いなしで製品に使用できます。
購入Iron Softwareのドキュメントライブラリ一式2つ分の価格IronPDF Liteライセンス.
ダウンロードIronPdfはこちら今日からPDFからデータを抽出し始めるために!
9つの .NET API製品 オフィス文書用