IRONPDFの使用

C# で PDF テーブルを読む方法

更新済み 3月 25, 2023
共有:

PDFファイルからデータを抽出することは、C#ではかなりの挑戦です。 データは、テキスト、画像、チャート、グラフ、表などの形式で存在する場合があります。時々、ビジネスアナリストはデータを抽出し、データ分析を実行して、その結果に基づいて意思決定を行う必要があります。 IronPDF C# PDF LibraryはPDFファイルからデータを抽出するための優れたソリューションです。

この記事では、IronPDFライブラリを使用してC#でPDFドキュメントから表データを抽出する方法を示します。

IronPDF - C# PDFライブラリ

IronPDFはC# .NETライブラリです, 開発者がソフトウェア アプリケーション内で PDF ドキュメントを簡単に読み取り、作成および編集するのに役立ちます。 そのChromiumエンジンは、PDFドキュメントを高精度かつ高速にレンダリングします。 それにより、開発者はさまざまな形式からPDFへ、またはその逆方向へシームレスに変換することができます。 それは最新の .NET 7 フレームワーク、また .NET フレームワーク 6、5、4、.NET Core、および Standard をサポートしています。

さらに、IronPDF .NET APIは、開発者がPDFを操作および編集し、ヘッダーとフッターを追加し、簡単にPDFからテキスト、画像、テーブルを抽出することも可能にします。

いくつかの重要な機能には以下が含まれます

IronPDFを利用することで、開発者は簡単にPDFファイルを生成、操作、テキスト抽出、暗号化、そして共有することができます。IronPDF for .NETやIronPDF for Pythonなどの異なるバージョンも提供されています。

また、IronOCRを使用すると、開発者は画像やPDFからテキストを抽出することができます。IronOCRは.NET環境で特に強力な機能を発揮します。

さらに、IronXLはExcelファイルを読み書きするための強力なライブラリです。IronXL for .NETを使えば、簡単にスプレッドシートの作成と管理を行うことができます。

IronBarcodeは、バーコードの生成と読み取りを簡単にします。IronQRも同様に、QRコードの生成と読み取りをサポートします。

IronZIPを使うことで、圧縮ファイルの操作を簡単に行うことができ、IronWordはWordドキュメントの生成や編集を効率化します。

IronPrintとIronWebScraperも含め、Iron Suiteの各ソフトウェアツールは開発者の生産性を高めるために設計されています。

Iron Softwareが提供する各ソフトウェアにはLite LicenseからUnlimited Licenseまで複数のライセンスオプションがあり、それぞれのニーズに応じた選択が可能です。](/examples/merge-pdfs/) PDFファイルの結合および分割

IronPDFライブラリを使用してC#でテーブルデータを抽出する手順

PDFドキュメントから表データを抽出するためには、ローカルコンピュータシステムに以下のコンポーネントがインストールされている必要があります:

  1. Visual Studio - Visual Studio 2022 は C# 開発の公式 IDE であり、コンピュータにインストールする必要があります。 こちらからダウンロードしてインストールしてください: Visual Studioウェブサイト.

  2. プロジェクトの作成 - データ抽出用のコンソールアプリを作成します。 プロジェクトを作成するには、以下の手順に従ってください:

    • Visual Studio 2022を開き、新しいプロジェクトの作成ボタンをクリックします。

      C#でPDFテーブルを読み取る方法、図1: Visual Studioのスタート画面

      Visual Studio のスタート画面

    • 次に、C# コンソール アプリケーションを選択し、次へをクリックします。

      C#でPDFテーブルを読む方法、図2:Visual Studioで新しいコンソールアプリケーションを作成

      Visual Studioで新しいコンソールアプリケーションを作成する

    • 次に、プロジェクト名 "ReadPDFTable" を入力し、次へをクリックします。

      C#でPDFテーブルを読む方法、図3:新しく作成されたアプリケーションを構成する

      新しく作成されたアプリケーションを構成する

    • プロジェクトには「.NET Framework 6 長期サポート」を選択してください。

      C#でPDFテーブルを読み取る方法、図4:.NET Frameworkを選択

      .NETフレームワークを選択してください

    • Create ボタンをクリックすると、コンソールプロジェクトが作成されます。」 さて、PDFドキュメントからテーブルデータをプログラム上で抽出する準備が整いました。
  3. IronPDFのインストール - IronPDFライブラリをインストールするには、3つの異なる方法があります。 それらは次の通りです:

    • Visual Studioの使用 Visual Studio には NuGet パッケージ マネージャーが含まれており、C# アプリケーションにすべての NuGet パッケージをインストールするのに役立ちます。

      • トップメニューのツールをクリックするか、

      • ソリューションエクスプローラーでプロジェクトを右クリックします。

        C#でPDFテーブルを読む方法、図5:ツール & NuGetパッケージを管理する

        ツール & NuGet パッケージの管理

      • NuGetパッケージマネージャーが開いたら、IronPDFを検索して以下のようにインストールをクリックします:

        C#でPDFテーブルを読む方法、図6:ツール&NuGetパッケージの管理

        ツール & NuGet パッケージの管理

    • NuGet パッケージを直接ダウンロード。 IronPDF をダウンロードおよびインストールするもう一つの簡単な方法は、そのページを訪問することです NuGetウェブサイト.

    • IronPDF .DLLライブラリをダウンロード IronPDFはIronPDFのウェブサイトからもダウンロードできます。クリックしてください: IronPDF DLL ダウンロード ダウンロードしてインストールするには。 あなたのプロジェクトで使用するには、.DLL を参照する必要があります。

テーブルデータを使用してPDFドキュメントを作成する

何かを作成する前に、IronPDF 名前空間をファイルに追加し、IronPDFライブラリの ExtractText メソッドを使用するためのライセンスキーを設定する必要があります。

using IronPdf;

License.LicenseKey = "YOUR-TRIAL/PURCHASED-LICENSE-KEY";
using IronPdf;

License.LicenseKey = "YOUR-TRIAL/PURCHASED-LICENSE-KEY";
Imports IronPdf

License.LicenseKey = "YOUR-TRIAL/PURCHASED-LICENSE-KEY"
VB   C#

ここでは、表を含むHTML文字列からPDFドキュメントを作成し、そのデータをIronPDFを使用して抽出します。 HTMLは文字列変数に格納され、コードは以下の通りです:

string HTML = "<html>" +
        "<style>" +
            "table, th, td {" +
                "border:1px solid black;" +
            "}" +
        "</style>" +
        "<body>" +
            "<h1>A Simple table example</h2>" +
            "<table>" +
                "<tr>" +
                    "<th>Company</th>" +
                    "<th>Contact</th>" +
                    "<th>Country</th>" +
                "</tr>" +
                "<tr>" +
                    "<td>Alfreds Futterkiste</td>" +
                    "<td>Maria Anders</td>" +
                    "<td>Germany</td>" +
                "</tr>" +
                "<tr>" +
                    "<td>Centro comercial Moctezuma</td>" +
                    "<td>Francisco Chang</td>" +
                    "<td>Mexico</td>" +
                "</tr>" +
            "</table>" +
            "<p>To understand the example better, we have added borders to the table.</p>" +
        "</body>" +
     "</html>";
string HTML = "<html>" +
        "<style>" +
            "table, th, td {" +
                "border:1px solid black;" +
            "}" +
        "</style>" +
        "<body>" +
            "<h1>A Simple table example</h2>" +
            "<table>" +
                "<tr>" +
                    "<th>Company</th>" +
                    "<th>Contact</th>" +
                    "<th>Country</th>" +
                "</tr>" +
                "<tr>" +
                    "<td>Alfreds Futterkiste</td>" +
                    "<td>Maria Anders</td>" +
                    "<td>Germany</td>" +
                "</tr>" +
                "<tr>" +
                    "<td>Centro comercial Moctezuma</td>" +
                    "<td>Francisco Chang</td>" +
                    "<td>Mexico</td>" +
                "</tr>" +
            "</table>" +
            "<p>To understand the example better, we have added borders to the table.</p>" +
        "</body>" +
     "</html>";
Dim HTML As String = "<html>" & "<style>" & "table, th, td {" & "border:1px solid black;" & "}" & "</style>" & "<body>" & "<h1>A Simple table example</h2>" & "<table>" & "<tr>" & "<th>Company</th>" & "<th>Contact</th>" & "<th>Country</th>" & "</tr>" & "<tr>" & "<td>Alfreds Futterkiste</td>" & "<td>Maria Anders</td>" & "<td>Germany</td>" & "</tr>" & "<tr>" & "<td>Centro comercial Moctezuma</td>" & "<td>Francisco Chang</td>" & "<td>Mexico</td>" & "</tr>" & "</table>" & "<p>To understand the example better, we have added borders to the table.</p>" & "</body>" & "</html>"
VB   C#

次に、 ChromePdfRenderer HTML文字列からPDFを作成するために使用されます。 コードは以下の通りです:

ChromePdfRenderer renderer = new ChromePdfRenderer();
PdfDocument pdfDocument = renderer.RenderHtmlAsPdf(HTML);
pdfDocument.SaveAs("table_example.pdf");
ChromePdfRenderer renderer = new ChromePdfRenderer();
PdfDocument pdfDocument = renderer.RenderHtmlAsPdf(HTML);
pdfDocument.SaveAs("table_example.pdf");
Dim renderer As New ChromePdfRenderer()
Dim pdfDocument As PdfDocument = renderer.RenderHtmlAsPdf(HTML)
pdfDocument.SaveAs("table_example.pdf")
VB   C#

について SaveAs メソッドは保存されます PdfDocument(PDFドキュメント) オブジェクトを「table_example.pdf」という名前のPDFファイルにします。 保存されたファイルは以下の通りです:

C# で PDF テーブルを読み取る方法、図 7: NuGet パッケージ マネージャー UI で IronPDF を検索する

NuGet パッケージ マネージャー UI で IronPDF を検索

IronPDFを使用してPDFドキュメントから表データを抽出する

PDFテーブルからデータを抽出するには、PdfDocumentオブジェクトを使用してドキュメントを開き、その後 ExtractAllText さらなる分析のためにデータを取得するためのメソッド。 次のコードは、このタスクを達成する方法を示しています:

PdfDocument pdfDocument = new PdfDocument("table_example.pdf");
string text = pdfDocument.ExtractAllText();
PdfDocument pdfDocument = new PdfDocument("table_example.pdf");
string text = pdfDocument.ExtractAllText();
Dim pdfDocument As New PdfDocument("table_example.pdf")
Dim text As String = pdfDocument.ExtractAllText()
VB   C#

上記のコードは、ExtractAllText メソッドを使用してPDF文書全体を分析し、抽出されたデータを文字列変数に返します。これには、表形式のデータも含まれます。 その後、変数の値は表示されたり、後で使用するためにファイルに保存されたりすることができます。 以下のコードは画面に表示します:

Console.WriteLine("The extracted Text is:\n" + text);
Console.WriteLine("The extracted Text is:\n" + text);
Imports Microsoft.VisualBasic

Console.WriteLine("The extracted Text is:" & vbLf & text)
VB   C#

C#でPDFテーブルを読む方法、図8: テキストを抽出するPDFファイル

テキストを抽出するPDFファイル

抽出されたテキストコンテンツから表形式データを抽出する

C#には、区切り文字に基づいて文字列を分割するのに役立つString.Splitメソッドが提供されています。 以下のコードは、出力をテーブルデータのみに制限するのに役立ちます。

string [] textList = text.Split("\n");
foreach (string textItem in textList)
{
    if (textItem.Contains("."))
    {
        continue;
    }
    else
    {
        Console.WriteLine(textItem);
    }
}
string [] textList = text.Split("\n");
foreach (string textItem in textList)
{
    if (textItem.Contains("."))
    {
        continue;
    }
    else
    {
        Console.WriteLine(textItem);
    }
}
Imports Microsoft.VisualBasic

Dim textList() As String = text.Split(vbLf)
For Each textItem As String In textList
	If textItem.Contains(".") Then
		Continue For
	Else
		Console.WriteLine(textItem)
	End If
Next textItem
VB   C#

このシンプルなコード例は、抽出されたテキストからテーブルセルデータのみを抽出するのに役立ちます。 最初に、テキスト行は分割されて文字列配列に保存されます。 次に、各配列要素が繰り返され、末尾に句点「。」が付いている要素はスキップされます。 ほとんどの場合、抽出されたデータから表形式のデータのみが取得されますが、他の行も取得される場合があります。 出力は以下の通りです:

C#でPDFテーブルを読み取る方法、図9:コンソールに抽出されたテキストが表示される

コンソールに抽出されたテキストが表示されます

上記のスクリーンショットから、Console.WriteLineメソッドの出力で表データのフォーマットと論理構造が保持されていることが確認できます。 以下のリンクで、IronPDFを使用してPDFドキュメントからデータを抽出する方法の詳細をご覧いただけます。 コード例.

出力はCSVファイルとして保存することもでき、その後のデータ分析のためにフォーマットや編集を行うことができます。 コードは以下の通りです:

using (StreamWriter file = new StreamWriter("table_example.csv", false))
{
    string [] textList = text.Split("\n");
    foreach (string textItem in textList)
    {
        if (textItem.Contains("."))
        {
            continue;
        }
        else
        {
            file.WriteLine(textItem);
        }
    }
}
using (StreamWriter file = new StreamWriter("table_example.csv", false))
{
    string [] textList = text.Split("\n");
    foreach (string textItem in textList)
    {
        if (textItem.Contains("."))
        {
            continue;
        }
        else
        {
            file.WriteLine(textItem);
        }
    }
}
Imports Microsoft.VisualBasic

Using file As New StreamWriter("table_example.csv", False)
	Dim textList() As String = text.Split(vbLf)
	For Each textItem As String In textList
		If textItem.Contains(".") Then
			Continue For
		Else
			file.WriteLine(textItem)
		End If
	Next textItem
End Using
VB   C#

出力は、それぞれの textItem が一つの列になるCSVファイルとして保存されます。

サマリー

この記事では、IronPDFを使用してPDFドキュメントからデータやテーブルを抽出する方法を示しました。 IronPDFは、PDFファイルからテキストを抽出するためのいくつかの便利なオプションを提供します。 それを提供します ExtractTextFromPage 特定のページからデータを抽出するためのメソッド。 IronPDFは、異なる形式のファイルをPDFに変換することも可能です。 マークダウンファイル はい、以下の内容を日本語に翻訳いたします:

以下の内容を日本語に翻訳してください:

IronPDF allows developers to generate, edit and read PDF files in .NET applications. It simplifies the process of integrating PDF functionalities into software development projects.

Let's get started! DOCXファイル PDFからさまざまな形式への変換。 これにより、開発者はPDF機能をアプリケーション開発プロセスに簡単に統合することができます。 また、PDFドキュメントを表示および編集するためにAdobe Acrobat Readerを必要としません。

IronPDFは開発には無料で使用でき、商用利用にはライセンスが必要です。 以下を日本語に翻訳してください:

提供します 無料試用ライセンス ライブラリの全機能を試すために。 詳細情報は、このリンクにてご確認いただけます。

< 以前
QRコードをPDFに変換する方法
次へ >
PDFビューア C# ウィンドウズアプリケーション (チュートリアル)

準備はできましたか? バージョン: 2024.9 新発売

無料のNuGetダウンロード 総ダウンロード数: 10,659,073 View Licenses >