JAVA向けIRONPDFの使用

JavaでPDFからデータを抽出する方法

更新済み 3月 15, 2023
共有:

1. 序論

この記事では、Javaを使用してPDFファイルからデータを抽出する方法を学びます。PDFからのデータ抽出はIT業界で典型的な操作であり、報告書作成、コンテンツ管理など、さまざまなアプリケーションで頻繁に必要とされます。

このチュートリアルでは、使用方法をご紹介します Java用IronPDF PDFファイルからデータを抽出するための手順です。環境の設定、ライブラリのインポート、入力ファイルの読み込み、および必要なデータの抽出が含まれます。 この記事の最後まで読むと、「IronPDF for Java」を使用してPDFファイルからデータを抽出する方法を正確に理解することができます。

2. IronPDF Java PDFライブラリ

IronPDFは、開発者がJavaアプリケーション内でPDFファイルを生成、編集、およびデータを抽出できるようにするソフトウェアライブラリです。 HTML、ASPX、画像などからPDFを作成することができ、既存のPDFを結合、分割、および操作することもできます。 IronPDFは、パスワード保護やデジタル署名の追加など、PDFを保護する機能も提供します。

IronPDF for JavaはIron Softwareによって開発および維持されています。 その最も評価の高い機能の一つは、PDFファイルからだけでなく、HTMLやURLからもテキストとデータを抽出することです。

3. 前提条件

IronPDFを使用してPDFファイルからデータを抽出するには、以下の前提条件を満たす必要があります:

  1. Javaのインストール: システムにJavaがインストールされており、環境変数にパスが設定されていることを確認してください。 まだJavaをインストールしていない場合は、こちらをご参照ください リンク 指示については。

  2. Java IDE: EclipseやIntelliJのようなJava IDEをインストールしてください。 こちらからEclipseをダウンロードできます リンク からこのIntelliJ リンク.

  3. IronPDFライブラリ: IronPDFライブラリをダウンロードして、プロジェクトの依存関係として追加します。 ウェブサイトに訪問してください IronPDFのウェブサイト セットアップの手順について。

  4. Mavenのインストール:PDFの変換プロセスを開始する前に、Mavenをインストールし、IDEと統合しておく必要があります。 こちらを参照してください リンク Mavenのインストールと統合に関するチュートリアルについて。

4. IronPDF for Java のインストール

すべての要件が満たされていれば、IronPDF for Javaのインストールは簡単かつシンプルです。 このガイドでは、JetBrainsのIntelliJ IDEAを使用して、インストールとサンプルコードの実行を示します。

以下のことを行ってください:

IntelliJ IDEA を開く: お使いのシステムで JetBrains IntelliJ IDEA を起動します。

Mavenプロジェクトを作成する: IntelliJ IDEAで新しいMavenプロジェクトを作成します。 これはIronPDF for Javaのインストールに適した環境を提供します。

JavaでPDFからデータを抽出する方法 - 図1: IntelliJでの新規Mavenプロジェクト

新しいIntelliJ Mavenプロジェクトを作成

新しいウィンドウが表示されます。 プロジェクト名を入力し、「完了」をクリックしてください。

JavaでPDFからデータを抽出する方法 - 図2: Mavenプロジェクトに名前を付け、「完了」をクリック

新しい Maven プロジェクトに適切な名前を付け、「完了」をクリックして新規プロジェクトウィザードを完了します。

「Finish」をクリックすると、pom.xmlを含む新しいプロジェクトが開きます。 これは、IronPDF Java Maven 依存関係を追加するために使用されます。

How to Extract Data from PDFs in Java - Figure 3: pom.xmlファイル

pom.xmlファイル

次の依存関係をpom.xmlファイルに追加するか、以下からJARファイルをダウンロードすることができます。 リンク.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

依存関係をpom.xmlファイルに配置すると、ファイルの右上隅に小さなアイコンが表示されます。

JavaでPDFからデータを抽出する方法 - 図4: 浮動アイコンをクリックして、Maven依存関係を自動的にインストールします

上記に表示されているフローティングMavenアイコンをクリックして、新しいMaven依存関係を自動的にインストールします。

このボタンをクリックしてIronPDF for JavaのMaven依存関係をインストールしてください。 インターネット接続の速度によっては、これにはほんの数分しかかからないはずです。

データ抽出

IronPDFは、PDF文書の作成、編集、およびデータの抽出を行うための.NETライブラリです。 開発者はC#またはVB.NETコードを使用して、PDFからテキスト、画像、およびその他のデータを抽出することができます。 IronPDFを使用すると、HTMLをPDFに変換したり、既存のPDFにウォーターマークや注釈を追加したりするなど、PDFを操作することもできます。

PDFドキュメントからデータを抽出する

Java 向け IronPDF を使用すると、PDF ドキュメントからテキストデータを簡単に抽出できます。 以下は、PDFファイルからデータを抽出するためのサンプルコードです。

JavaでPDFからデータを抽出する方法 - 図5: PDF入力

このチュートリアルでコンテンツを抽出する作業用PDF。

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
   PdfDocument pdf = PdfDocument.fromFile(Paths.get("bussiness plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

ソースコードは以下の出力を生成します:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnership￾based business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

URLからデータを抽出する

IronPDF for Javaは、ランタイム中にURLをPDFに変換し、テキストを抽出します。 この例では、URLからテキストを抽出するためのソースコードを見ていきます。

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDFparser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA
JavaでPDFからデータを抽出する方法 - 図6: 抽出されたウェブページデータ

Webページから抽出されたテキスト。このアプローチは、次のものと組み合わされました PDFとしてURLをレンダリング メソッドと すべてのテキストを抽出 メソッド。

表データからデータを抽出

IronPDF for Javaを使用してPDFから表データを抽出するのは非常に簡単です。 テーブルを含むPDFファイルと、下記のコードを実行するだけで済みます。

JavaでPDFからデータを抽出する方法 - 図7: サンプルPDFテーブル入力

表を含むサンプルPDF

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

結論

結論として、このチュートリアルでは、IronPDF for Java を使用してPDFファイルから特に表形式データを抽出する方法を示しました。

詳細については、をご参照ください。 テキストを抽出 IronPDFのウェブサイトで。

IronPDFは、ライブラリで 商用ライセンス以下の通り翻訳します:

$749から開始します。 しかし、製品環境で評価することができます 無料試用.

< 以前
JavaでPDFから画像を抽出する方法
次へ >
Javaを使用して2つのPDFファイルを結合する方法

準備はできましたか? バージョン: 2024.9 新発売

無料のMavenダウンロード View Licenses >