JAVA向けIRONPDFの使用

JavaでPDFからデータを抽出する方法

更新済み 2024年9月1日
共有:

このチュートリアルでは、使用方法を紹介しますIronPDF for JavaPDFファイルからデータを抽出するために。環境のセットアップ、ライブラリのインポート、入力ファイルの読み込み、必要なデータの抽出がすべてコードサンプルで説明されています。

2. IronPDF Java PDFライブラリ

IronPDFは、開発者が生成、編集、およびIronPDF for Javaを使ってPDFファイルからデータを抽出するJavaアプリケーション内で。 それにより、あなたはHTML文書からPDFを作成、画像やその他のものを含む、そしてまた複数のPDFを結合, PDFファイルの分割、既存のPDFを操作します。 IronPDFは、PDFを保護する機能も提供します。パスワード保護機能以下のコンテンツを日本語に翻訳してください:PDFに電子署名を追加するなどの機能が含まれています。

IronPDF for JavaはIron Softwareによって開発および維持されています。 その最も評価の高い機能の一つは、PDFファイルからだけでなく、HTMLやURLからもテキストとデータを抽出することです。

3. 前提条件

IronPDFを使用してPDFファイルからデータを抽出するには、以下の前提条件を満たす必要があります:

  1. Javaのインストール: システムにJavaがインストールされており、環境変数にパスが設定されていることを確認してください。 まだJavaをインストールしていない場合は、こちらをご参照くださいJavaウェブサイトのダウンロードページ指示については。

  2. Java IDE: EclipseやIntelliJのようなJava IDEをインストールしてください。 こちらからEclipseをダウンロードできますEclipseダウンロードページからこのIntelliJIntelliJダウンロードページ.

  3. IronPDFライブラリ: IronPDFライブラリをダウンロードして、プロジェクトの依存関係として追加します。 ウェブサイトに訪問してくださいIronPDFセットアップ説明ページセットアップの手順について。

  4. Mavenのインストール: PDF変換プロセスを開始する前に、Mavenをインストールし、IDEと統合しておく必要があります。 こちらを参照してくださいJetBrainsのMavenインストールチュートリアルMavenのインストールと統合について.

4. IronPDF for Java のインストール

すべての要件が満たされていれば、IronPDF for Javaのインストールは簡単かつシンプルです。 このガイドでは、JetBrainsのIntelliJ IDEAを使用して、インストールとサンプルコードの実行を示します。

以下のことを行ってください:

IntelliJ IDEA を開く: お使いのシステムで JetBrains IntelliJ IDEA を起動します。

Mavenプロジェクトを作成する: IntelliJ IDEAで新しいMavenプロジェクトを作成します。 これはIronPDF for Javaのインストールに適した環境を提供します。

PDFからデータを抽出する方法 in Java, 図1: IntelliJでの新しいMavenプロジェクト

IntelliJで新しいMavenプロジェクト

新しいウィンドウが表示されます。 プロジェクト名を入力し、「完了」をクリックしてください。

PDFからデータを抽出する方法 Java、図2: Mavenプロジェクトに名前を付けて、終了をクリック

Mavenプロジェクトに名前を付けて、完了をクリックします

「Finish」をクリックすると、pom.xmlを含む新しいプロジェクトが開きます。 これは、IronPDF Java Maven 依存関係を追加するために使用されます。

JavaでPDFからデータを抽出する方法、図3:pom.xmlファイル

pom.xmlファイル

以下の依存関係を pom.xml ファイルに追加するか、JARファイルをSonatype CentralのIronPDFライブラリページ.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.11.4</version>
</dependency>

pom.xmlファイルに依存関係を配置すると、ファイルの右上隅に小さなアイコンが表示されます。

JavaでPDFからデータを抽出する方法、図4:フローティングアイコンをクリックして、Mavenの依存関係を自動的にインストールします

浮動アイコンをクリックして、Mavenの依存関係を自動的にインストールします

このボタンをクリックしてIronPDF for JavaのMaven依存関係をインストールしてください。 インターネット接続の速度によっては、これにはほんの数分しかかからないはずです。

データ抽出

IronPDFは、PDFドキュメントの作成、編集、データ抽出のためのJavaライブラリです。 PDFファイル、URL、テーブルからテキストを抽出するためのシンプルなAPIを提供します。

PDFドキュメントからデータを抽出する

Java 向け IronPDF を使用すると、PDF ドキュメントからテキストデータを簡単に抽出できます。 以下は、PDFファイルからデータを抽出するためのサンプルコードです。

JavaでPDFからデータを抽出する方法、図5:PDF入力

PDF入力

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

ソースコードは以下の出力を生成します:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

URLからデータを抽出する

IronPDF for Javaは、ランタイム中にURLをPDFに変換し、テキストを抽出します。 この例では、URLからテキストを抽出するためのソースコードを見ていきます。

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

JavaでPDFからデータを抽出する方法、図6:抽出されたWebページのデータ

抽出されたウェブページのデータ

表データからデータを抽出

IronPDF for Javaを使用してPDFから表データを抽出するのは非常に簡単です。 テーブルを含むPDFファイルと、下記のコードを実行するだけで済みます。

JavaでPDFからデータを抽出する方法、図7:サンプルPDFテーブル入力

サンプルPDFテーブル入力

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

結論

結論として、このチュートリアルでは、IronPDF for Java を使用してPDFファイルから特に表形式データを抽出する方法を示しました。

詳細については、をご参照ください。PDFからテキストを抽出する例IronPDFのウェブサイトで。

IronPDFは、ライブラリで商用ライセンスの詳細以下の通り翻訳します:

$749から開始します。 しかし、本番環境で評価することができます。IronPDFトライアルライセンスを使用した無料トライアル.

< 以前
JavaでPDFから画像を抽出する方法
次へ >
Javaを使用して2つのPDFファイルを結合する方法

Mavenでインストール

バージョン:2024.11.4

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.11.4</version>
</dependency>

準備はできましたか? バージョン: 2024.11 新発売

無料のMavenダウンロード ライセンスを表示 >