import com.ironsoftware.ironpdf.*; import java.io.IOException; import java.nio.file.Paths; // Apply your license key License.setLicenseKey("YOUR-LICENSE-KEY"); // Set a log path Settings.setLogPath(Paths.get("C:/tmp/IronPdfEngine.log")); // Render the HTML as a PDF. Stored in myPdf as type PdfDocument; PdfDocument myPdf = PdfDocument.renderHtmlAsPdf("<h1> ~Hello World~ </h1> Made with IronPDF!"); // Save the PdfDocument to a file myPdf.saveAs(Paths.get("html_saved.pdf"));

JAVA向けIRONPDFの使用

JavaでPDFからデータを抽出する方法

リーガン・パン

2023年3月15日

更新済み 2024年9月1日

共有:

このチュートリアルでは、使用方法を紹介しますIronPDF for JavaPDFファイルからデータを抽出するために。環境のセットアップ、ライブラリのインポート、入力ファイルの読み込み、必要なデータの抽出がすべてコードサンプルで説明されています。

2. IronPDF Java PDFライブラリ

IronPDFは、開発者が生成、編集、およびIronPDF for Javaを使ってPDFファイルからデータを抽出するJavaアプリケーション内で。それにより、あなたはHTML文書からPDFを作成、画像やその他のものを含む、そしてまた複数のPDFを結合, PDFファイルの分割、既存のPDFを操作します。 IronPDFは、PDFを保護する機能も提供します。パスワード保護機能以下のコンテンツを日本語に翻訳してください：PDFに電子署名を追加するなどの機能が含まれています。

IronPDF for JavaはIron Softwareによって開発および維持されています。その最も評価の高い機能の一つは、PDFファイルからだけでなく、HTMLやURLからもテキストとデータを抽出することです。

3. 前提条件

IronPDFを使用してPDFファイルからデータを抽出するには、以下の前提条件を満たす必要があります：

Javaのインストール： システムにJavaがインストールされており、環境変数にパスが設定されていることを確認してください。まだJavaをインストールしていない場合は、こちらをご参照くださいJavaウェブサイトのダウンロードページ指示については。
Java IDE: EclipseやIntelliJのようなJava IDEをインストールしてください。こちらからEclipseをダウンロードできますEclipseダウンロードページからこのIntelliJIntelliJダウンロードページ.
IronPDFライブラリ： IronPDFライブラリをダウンロードして、プロジェクトの依存関係として追加します。ウェブサイトに訪問してくださいIronPDFセットアップ説明ページセットアップの手順について。
Mavenのインストール: PDF変換プロセスを開始する前に、Mavenをインストールし、IDEと統合しておく必要があります。こちらを参照してくださいJetBrainsのMavenインストールチュートリアルMavenのインストールと統合について.

4. IronPDF for Java のインストール

すべての要件が満たされていれば、IronPDF for Javaのインストールは簡単かつシンプルです。このガイドでは、JetBrainsのIntelliJ IDEAを使用して、インストールとサンプルコードの実行を示します。

以下のことを行ってください：

IntelliJ IDEA を開く: お使いのシステムで JetBrains IntelliJ IDEA を起動します。

Mavenプロジェクトを作成する: IntelliJ IDEAで新しいMavenプロジェクトを作成します。これはIronPDF for Javaのインストールに適した環境を提供します。

PDFからデータを抽出する方法 in Java, 図1: IntelliJでの新しいMavenプロジェクト

IntelliJで新しいMavenプロジェクト

新しいウィンドウが表示されます。プロジェクト名を入力し、「完了」をクリックしてください。

PDFからデータを抽出する方法 Java、図2: Mavenプロジェクトに名前を付けて、終了をクリック

Mavenプロジェクトに名前を付けて、完了をクリックします

「Finish」をクリックすると、pom.xmlを含む新しいプロジェクトが開きます。これは、IronPDF Java Maven 依存関係を追加するために使用されます。

JavaでPDFからデータを抽出する方法、図3：pom.xmlファイル

pom.xmlファイル

以下の依存関係を pom.xml ファイルに追加するか、JARファイルをSonatype CentralのIronPDFライブラリページ.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.3.6</version>
</dependency>

pom.xmlファイルに依存関係を配置すると、ファイルの右上隅に小さなアイコンが表示されます。

JavaでPDFからデータを抽出する方法、図4：フローティングアイコンをクリックして、Mavenの依存関係を自動的にインストールします

浮動アイコンをクリックして、Mavenの依存関係を自動的にインストールします

このボタンをクリックしてIronPDF for JavaのMaven依存関係をインストールしてください。インターネット接続の速度によっては、これにはほんの数分しかかからないはずです。

データ抽出

IronPDFは、PDFドキュメントの作成、編集、データ抽出のためのJavaライブラリです。 PDFファイル、URL、テーブルからテキストを抽出するためのシンプルなAPIを提供します。

PDFドキュメントからデータを抽出する

Java 向け IronPDF を使用すると、PDF ドキュメントからテキストデータを簡単に抽出できます。以下は、PDFファイルからデータを抽出するためのサンプルコードです。

JavaでPDFからデータを抽出する方法、図5：PDF入力

PDF入力

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}

JAVA

ソースコードは以下の出力を生成します：

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

URLからデータを抽出する

IronPDF for Javaは、ランタイム中にURLをPDFに変換し、テキストを抽出します。この例では、URLからテキストを抽出するためのソースコードを見ていきます。

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}

JAVA

JavaでPDFからデータを抽出する方法、図6：抽出されたWebページのデータ

抽出されたウェブページのデータ

表データからデータを抽出

IronPDF for Javaを使用してPDFから表データを抽出するのは非常に簡単です。テーブルを含むPDFファイルと、下記のコードを実行するだけで済みます。

JavaでPDFからデータを抽出する方法、図7：サンプルPDFテーブル入力

サンプルPDFテーブル入力

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}

JAVA

> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

結論

結論として、このチュートリアルでは、IronPDF for Java を使用してPDFファイルから特に表形式データを抽出する方法を示しました。

詳細については、をご参照ください。PDFからテキストを抽出する例IronPDFのウェブサイトで。

IronPDFは、ライブラリで商用ライセンスの詳細以下の通り翻訳します：

$749から開始します。しかし、本番環境で評価することができます。IronPDFトライアルライセンスを使用した無料トライアル.

リーガン・パン

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

レーガンはリーディング大学で電子工学の学士号を取得しました。Iron Softwareに入社する前の仕事では、一つのタスクに集中して取り組んでいました。Iron Softwareでは、営業、技術サポート、製品開発、マーケティングのいずれにおいても広範な業務に携わることが最も楽しいと感じています。彼は、Iron Softwareライブラリを開発者がどのように使用しているかを理解し、その知識を使ってドキュメントを継続的に改善し、製品を開発することを楽しんでいます。

< 以前
JavaでPDFから画像を抽出する方法

次へ >
Javaを使用して2つのPDFファイルを結合する方法

Mavenでインストール

バージョン:2025.3.6

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2025.3.6</version>
</dependency>

問題を報告

Iron Swagのバグバウンティに参加しよう

準備はできましたか？バージョン: 2025.3 新発売

ライセンスを表示 >

JavaでPDFからデータを抽出する方法

2. IronPDF Java PDFライブラリ

3. 前提条件

4. IronPDF for Java のインストール

データ抽出

PDFドキュメントからデータを抽出する

URLからデータを抽出する

表データからデータを抽出

結論

このページについて

問題を報告

準備はできましたか？ バージョン: 2025.3 新発売

次のステップ: 無料の30日間トライアルを開始する

次のステップ: 無料の30日間トライアルを開始する

世界中の200万人以上のエンジニアに信頼されています

IronPDF は IRONSUITE の一部です。

準備はできましたか？バージョン: 2025.3 新発売