JAVA向けIRONPDFの使用

JavaでPDFを解析する方法(開発者チュートリアル)

更新済み 2024年9月15日
共有:

この記事では、IronPDFライブラリーを使用して効率的なアプローチでJavaにPDFパーサーを作成します。

IronPDF - Java PDFライブラリ

IronPDF for Javaは、PDFドキュメントの作成、読み取り、および操作を簡単かつ正確に行うことを可能にするJavaのPDFライブラリです。 それは、IronPDF for .NETの成功に基づいて構築されており、異なるプラットフォーム全体で効率的な機能を提供します。 IronPDF for Java は、IronPdfEngine高速でパフォーマンスに最適化された

IronPDFを使用すると、PDFファイルからテキストと画像を抽出またさまざまなソースからPDFを作成HTML文字列、ファイル、URL、画像を含みます。 さらに、新しいコンテンツを簡単に追加することができます、IronPDFで署名を挿入する、およびPDF文書にメタデータを埋め込む. IronPDFはJava 8+、Scala、Kotlin用に特別に設計されており、Windows、Linux、クラウドプラットフォームに対応しています。

JavaプログラムでIronPDFを使用してPDFファイルパーサーを作成

前提条件

JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:

  1. Java IDE: Java対応の任意のIDEを使用できます。開発用のJava IDEが複数存在します。 このチュートリアルでは使用しますIntelliJ IDE. NetBeans、Eclipseなどを使用できます。

  2. Mavenプロジェクト: Mavenは依存関係管理ツールであり、Javaプロジェクトを制御することができます。 Java用のMavenは以下からダウンロードできますMaven公式ウェブサイト. IntelliJのJava IDEには、Mavenのサポートが組み込まれています。

  3. IronPDF - IronPDF for Javaを複数の方法でダウンロードおよびインストールできます。

    • Mavenプロジェクトのpom.xmlファイルにIronPDF依存関係を追加する。
     :ProductInstall
  1. Slf4j-Simple: この依存関係は、既存のドキュメントに内容をスタンプするためにも必要です。 IntelliJのMaven依存関係マネージャを使用して追加することも、Mavenウェブサイトから直接ダウンロードすることもできます。以下の依存関係を pom.xml ファイルに追加します:
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

必要なインポートの追加

すべての前提条件がインストールされると、最初のステップはPDFドキュメントを操作するために必要なIronPDFパッケージをインポートすることです。 Main.java ファイルの上部に次のコードを追加してください:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

ライセンスキー

IronPDFで利用可能ないくつかのメソッドは、使用するためにライセンスが必要です。 ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しください。 次のようにキーを設定できます:

License.setLicenseKey("YOUR-KEY");
JAVA

ステップ1: 既存のPDFドキュメントを解析する

既存のドキュメントを解析してコンテンツを抽出するには、PdfDocument(PDFドキュメント)クラスが使用されます。 それは静的ですfromFileメソッドは、Javaプログラムで特定のパスから特定のファイル名のPDFファイルを解析するために使用されます。 コードは以下の通りです:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

JavaでPDFを解析する方法(開発者チュートリアル)、図1:解析された文書

解析されたドキュメント

ステップ2: パースされたPDFファイルからテキストデータを抽出する

IronPDF for Javaは、簡単な方法を提供しますPDF文書からのテキスト抽出. 以下のコードスニペットは、PDFファイルからテキストデータを抽出するためのものです:

String extracted_text = parsedDocument.extractAllText();
JAVA

上記のコードは以下の出力を生成します:

JavaでPDFを解析する方法(開発者向けチュートリアル)、図2:出力

出力

ステップ3: URLまたはHTML文字列からテキストデータを抽出する

IronPDF for Javaは既存のPDFだけでなく、新しいファイルを作成して解析し、コンテンツを抽出することもできます。 ここでは、このチュートリアルが作成しますURL から PDF ファイルを作成し、そこからコンテンツを抽出する。. 以下の例は、このタスクを達成する方法を示しています:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

出力は以下の通りです:

JavaでPDFを解析する方法(開発者向けチュートリアル)、図3:出力

出力

ステップ 4:解析されたPDFドキュメントから画像を抽出する

IronPDF も簡単なオプションを提供しています。解析されたドキュメントからすべての画像を抽出. ここでは、チュートリアルで前の例を使用して、PDFファイルから画像がどれほど簡単に抽出されるかを見ていきます。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public static void main(String[] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List<BufferedImage> images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch (Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

について[extractAllImages -> すべての画像を抽出](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())メソッドはBufferedImagesのリストを返します。 各 BufferedImage は、ImageIO.write メソッドを使用して指定された場所に PNG 画像として保存できます。 解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されています。

JavaでのPDF解析方法(開発者チュートリアル)、図4: 抽出された画像

抽出された画像

ステップ5: PDFファイルのテーブルからデータを抽出する

PDFファイルの表形式の境界からコンテンツを抽出するのは、次の一行コードで簡単に行えます。[extractAllText`メソッド](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). 以下のコードスニペットは、PDFファイルのテーブルからテキストを抽出する方法を示しています:

JavaでPDFを解析する方法(開発者チュートリアル)、図5: PDFの表

PDF内のテーブル

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

出力は以下の通りです:

JavaでPDFを解析する方法(開発者チュートリアル)、図6:出力

出力

結論

この記事では、IronPDFを使用してJavaで既存のPDFドキュメントを解析するか、URLから新しいPDFパーサーファイルを作成してデータを抽出する方法を示しました。 ファイルを開いた後、PDFから表データ、画像、テキストを抽出することができ、抽出したテキストを後で使用するためにテキストファイルに追加することもできます。

Javaでプログラム的にPDFファイルを扱う方法の詳細については、以下をご覧ください。PDFファイル作成例.

For development purposes, the IronPDF for Java library is free for use with a 家公司license.無料トライアルあり. ただし、商業利用の場合はIronSoftwareを通してライセンス以下の通り翻訳します:

$749から開始します。

< 以前
IntelliJでのMavenプロジェクトの操作
次へ >
JavaでPDFレポートを生成する方法

準備はできましたか? バージョン: 2024.11 新発売

無料のMavenダウンロード ライセンスを表示 >