JAVA向けIRONPDFの使用

JavaでPDFを解析する方法(開発者チュートリアル)

更新済み 5月 8, 2023
共有:

ポータブル ドキュメント フォーマット (PDF) は、インターネットを介してデータを送信するために使用されるデジタル形式です。 データのフォーマットを保持し、ユーザーにコンテンツのより良い制御を提供します。 それは印刷に最も適したフォーマットです。 Javaで作業する際、Javaプログラム内でPDFファイルからデータを読み取る必要があるかもしれませんが、PDFパーサーを構築してPDFの異なるセクションからテキストを抽出するのは面倒な作業となることがあります。 しかし、技術の進歩と多くのライブラリの出現により、Java PDF パーサーを作成し、テキストを抽出することが現在ではより簡単になりました。

この記事では、IronPDFライブラリを使用してJavaでPDFパーサーを作成します。

IronPDF - Java PDFライブラリ

IronPDF は、PDFドキュメントの作成、読み取り、および操作を簡単かつ正確に行うことを可能にするJavaのPDFライブラリです。 それは、IronPDF for .NETの成功に基づいて構築されており、異なるプラットフォーム全体で効率的な機能を提供します。 IronPDF for Javaは、パフォーマンスが高く最適化されたIronPdfEngineを利用しています。

IronPDFを使用すると、PDFページを解析し、PDFファイルからテキスト、画像、およびその他のオブジェクトを抽出できます。 また、HTML文字列、ファイル、URL、および画像からPDFを作成することや、異なるファイル形式間での変換を可能にします。 さらに、新しいコンテンツの追加、署名のスタンプ、既存のPDFドキュメントへのメタデータの追加も簡単に行えます。 IronPDFはJava 8+、Scala、およびKotlin向けに特別に設計されており、Windows、Linux、およびクラウドプラットフォームと互換性があります。

JavaプログラムでIronPDFを使用してPDFファイルパーサーを作成

前提条件

JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:

  1. Java IDE: 任意のJavaに対応したIDEを使用できます。開発には多数のJava IDEが利用可能です。 ここでは使用しています IntelliJ IDE. NetBeans、Eclipseなどを使用できます。

  2. Mavenプロジェクト: Mavenは依存関係管理ツールであり、Javaプロジェクトを制御することができます。 Java用のMavenは以下からダウンロードできます これ. IntelliJ JAVA IDEにはMavenのサポートが組み込まれています。

  3. IronPDF - IronPDF for Javaを複数の方法でダウンロードおよびインストールできます。

    • Mavenプロジェクトのpom.xmlファイルにIronPDFの依存関係を追加する。
        :ProductInstall
  • Mavenのウェブサイトにアクセスし、最新のIronPDF for Javaパッケージをダウンロードしてください。それは次の場所からダウンロードできます [Here is the translation of the given text into Japanese:

これ](depend-link).

  * IronPDFのウェブサイトからこちらを通じて直接ダウンロード [リンク](download-modal).

  * シンプルなJavaアプリケーションでJARファイルを使用してIronPDFを手動でインストールします。
  1. Slf4j-Simple: この依存関係は、既存のドキュメントに内容をスタンプするためにも必要です。 これは IntelliJ の Maven 依存関係マネージャーを使用して追加することができます。または、Maven のウェブサイトから直接ダウンロードすることも可能です。次の依存関係を pom.xml ファイルに追加してください:
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

必要なインポートの追加

すべての前提条件がインストールされたら、PDFドキュメントを操作するために必要なIronPDFパッケージをインポートする必要があります。 Main.javaファイルの冒頭に次のコードを追加してください:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

ライセンスキー

IronPDFで利用可能ないくつかのメソッドは、使用するためにライセンスが必要です。 ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しください。 次のようにキーを設定できます:

License.setLicenseKey("YOUR-KEY");
JAVA

ステップ1: 既存のPDFドキュメントを解析する

既存のドキュメントを解析してコンテンツを抽出するには、PdfDocumentクラスを使用します。 静的な fromFile メソッドは、特定のパスと特定のファイル名を持つPDFファイルをJavaプログラムで解析するために使用されます。 コードは以下の通りです:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

JavaでPDFを解析する方法(開発者チュートリアル): 図1 - 解析されたドキュメント

ステップ2: パースされたPDFファイルからテキストデータを抽出する

IronPDF for Javaは、簡単な方法を提供します テキストの抽出 PDFドキュメントから。 以下のコードスニペットは、PDFファイルからテキストデータを抽出するためのものです:

String extracted_text = parsedDocument.extractAllText();
JAVA

上記のコードは以下の出力を生成します:

JavaでのPDFの解析方法(開発者チュートリアル):図2 - 出力

ステップ3: URLまたはHTML文字列からテキストデータを抽出する

IronPDF for Javaの機能は、既存のPDFに限定されるだけでなく、新しいファイルを作成して内容を抽出することもできます。 以下に、対象の文章を日本語に翻訳します:

ここでは、 URLからのPDFファイル そして、それから内容を抽出します。 以下の例は、このタスクを達成する方法を示しています:

public class Main {
    public static void main(String [] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

出力は以下の通りです:

JavaでPDFを解析する方法(開発者チュートリアル):図3 - 出力

ステップ 4:解析されたPDFドキュメントから画像を抽出する

IronPDF も簡単なオプションを提供しています。 すべての画像を抽出 解析されたドキュメントから。 ここでは、前の例を使って、PDFファイルから画像を簡単に抽出する方法を確認します。

public static void main(String [] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch(Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

extractAllImages メソッドは BufferedImages のリストを返します。 各 BufferedImage は、ImageIO.write メソッドを使用して指定された場所に PNG 画像として保存できます。 解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されています。

JavaでPDFを解析する方法 (開発者チュートリアル): 図 4 - 抽出された画像

ステップ5: PDFファイルのテーブルからデータを抽出する

extractAllTextメソッドを使用して、PDFファイルの表形式の境界からコンテンツを抽出するのは、わずか一行のコードで簡単にできます。 以下のコードスニペットは、PDFファイルのテーブルからテキストを抽出する方法を示しています:

JavaでPDFを解析する方法(開発者向けチュートリアル):図5 - PDF内の表

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

出力は以下の通りです:

JavaでPDFを解析する方法(デベロッパーチュートリアル):図6 - 出力

結論

この記事では、IronPDF を使用して Java で既存の PDF ドキュメントを解析したり、URL から新しい PDF 解析ファイルを作成してデータを抽出する方法を学びました。 ファイルを開いた後、PDFから表形式データ、画像、およびテキストを抽出できます。 抽出されたテキストを後で使用するためにテキストファイルに追加することもできます。

Javaでプログラム的にPDFファイルを操作する方法の詳細については、こちらをご覧ください リンク.

For development purposes, the IronPDF for Java library is free for use with a 家公司license. 無料試用. ただし、商業利用の場合は ライセンス済み以下の通り翻訳します:

$749から開始します。

< 以前
IntelliJでのMavenプロジェクトの操作
次へ >
JavaでPDFレポートを生成する方法

準備はできましたか? バージョン: 2024.9 新発売

無料のMavenダウンロード View Licenses >