フッターコンテンツにスキップ
JAVA用IRONPDFの使用

JavaでPDFを解析する方法(開発者チュートリアル)

この記事では、IronPDFライブラリを使用して効率的にJavaでPDFパーサを作成します。

IronPDF - Java PDF ライブラリ

IronPDF for Javaは、PDFドキュメントの作成、読み取り、操作を容易かつ正確に行うことができるJava PDFライブラリです。 これは、IronPDF for .NETの成功を基に構築されており、さまざまなプラットフォームで効率的に機能します。 IronPDF for Javaは、高速でパフォーマンスに最適化されたIronPdfEngineを利用しています。

IronPDFを使用すると、PDFファイルからテキストや画像を抽出することができ、さらにHTML文字列、ファイル、URL、画像などのさまざまなソースからPDFを作成することも可能です。 さらに、新しいコンテンツを簡単に追加したり、IronPDFで署名を挿入したり、PDFドキュメントにメタデータを埋め込むことができます。 IronPDFは、Java 8+、Scala、およびKotlinに特化して設計されており、Windows、Linux、クラウドプラットフォームと互換性があります。

JavaプログラムでIronPDFを使用してPDFファイルパーサを作成する

前提条件

JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:

  1. Java IDE: Javaをサポートしている任意のIDEを使用できます。開発には複数のJava IDEが利用可能です。 ここでは、このチュートリアルではIntelliJ IDEを使用します。 NetBeans、Eclipseなども使用できます。
  2. Mavenプロジェクト: Mavenは依存関係マネージャであり、Javaプロジェクトの制御を可能にします。 Java用のMavenはMaven公式サイトからダウンロードできます。 IntelliJ Java IDEにはMavenに対する組み込みサポートがあります。
  3. IronPDF - IronPDF for Javaをダウンロードしてインストールするには複数の方法があります。

    • Mavenプロジェクトのpom.xmlファイルにIronPDF依存関係を追加します。

      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      XML
    • 最新のIronPDFパッケージを探すにはMavenリポジトリサイトを訪問します。
    • Iron Softwareの公式ダウンロードページから直接ダウンロードします。
    • 単純なJavaアプリケーションでJARファイルを使用してIronPDFを手動でインストールします。
  4. Slf4j-Simple: これは、既存のドキュメントにコンテンツをスタンプするためにも必要な依存関係です。 Maven依存関係マネージャを使用してIntelliJに追加することができ、またはMavenサイトから直接ダウンロードすることもできます。次の依存関係をpom.xmlファイルに追加してください:

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    XML

必要なインポートの追加

すべての必要条件がインストールされたら、最初のステップはPDFドキュメントを操作するために必要なIronPDFパッケージをインポートすることです。 Main.javaファイルの先頭に次のコードを追加してください:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

ライセンスキー

IronPDFで利用可能な一部のメソッドは、使用するためにライセンスが必要です。 ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しいただけます。 キーを次のように設定することができます。

License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
JAVA

ステップ1:既存のPDFドキュメントを解析する

コンテンツを抽出するために既存のドキュメントを解析するには、[PdfDocument](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html)クラスを使用します。 その静的な[fromFile](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#fromFile(java.nio.file.Path))メソッドを使用して、Javaプログラム内で特定のパスにある特定のファイル名のPDFファイルを解析します。 コードは次のようになります:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

JavaでPDFを解析する方法(開発者チュートリアル)、図1:解析されたドキュメント 解析されたドキュメント

ステップ2:解析されたPDFファイルからテキストデータを抽出する

IronPDF for Javaは、PDFドキュメントからテキストを抽出するための簡単な方法を提供しています。 PDFファイルからテキストデータを抽出するための次のコードスニペットは以下の通りです。

String extractedText = parsedDocument.extractAllText();
String extractedText = parsedDocument.extractAllText();
JAVA

上記のコードは以下の出力を生成します:

JavaでPDFを解析する方法(開発者チュートリアル)、図2:出力 Output

ステップ3:URLまたはHTML文字列からテキストデータを抽出する

IronPDF for Javaの機能は既存のPDFに限定されず、新しいファイルを作成して内容を抽出することもできます。 ここでは、このチュートリアルではURLからPDFファイルを作成し、それからコンテンツを抽出します。 このタスクを達成する方法を示す以下の例があります:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
JAVA

出力は以下の通りです。

JavaでPDFを解析する方法(開発者チュートリアル)、図3:出力 Output

ステップ4:解析されたPDFドキュメントから画像を抽出する

IronPDFは解析されたドキュメントからすべての画像を抽出するための簡単なオプションも提供しています。 ここでは、前の例を使用して、PDFファイルからどのように簡単に画像が抽出されるかを見てみます。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
JAVA

[extractAllImages](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#extractAllImages()メソッドはBufferedImagesのリストを返します。 各BufferedImageImageIO.writeメソッドを使用してPNG画像として場所に保存することができます。 解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されます。

JavaでのPDF解析方法(開発者向けチュートリアル)、図4: 抽出された画像 抽出された画像

ステップ5:PDFファイル内のテーブルからデータを抽出する

PDFファイル内の表形式の境界からコンテンツを抽出することが、[extractAllTextメソッド](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#extractAllText()を使用したワンラインコードで簡単に行えます。 PDFファイルのテーブルからテキストを抽出する方法を示す以下のコードスニペットがあります:

JavaでPDFを解析する方法(開発者チュートリアル)、図5:PDF内のテーブル PDF内のテーブル

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
JAVA

出力は以下の通りです。

JavaでPDFを解析する方法(開発者チュートリアル)、図6:出力 Output

結論

この記事では、JavaでIronPDFを使用して既存のPDFドキュメントを解析する方法や、URLから新しいPDFパーサファイルを作成してデータを抽出する方法を示しました。 ファイルを開いた後、PDFから表形式のデータ、画像、およびテキストを抽出でき、抽出されたテキストをテキストファイルに追加して後で使用することもできます。

Javaでプログラム的にPDFファイルを操作する方法の詳細情報については、これらのPDFファイル作成例を参照してください。

IronPDF for Javaライブラリは、無料トライアルが利用可能な開発目的のために無料です。 ただし、商業利用の場合は、IronSoftwareを通じてライセンスを取得できます、開始価格は$799です。

よくある質問

JavaでPDFパーサーを作成するにはどうすればよいですか?

JavaでPDFパーサーを作成するには、IronPDFライブラリを使用できます。IronPDFをダウンロードしてインストールし、fromFileメソッドを使用してPDFドキュメントをロードすることから始めてください。extractAllTextおよびextractAllImagesメソッドを使用してテキストと画像を抽出できます。

IronPDFはJava 8+と一緒に使用できますか?

はい、IronPDFはJava 8以上、Scala、Kotlinとも互換性があります。Windows、Linux、クラウド環境など、複数のプラットフォームをサポートしています。

JavaでIronPDFを使用してPDFを解析するための主要な手順は何ですか?

主なステップには、Mavenプロジェクトの設定、IronPDF依存関係の追加、fromFileでのPDFドキュメントのロード、extractAllTextを使用したテキストの抽出、extractAllImagesを使用した画像の抽出が含まれます。

JavaでURLをPDFに変換するにはどうすればよいですか?

IronPDFのrenderUrlAsPdfメソッドを使用してJavaでURLをPDFに変換できます。これにより、ウェブページをPDFドキュメントとして効率的にレンダリングできます。

IronPDFはクラウドベースのJavaアプリケーションに適していますか?

はい、IronPDFは汎用性があり、クラウドベースの環境をサポートしているため、クラウド内でPDF機能を必要とするJavaアプリケーションの開発に適しています。

Java PDF解析プロジェクトの依存関係を管理するにはどうすればよいですか?

Javaプロジェクトの依存関係を管理するためにMavenを使用できます。プロジェクトのpom.xmlファイルにIronPDFライブラリを追加して依存関係として含めます。

IronPDFのライセンスオプションはどのようになっていますか?

IronPDFは開発目的のために無料トライアルを提供しています。ただし、商業目的で使用する場合はライセンスが必要です。これにより、すべての機能へのアクセスと優先サポートが確保されます。

Darrius Serrant
フルスタックソフトウェアエンジニア(WebOps)

Darrius Serrantは、マイアミ大学でコンピュータサイエンスの学士号を取得し、Iron SoftwareでフルスタックWebOpsマーケティングエンジニアとして働いています。若い頃からコーディングに惹かれ、コンピューティングを神秘的かつアクセス可能なものとし、創造性と問題解決のための完璧な媒体と考えていました。

Iron Softwareでは、新しいものを創造することと、複雑なコンセプトをより理解しやすくすることを楽しんでいます。Resident Developerの一人として、次世代に専門知識を共有するために、学生を教えることにも志願しました。

Darriusにとって、その仕事は価値があり、実際の影響があるため、満足感があります。