フッターコンテンツにスキップ
JAVA用IRONPDFの使用

JavaでPDFを解析する方法(開発者チュートリアル)

この記事では、IronPDFライブラリを使用して効率的にJavaでPDFパーサを作成します。

IronPDF - Java PDF ライブラリ

IronPDF for Javaは、PDFドキュメントの作成、読み取り、操作を容易かつ正確に行うことができるJava PDFライブラリです。 これは、IronPDF for .NETの成功を基に構築されており、さまざまなプラットフォームで効率的に機能します。 IronPDF for Javaは、高速でパフォーマンスに最適化されたIronPdfEngineを利用しています。

With IronPDF, you can extract text and images from PDF files and it also enables creating PDFs from various sources including HTML strings, files, URLs, and images. Furthermore, you can easily add new content, insert signatures with IronPDF, and embed metadata into PDF documents. IronPDFは、Java 8+、Scala、およびKotlinに特化して設計されており、Windows、Linux、クラウドプラットフォームと互換性があります。

class="hsg-featured-snippet">

JavaでPDFファイルをパースする方法

  1. PDFファイルを解析するためのJavaライブラリをダウンロードする
  2. fromFileメソッドを使用して既存のPDFドキュメントを読み込む
  3. extractAllTextメソッドを使用して解析されたPDFからすべてのテキストを抽出する
  4. renderUrlAsPdfメソッドを使用してURLからPDFをレンダリングする
  5. extractAllImagesメソッドを使用して解析されたPDFから画像を抽出する

JavaプログラムでIronPDFを使用してPDFファイルパーサを作成する

前提条件

JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:

  1. Java IDE: Javaをサポートしている任意のIDEを使用できます。開発には複数のJava IDEが利用可能です。 ここでは、このチュートリアルではIntelliJ IDEを使用します。 NetBeans、Eclipseなども使用できます。
  2. Mavenプロジェクト: Mavenは依存関係マネージャであり、Javaプロジェクトの制御を可能にします。 Java用のMavenはMaven公式サイトからダウンロードできます。 IntelliJ Java IDEにはMavenのサポートが組み込まれています。
  3. IronPDF - IronPDF for Javaをダウンロードしてインストールするには複数の方法があります。

    • Mavenプロジェクトのpom.xmlファイルにIronPDF依存関係を追加します。

      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      XML
    • 最新のIronPDFパッケージを探すにはMavenリポジトリサイトを訪問します。
    • Iron Softwareの公式ダウンロードページから直接ダウンロードします。
    • 単純なJavaアプリケーションでJARファイルを使用してIronPDFを手動でインストールします。
  4. Slf4j-Simple: これは、既存のドキュメントにコンテンツをスタンプするためにも必要な依存関係です。 Maven依存関係マネージャを使用してIntelliJに追加することができ、またはMavenサイトから直接ダウンロードすることもできます。次の依存関係をpom.xmlファイルに追加してください:

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    XML

必要なインポートの追加

すべての必要条件がインストールされたら、最初のステップはPDFドキュメントを操作するために必要なIronPDFパッケージをインポートすることです。 Main.javaファイルの先頭に次のコードを追加してください:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

ライセンスキー

IronPDFで利用可能な一部のメソッドは、使用するためにライセンスが必要です。 ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しいただけます。 キーを次のように設定することができます。

License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
JAVA

ステップ1:既存のPDFドキュメントを解析する

コンテンツを抽出するために既存のドキュメントを解析するには、PdfDocumentクラスを使用します。 その静的なfromFileメソッドを使用して、Javaプログラム内で特定のパスにある特定のファイル名のPDFファイルを解析します。 コードは次のようになります:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

JavaでPDFを解析する方法(開発者チュートリアル)、図1:解析されたドキュメント 解析されたドキュメント

ステップ2:解析されたPDFファイルからテキストデータを抽出する

IronPDF for Javaは、PDFドキュメントからテキストを抽出するための簡単な方法を提供しています。 PDFファイルからテキストデータを抽出するための以下のコードスニペットがあります:

String extractedText = parsedDocument.extractAllText();
String extractedText = parsedDocument.extractAllText();
JAVA

上記のコードは以下の出力を生成します:

JavaでPDFを解析する方法(開発者チュートリアル)、図2:出力 出力

ステップ3:URLまたはHTML文字列からテキストデータを抽出する

IronPDF for Javaの機能は既存のPDFに限定されず、新しいファイルを作成して内容を抽出することもできます。 ここでは、このチュートリアルではURLからPDFファイルを作成し、それからコンテンツを抽出します。 このタスクを達成する方法を示す以下の例があります:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
JAVA

出力は以下の通りです。

JavaでPDFを解析する方法(開発者チュートリアル)、図3:出力 出力

ステップ4:解析されたPDFドキュメントから画像を抽出する

IronPDFは解析されたドキュメントからすべての画像を抽出するための簡単なオプションも提供しています。 ここでは、前の例を使用して、PDFファイルからどのように簡単に画像が抽出されるかを見てみます。

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
JAVA

[extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())メソッドは、BufferedImagesのリストを返します。 各BufferedImageImageIO.writeメソッドを使用してPNG画像として場所に保存することができます。 解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されます。

JavaでPDFを解析する方法(開発者チュートリアル)、図4:抽出された画像 抽出された画像

ステップ5:PDFファイル内のテーブルからデータを抽出する

PDFファイル内の表形式の境界からコンテンツを抽出することが、[extractAllTextメソッド](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()を使用したワンラインコードで簡単に行えます。 PDFファイルのテーブルからテキストを抽出する方法を示す以下のコードスニペットがあります:

JavaでPDFを解析する方法(開発者チュートリアル)、図5:PDF内のテーブル PDF内のテーブル

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
JAVA

出力は以下の通りです。

JavaでPDFを解析する方法(開発者チュートリアル)、図6:出力 出力

結論

この記事では、JavaでIronPDFを使用して既存のPDFドキュメントを解析する方法や、URLから新しいPDFパーサファイルを作成してデータを抽出する方法を示しました。 ファイルを開いた後、PDFから表データ、画像、およびテキストを抽出することができ、後で使用するために抽出されたテキストをテキストファイルに追加することもできます。

Javaでプログラム的にPDFファイルを操作する方法の詳細情報については、これらのPDFファイル作成例を参照してください。

IronPDF for Javaライブラリは、無料トライアルが利用可能な開発目的の無料です。 しかし、商業利用にはIronSoftwareを通じてライセンスされており、$799から開始されます。

よくある質問

JavaでPDFパーサーを作成するにはどうすればよいですか?

JavaでPDFパーサーを作成するにはIronPDFライブラリを使い、fromFileメソッドでPDFを読み込み、extractAllTextとextractAllImagesで内容を抽出します。

IronPDFはJava 8+と一緒に使用できますか?

はい、IronPDFはJava 8以上、Scala、Kotlinとも互換性があります。Windows、Linux、クラウド環境など、複数のプラットフォームをサポートしています。

JavaでIronPDFを使用してPDFを解析するための主要な手順は何ですか?

主要な手順には、Mavenプロジェクトのセットアップ、IronPDF依存関係の追加、fromFileを使用してPDFドキュメントをロード、extractAllTextを使用してテキストを抽出、extractAllImagesを使用して画像を抽出することが含まれます。

JavaでURLをPDFに変換するにはどうすればよいですか?

JavaでIronPDFのrenderUrlAsPdfメソッドを使用してURLをPDFに変換できます。これにより、ウェブページを効率的にPDFドキュメントとしてレンダリングできます。

IronPDFはクラウドベースのJavaアプリケーションに適していますか?

はい、IronPDFは汎用性があり、クラウドベースの環境をサポートしているため、クラウド内でPDF機能を必要とするJavaアプリケーションの開発に適しています。

Java PDF解析プロジェクトの依存関係を管理するにはどうすればよいですか?

Javaプロジェクトでの依存関係管理にはMavenを使用できます。プロジェクトのpom.xmlファイルにIronPDFライブラリを追加して、依存関係として含めます。

IronPDFのライセンスオプションはどのようになっていますか?

IronPDFは開発目的のために無料トライアルを提供しています。ただし、商業目的で使用する場合はライセンスが必要です。これにより、すべての機能へのアクセスと優先サポートが確保されます。

Darrius Serrant
フルスタックソフトウェアエンジニア(WebOps)

Darrius Serrantは、マイアミ大学でコンピュータサイエンスの学士号を取得し、Iron SoftwareでフルスタックWebOpsマーケティングエンジニアとして働いています。若い頃からコーディングに惹かれ、コンピューティングを神秘的かつアクセス可能なものとし、創造性と問題解決のための完璧な媒体と考えていました。

Iron Softwareでは、新しいものを創造することと、複雑なコンセプトをより理解しやすくすることを楽しんでいます。Resident Developerの一人として、次世代に専門知識を共有するために、学生を教えることにも志願しました。

Darriusにとって、その仕事は価値があり、実際の影響があるため、満足感があります。