JavaでPDFを解析する方法(開発者チュートリアル)
この記事では、IronPDFライブラリを使用して効率的にJavaでPDFパーサを作成します。
IronPDF - Java PDF ライブラリ
IronPDF for Javaは、PDFドキュメントの作成、読み取り、操作を容易かつ正確に行うことができるJava PDFライブラリです。 これは、IronPDF for .NETの成功を基に構築されており、さまざまなプラットフォームで効率的に機能します。 IronPDF for Javaは、高速でパフォーマンスに最適化されたIronPdfEngineを利用しています。
IronPDFを使用すると、PDFファイルからテキストや画像を抽出することができ、さらにHTML文字列、ファイル、URL、画像などのさまざまなソースからPDFを作成することも可能です。 さらに、新しいコンテンツを簡単に追加したり、IronPDFで署名を挿入したり、PDFドキュメントにメタデータを埋め込むことができます。 IronPDFは、Java 8+、Scala、およびKotlinに特化して設計されており、Windows、Linux、クラウドプラットフォームと互換性があります。
JavaでPDFファイルを解析する方法
- PDFファイルを解析するためのJavaライブラリをダウンロードする。
- 既存のPDF文書を
fromFileメソッドを使って読み込みます。 extractAllTextメ ソ ッ ド を使っ て、 解析 さ れた PDF か ら すべてのテ キ ス ト を抽出 し ます。- URLからPDFをレンダリングするには、
renderUrlAsPdfメソッドを使用してください。 extractAllImagesメ ソ ッ ド を使っ て、 解析 さ れた PDF か ら 画像を抽出 し ます。
JavaプログラムでIronPDFを使用してPDFファイルパーサを作成する
前提条件
JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:
- Java IDE: Javaをサポートしている任意のIDEを使用できます。開発には複数のJava IDEが利用可能です。 ここでは、このチュートリアルではIntelliJ IDEを使用します。 NetBeans、Eclipseなども使用できます。
- Mavenプロジェクト: Mavenは依存関係マネージャであり、Javaプロジェクトの制御を可能にします。 Java用のMavenはMaven公式サイトからダウンロードできます。 IntelliJ Java IDEにはMavenに対する組み込みサポートがあります。
IronPDF - IronPDF for Javaをダウンロードしてインストールするには複数の方法があります。
Mavenプロジェクトの
pom.xmlファイルにIronPDF依存関係を追加します。<dependency> <groupId>com.ironsoftware</groupId> <artifactId>ironpdf</artifactId> <version>[LATEST_VERSION]</version> </dependency><dependency> <groupId>com.ironsoftware</groupId> <artifactId>ironpdf</artifactId> <version>[LATEST_VERSION]</version> </dependency>XML- 最新のIronPDFパッケージを探すにはMavenリポジトリサイトを訪問します。
- Iron Softwareの公式ダウンロードページから直接ダウンロードします。
- 単純なJavaアプリケーションでJARファイルを使用してIronPDFを手動でインストールします。
Slf4j-Simple: これは、既存のドキュメントにコンテンツをスタンプするためにも必要な依存関係です。 Maven依存関係マネージャを使用してIntelliJに追加することができ、またはMavenサイトから直接ダウンロードすることもできます。次の依存関係を
pom.xmlファイルに追加してください:<dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>2.0.5</version> </dependency><dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>2.0.5</version> </dependency>XML
必要なインポートの追加
すべての必要条件がインストールされたら、最初のステップはPDFドキュメントを操作するために必要なIronPDFパッケージをインポートすることです。 Main.javaファイルの先頭に次のコードを追加してください:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;ライセンスキー
IronPDFで利用可能な一部のメソッドは、使用するためにライセンスが必要です。 ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しいただけます。 キーを次のように設定することができます。
License.setLicenseKey("YOUR-KEY");License.setLicenseKey("YOUR-KEY");ステップ1:既存のPDFドキュメントを解析する
コンテンツを抽出するために既存のドキュメントを解析するには、[PdfDocument](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html)クラスを使用します。 その静的な[fromFile](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#fromFile(java.nio.file.Path))メソッドを使用して、Javaプログラム内で特定のパスにある特定のファイル名のPDFファイルを解析します。 コードは次のようになります:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
解析されたドキュメント
ステップ2:解析されたPDFファイルからテキストデータを抽出する
IronPDF for Javaは、PDFドキュメントからテキストを抽出するための簡単な方法を提供しています。 PDFファイルからテキストデータを抽出するための次のコードスニペットは以下の通りです。
String extractedText = parsedDocument.extractAllText();String extractedText = parsedDocument.extractAllText();上記のコードは以下の出力を生成します:
Output
ステップ3:URLまたはHTML文字列からテキストデータを抽出する
IronPDF for Javaの機能は既存のPDFに限定されず、新しいファイルを作成して内容を抽出することもできます。 ここでは、このチュートリアルではURLからPDFファイルを作成し、それからコンテンツを抽出します。 このタスクを達成する方法を示す以下の例があります:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extractedText = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extractedText);
}
}public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extractedText = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extractedText);
}
}出力は以下の通りです。
Output
ステップ4:解析されたPDFドキュメントから画像を抽出する
IronPDFは解析されたドキュメントからすべての画像を抽出するための簡単なオプションも提供しています。 ここでは、前の例を使用して、PDFファイルからどのように簡単に画像が抽出されるかを見てみます。
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
}import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
}[extractAllImages](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#extractAllImages()メソッドはBufferedImagesのリストを返します。 各BufferedImageをImageIO.writeメソッドを使用してPNG画像として場所に保存することができます。 解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されます。
抽出された画像
ステップ5:PDFファイル内のテーブルからデータを抽出する
PDFファイル内の表形式の境界からコンテンツを抽出することが、[extractAllTextメソッド](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#extractAllText()を使用したワンラインコードで簡単に行えます。 PDFファイルのテーブルからテキストを抽出する方法を示す以下のコードスニペットがあります:
PDF内のテーブル
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);出力は以下の通りです。
Output
結論
この記事では、JavaでIronPDFを使用して既存のPDFドキュメントを解析する方法や、URLから新しいPDFパーサファイルを作成してデータを抽出する方法を示しました。 ファイルを開いた後、PDFから表形式のデータ、画像、およびテキストを抽出でき、抽出されたテキストをテキストファイルに追加して後で使用することもできます。
Javaでプログラム的にPDFファイルを操作する方法の詳細情報については、これらのPDFファイル作成例を参照してください。
IronPDF for Javaライブラリは、無料トライアルが利用可能な開発目的のために無料です。 ただし、商業利用の場合は、IronSoftwareを通じてライセンスを取得できます、開始価格は$799です。
よくある質問
JavaでPDFパーサーを作成するにはどうすればよいですか?
JavaでPDFパーサーを作成するには、IronPDFライブラリを使用できます。IronPDFをダウンロードしてインストールし、fromFileメソッドを使用してPDFドキュメントをロードすることから始めてください。extractAllTextおよびextractAllImagesメソッドを使用してテキストと画像を抽出できます。
IronPDFはJava 8+と一緒に使用できますか?
はい、IronPDFはJava 8以上、Scala、Kotlinとも互換性があります。Windows、Linux、クラウド環境など、複数のプラットフォームをサポートしています。
JavaでIronPDFを使用してPDFを解析するための主要な手順は何ですか?
主なステップには、Mavenプロジェクトの設定、IronPDF依存関係の追加、fromFileでのPDFドキュメントのロード、extractAllTextを使用したテキストの抽出、extractAllImagesを使用した画像の抽出が含まれます。
JavaでURLをPDFに変換するにはどうすればよいですか?
IronPDFのrenderUrlAsPdfメソッドを使用してJavaでURLをPDFに変換できます。これにより、ウェブページをPDFドキュメントとして効率的にレンダリングできます。
IronPDFはクラウドベースのJavaアプリケーションに適していますか?
はい、IronPDFは汎用性があり、クラウドベースの環境をサポートしているため、クラウド内でPDF機能を必要とするJavaアプリケーションの開発に適しています。
Java PDF解析プロジェクトの依存関係を管理するにはどうすればよいですか?
Javaプロジェクトの依存関係を管理するためにMavenを使用できます。プロジェクトのpom.xmlファイルにIronPDFライブラリを追加して依存関係として含めます。
IronPDFのライセンスオプションはどのようになっていますか?
IronPDFは開発目的のために無料トライアルを提供しています。ただし、商業目的で使用する場合はライセンスが必要です。これにより、すべての機能へのアクセスと優先サポートが確保されます。










