JAVA向けIRONPDFの使用

JavaでPDFファイルを読み取る方法

ジョルディ・バルディア
ジョルディ・バルディア
2023年2月26日
更新済み 2024年9月1日
共有:

この記事では、プログラムでソフトウェアアプリケーションでPDFファイルを開くPDFリーダーの作成方法について探求します。 このタスクを効果的に実行するために、IronPDF for Javaはそのようなシステムライブラリの一つであり、Javaプログラムでファイル名を使用してPDFファイルを開いたり読んだりするのに役立ちます。

IronPDF

IronPDF - Javaライブラリ は、すでに成功を収めた.NET Frameworkの上に構築されています。 IronPDFを他のクラスライブラリ、例えばApache PDFBoxと比較して、PDFドキュメントを扱うための多機能ツールにします。 コンテンツの抽出と解析、テキストおよび画像の読み込みを提供します。 また、ページレイアウト、余白、ヘッダーとフッターページの向きなど、PDFページをカスタマイズするオプションを提供します。

さらに、IronPDFは他のファイル形式からの変換もサポートしており、PDFをパスワードで保護、デジタル署名、PDFドキュメントのマージや分割も可能です。

JavaでPDFファイルを読み取る方法

前提条件

JavaでPDFリーダーを作成するためにIronPDFを使用するには、次のコンポーネントがコンピューターにインストールされていることを確認する必要があります:

  1. JDK - Java Development Kit は、Javaプログラムを構築および実行するために必要です。 インストールされていない場合は、Oracleのウェブサイトからダウンロードしてください。

  2. IDE - 統合開発環境は、プログラムの作成、編集、およびデバッグを支援するソフトウェアです。 Java用の任意のIDEをダウンロードしてください。例:Eclipse、NetBeans、IntelliJ。

  3. Maven - Mavenは、中央リポジトリからライブラリをダウンロードするのに役立つ自動化ツールです。 Apache Mavenのウェブサイトからダウンロードしてください。

  4. IronPDF - 最後に、JavaでPDFファイルを読み取るにはIronPDFが必要です。 これは、Java Mavenプロジェクトに依存関係として追加する必要があります。 以下の例のように、pom.xmlファイルにIronPDFアーティファクトとslf4j依存関係を含めます。
<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.3.6</version>
</dependency>

必要なインポートの追加

まず、以下のコードをJavaソースファイルの上部に追加し、IronPDFのすべての必要なメソッドを参照してください。 この例では、インポート org は任意です。

import com.ironsoftware.ironpdf.*;
JAVA

次に、有効なライセンスキーを使用してIronPDFを設定し、そのメソッドを使用します。 メインメソッドでsetLicenseKeyメソッドを呼び出します。

License.setLicenseKey("Your license key");
JAVA

注意: PDFを作成、読み取り、印刷するための無料試用版ライセンスキーを取得できます。

Javaで既存のPDFファイルを読む

PDFファイルを読むには、PDFファイルが存在する必要があります。または、作成することができます。 この記事では、既に作成されたPDFファイルを使用します。コードは簡単で、文書からテキストを抽出するための2ステップのプロセスです。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

上記のコードでは、[fromFile](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#fromFile(java.nio.file.Path) がPDFドキュメントを開きます。 Paths.get メソッドは、ファイルのディレクトリを取得し、ファイルからコンテンツを抽出する準備をします。その後、[extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) は、ドキュメント内のすべてのテキストを読み取ります。

出力は以下の通りです:

JavaでPDFファイルを読む方法、図1: PDFテキスト出力を読む

PDFテキスト出力の読み取り

特定のページからテキストを読み取る

IronPDFは、PDF内の特定のページからコンテンツを読み取ることもできます。 extractTextFromPage メソッドは、PageSelection オブジェクトを使用して、テキストを読み取るページの範囲を受け入れます。

次の例では、PDFドキュメントの2ページ目からテキストが抽出されています。 PageSelection.singlePage は抽出する必要があるページのインデックスを受け取ります。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA

JavaでPDFファイルを読む方法、図2: PDFテキスト出力を読む

PDFテキスト出力の読み取り

PageSelection クラスで利用可能な他の方法で、さまざまなページからテキストを抽出するために使用できるのは、[firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()、[lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()、[pageRange](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#pageRange(int,int)、および [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages() です。

新しく生成されたPDFファイルからテキストを読み取る

HTMLファイルまたはURLから新しく生成されたPDFファイルからもテキスト検索を実行できます。 以下のサンプルコードは、URLからPDFを生成し、ウェブサイトからすべてのテキストを抽出します。

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA

JavaでPDFファイルを読む方法、図2: 新しいファイルから読む

新しいファイルを読み込む

IronPDFはPDFファイルから画像を抽出するためにも使用できます。

完全なコードは以下のとおりです:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

サマリー

この記事では、IronPDFを使用してJavaでPDFを開いて読む方法について説明しました。

IronPDFはHTMLやURLから簡単にPDFを作成し、異なるファイルフォーマットから変換することができます。 PDFタスクを迅速かつ簡単に完了するのにも役立ちます。

IronPDFを[30日間無料で試用](#trial-license)し、実際の運用でどのように機能するかを確認してください。 [IronPDF の商用ライセンスオプションを探索](/java/licensing/) し、$749 から開始します。
ジョルディ・バルディア
ソフトウェアエンジニア
ジョルディは、Iron Softwareでのスキルを活かしていないときには、ゲームプログラミングをしており、Python、C#、C++に最も堪能です。彼は製品テスト、製品開発、研究の責任を共有しており、継続的な製品改善に大きな価値をもたらしています。この多様な経験は彼を常に挑戦的で魅力的に保ち、彼はIron Softwareで働く一番好きな側面の一つだと言っています。ジョルディはフロリダ州マイアミで育ち、フロリダ大学でコンピューターサイエンスと統計学を学びました。
< 以前
JavaでPDFファイルを分割する方法
次へ >
HTML2PDF Java(コード例チュートリアル)