JAVA向けIRONPDFの使用

JavaでPDFファイルを読み取る方法

更新済み 2月 26, 2023
共有:

PDFファイルは、現代においてデータを転送するための最も使用されているドキュメント形式です。主に、それがフォーマットを保持して、送信されたときと同じ形でデータを表示できるためです。 PDFドキュメントをロード、オープン、および表示するには、PDFドキュメントリーダーシステムが必要です。 多くのPDFリーダーが利用可能ですが、ソフトウェアアプリケーションでプログラム的にPDFファイルを開きたい場合、適切なクラスライブラリが必要です。

ここでは、Javaプログラムでファイル名を使用してPDFファイルを開き、読み取るのに役立つシステムライブラリの一つを見ていきます。

IronPDF

IronPDFは、.NETおよびJava、Python、Node.jsでPDFを生成、編集、読み取るための強力なツールです。プログラマー向けに最適化されており、コードからPDFファイルの作成を容易に行うことができます。IronPDFは、HTML、CSS、JavaScript、および画像をPDFドキュメントに変換する能力を提供します。

機能

  • HTML to PDF: HTML、CSS、JavaScriptを利用してPDFを生成。
  • PDFの編集: 既存のPDFドキュメントにテキスト、画像、ページ番号、さらにはカスタムヘッダーやフッターを追加。
  • PDFの読み取り: PDFファイルからテキスト、画像、メタデータを抽出。
  • セキュリティ: パスワード保護や暗号化オプションでPDFドキュメントを保護。

利点

  • 使いやすさ: シンプルなAPIで時間を節約。
  • 高品質: 正確で美しいPDFドキュメントを生成。
  • 柔軟性: 様々なプラットフォームや言語で利用可能。

対応ライセンス

IronPDFは様々なライセンスオプションがあり、Lite License、Plus License、Professional License、Unlimited Licenseが用意されています。

技術サポートや詳細については、Iron Softwareの公式サイトをご覧ください。

IronPDF - Javaライブラリ は、すでに成功している .NET Framework を基盤としています。 これにより、IronPDFは、Apache PDFBoxなどの他のクラス ライブラリと比較して、PDFドキュメントを扱うための多用途ツールになります。 コンテンツの抽出/解析、テキストの読み込み、画像の読み込みの機能を提供します。 また、ページレイアウト、余白、ヘッダーとフッター、ページの向きなど、PDFページをカスタマイズするためのオプションも提供しています。

これに加えて、IronPDFは他のファイル形式からの変換、パスワードによるPDF保護、デジタル署名、PDFドキュメントの結合と分割もサポートしています。

JavaでPDFファイルを読み取る方法

前提条件

JavaでPDFリーダーを作成するためにIronPDFを使用するには、まずコンピューターに以下のコンポーネントがインストールされていることを確認する必要があります:

  1. JDK - Java開発キットは、Javaプログラムの構築および実行に必要です。 インストールされていない場合は、こちらからダウンロードしてください。 オラクルウェブサイト.

  2. IDE - 統合開発環境は、プログラムの作成、編集、およびデバッグを支援するソフトウェアです。 任意のJava用IDEをダウンロードしてください。 例:Eclipse、Netbeans、Intellij。

  3. Maven - Mavenは、中央リポジトリからライブラリをダウンロードするのを支援する自動化ツールです。 以下からダウンロードしてください Apache Maven のウェブサイト.

  4. IronPDF - 最後に、JavaでPDFファイルを読み取るためにIronPDFが必要です。 これは、Java Mavenプロジェクトに依存関係として追加する必要があります。 以下の例に示すように、IronPDFアーティファクトとslf4j依存関係をpom.xmlファイルに含めてください:

    :ProductInstall

必要なインポートの追加

まず、以下のコードをJavaソースファイルの上部に追加し、IronPDFのすべての必要なメソッドを参照してください。 この例では、インポート org は任意です。

import com.ironsoftware.ironpdf.*;
JAVA

次に、有効なライセンスキーを使用してIronPDFを設定し、そのメソッドを使用します。 メインメソッドで setLicenseKey メソッドを呼び出してください。

License.setLicenseKey("Your license key");
JAVA

注記: PDFを作成、読み取り、印刷するための無料試用ライセンスキーを取得できます。

Javaで既存のPDFファイルを読み取る

以下の内容を日本語に翻訳してください:

To PDFファイルを読み込むPDFファイルが存在するか、または作成する必要があります。 ここでは既に作成されたPDFファイルを使用します。このコードはシンプルで、ドキュメントからテキストを抽出するための2ステップのプロセスです。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

上記のコードでは、fromFile がPDFドキュメントを開きます。 Paths.getメソッドはファイルのディレクトリを取得し、ファイルからコンテンツを抽出する準備が整います。その後、extractAllTextがドキュメント内のすべてのテキストを読み取ります。

出力は以下の通りです:

JavaでPDFファイルを読み取る方法 - 図1: PDFテキストの出力を読み取る

PDFファイルからすべてのテキストを抽出した際に生成される出力

特定のページからテキストを読み取る

IronPDFは、PDF内の特定のページからコンテンツを読み取ることもできます。 extractTextFromPageメソッドはPageSelectionオブジェクトを使用してページの範囲を受け入れます。(s) テキストが読み取られる元。

以下の例では、PDFドキュメントの2ページ目からテキストを抽出します。 PageSelection.singlePageは、抽出する必要があるページのインデックスを受け取ります。

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA
JavaでPDFファイルを読み込む方法 - 図2: PDFテキスト出力の読み込み

サンプルPDFファイルの2ページ目からテキストを取得した際に生成される出力

PageSelection クラスで利用可能な、さまざまなページからテキストを抽出するために使用できる他のメソッドは次のとおりです: [firstPage(最初のページ)](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), pageRange(ページ範囲)、および [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

新しく生成されたPDFファイルからテキストを読み取る

HTMLファイルまたはURLから新しく生成されたPDFファイルのテキストを検索することもできます。 次のサンプルコードは、URLからPDFを生成し、ウェブサイトからすべてのテキストを抽出します。

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA
JavaでPDFファイルを読み取る方法 - 図2: 新しいファイルから読み取る

新しいPDFファイルからテキストを読み取る

IronPDFはまた、次のために使用できます。 画像を抽出する PDFファイルから。

完全なコードは以下のとおりです:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.*;
import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String [] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

サマリー

この記事では、IronPDFを使用してJavaでPDFを開いて読み取る方法について見ていきました。

IronPDFは、HTMLやURLから簡単にPDFを作成したり、異なるファイル形式から変換したりするのに役立ちます。 PDFタスクを迅速かつ簡単に完了するのにも役立ちます。

IronPDFを試してみてください 30日間 本番環境でどの程度うまく機能するかを確認してください。 商用ライセンス $749から始まります。

< 以前
JavaでPDFファイルを分割する方法
次へ >
HTML2PDF Java(コード例チュートリアル)

準備はできましたか? バージョン: 2024.9 新発売

無料のMavenダウンロード View Licenses >