ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
ポータブル ドキュメント フォーマット (PDF) は、インターネットを介してデータを送信するために使用されるデジタル形式です。 データのフォーマットを保持し、ユーザーにコンテンツのより良い制御を提供します。 それは印刷に最も適したフォーマットです。 Javaで作業する際、Javaプログラム内でPDFファイルからデータを読み取る必要があるかもしれませんが、PDFパーサーを構築してPDFの異なるセクションからテキストを抽出するのは面倒な作業となることがあります。 しかし、技術の進歩と多くのライブラリの出現により、Java PDF パーサーを作成し、テキストを抽出することが現在ではより簡単になりました。
この記事では、IronPDFライブラリを使用してJavaでPDFパーサーを作成します。
IronPDF は、PDFドキュメントの作成、読み取り、および操作を簡単かつ正確に行うことを可能にするJavaのPDFライブラリです。 それは、IronPDF for .NETの成功に基づいて構築されており、異なるプラットフォーム全体で効率的な機能を提供します。 IronPDF for Javaは、パフォーマンスが高く最適化されたIronPdfEngine
を利用しています。
IronPDFを使用すると、PDFページを解析し、PDFファイルからテキスト、画像、およびその他のオブジェクトを抽出できます。 また、HTML文字列、ファイル、URL、および画像からPDFを作成することや、異なるファイル形式間での変換を可能にします。 さらに、新しいコンテンツの追加、署名のスタンプ、既存のPDFドキュメントへのメタデータの追加も簡単に行えます。 IronPDFはJava 8+、Scala、およびKotlin向けに特別に設計されており、Windows、Linux、およびクラウドプラットフォームと互換性があります。
JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:
Java IDE: 任意のJavaに対応したIDEを使用できます。開発には多数のJava IDEが利用可能です。 ここでは使用しています IntelliJ IDE. NetBeans、Eclipseなどを使用できます。
Mavenプロジェクト: Mavenは依存関係管理ツールであり、Javaプロジェクトを制御することができます。 Java用のMavenは以下からダウンロードできます これ. IntelliJ JAVA IDEにはMavenのサポートが組み込まれています。
IronPDF - IronPDF for Javaを複数の方法でダウンロードおよびインストールできます。
:ProductInstall
これ](depend-link).
* IronPDFのウェブサイトからこちらを通じて直接ダウンロード [リンク](download-modal).
* シンプルなJavaアプリケーションでJARファイルを使用してIronPDFを手動でインストールします。
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
すべての前提条件がインストールされたら、PDFドキュメントを操作するために必要なIronPDFパッケージをインポートする必要があります。 Main.javaファイルの冒頭に次のコードを追加してください:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
IronPDFで利用可能ないくつかのメソッドは、使用するためにライセンスが必要です。 ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しください。 次のようにキーを設定できます:
License.setLicenseKey("YOUR-KEY");
既存のドキュメントを解析してコンテンツを抽出するには、PdfDocument
クラスを使用します。 静的な fromFile
メソッドは、特定のパスと特定のファイル名を持つPDFファイルをJavaプログラムで解析するために使用されます。 コードは以下の通りです:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
IronPDF for Javaは、簡単な方法を提供します テキストの抽出 PDFドキュメントから。 以下のコードスニペットは、PDFファイルからテキストデータを抽出するためのものです:
String extracted_text = parsedDocument.extractAllText();
上記のコードは以下の出力を生成します:
IronPDF for Javaの機能は、既存のPDFに限定されるだけでなく、新しいファイルを作成して内容を抽出することもできます。 以下に、対象の文章を日本語に翻訳します:
ここでは、 URLからのPDFファイル そして、それから内容を抽出します。 以下の例は、このタスクを達成する方法を示しています:
public class Main {
public static void main(String [] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
出力は以下の通りです:
IronPDF も簡単なオプションを提供しています。 すべての画像を抽出 解析されたドキュメントから。 ここでは、前の例を使って、PDFファイルから画像を簡単に抽出する方法を確認します。
public static void main(String [] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch(Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
extractAllImages
メソッドは BufferedImages
のリストを返します。 各 BufferedImage
は、ImageIO.write
メソッドを使用して指定された場所に PNG 画像として保存できます。 解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されています。
extractAllText
メソッドを使用して、PDFファイルの表形式の境界からコンテンツを抽出するのは、わずか一行のコードで簡単にできます。 以下のコードスニペットは、PDFファイルのテーブルからテキストを抽出する方法を示しています:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
出力は以下の通りです:
この記事では、IronPDF を使用して Java で既存の PDF ドキュメントを解析したり、URL から新しい PDF 解析ファイルを作成してデータを抽出する方法を学びました。 ファイルを開いた後、PDFから表形式データ、画像、およびテキストを抽出できます。 抽出されたテキストを後で使用するためにテキストファイルに追加することもできます。
Javaでプログラム的にPDFファイルを操作する方法の詳細については、こちらをご覧ください リンク.
For development purposes, the IronPDF for Java library is free for use with a 家公司license. 無料試用. ただし、商業利用の場合は ライセンス済み以下の通り翻訳します:
$749から開始します。
9つの .NET API製品 オフィス文書用