ライブ環境でテストする
ウォーターマークなしで本番環境でテストしてください。
必要な場所でいつでも動作します。
この記事では、IronPDFライブラリーを使用して効率的なアプローチでJavaにPDFパーサーを作成します。
IronPDF for Javaは、PDFドキュメントの作成、読み取り、および操作を簡単かつ正確に行うことを可能にするJavaのPDFライブラリです。 それは、IronPDF for .NETの成功に基づいて構築されており、異なるプラットフォーム全体で効率的な機能を提供します。 IronPDF for Java は、IronPdfEngine
高速でパフォーマンスに最適化された
IronPDFを使用すると、PDFファイルからテキストと画像を抽出またさまざまなソースからPDFを作成HTML文字列、ファイル、URL、画像を含みます。 さらに、新しいコンテンツを簡単に追加することができます、IronPDFで署名を挿入する、およびPDF文書にメタデータを埋め込む. IronPDFはJava 8+、Scala、Kotlin用に特別に設計されており、Windows、Linux、クラウドプラットフォームに対応しています。
JavaでPDF解析プロジェクトを作成するには、次のツールが必要です:
Java IDE: Java対応の任意のIDEを使用できます。開発用のJava IDEが複数存在します。 このチュートリアルでは使用しますIntelliJ IDE. NetBeans、Eclipseなどを使用できます。
Mavenプロジェクト: Mavenは依存関係管理ツールであり、Javaプロジェクトを制御することができます。 Java用のMavenは以下からダウンロードできますMaven公式ウェブサイト. IntelliJのJava IDEには、Mavenのサポートが組み込まれています。
IronPDF - IronPDF for Javaを複数の方法でダウンロードおよびインストールできます。
pom.xml
ファイルにIronPDF依存関係を追加する。 :ProductInstall
ウェブサイトに訪問してください最新のJava用IronPDFパッケージのMavenリポジトリウェブサイト.
ソフトウェアからの直接ダウンロード公式ダウンロードページ.
pom.xml
ファイルに追加します: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
すべての前提条件がインストールされると、最初のステップはPDFドキュメントを操作するために必要なIronPDFパッケージをインポートすることです。 Main.java
ファイルの上部に次のコードを追加してください:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
IronPDFで利用可能ないくつかのメソッドは、使用するためにライセンスが必要です。 ライセンスを購入するか、無料トライアルでIronPDFを無料でお試しください。 次のようにキーを設定できます:
License.setLicenseKey("YOUR-KEY");
既存のドキュメントを解析してコンテンツを抽出するには、PdfDocument(PDFドキュメント)
クラスが使用されます。 それは静的ですfromFile
メソッドは、Javaプログラムで特定のパスから特定のファイル名のPDFファイルを解析するために使用されます。 コードは以下の通りです:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
解析されたドキュメント
IronPDF for Javaは、簡単な方法を提供しますPDF文書からのテキスト抽出. 以下のコードスニペットは、PDFファイルからテキストデータを抽出するためのものです:
String extracted_text = parsedDocument.extractAllText();
上記のコードは以下の出力を生成します:
出力
IronPDF for Javaは既存のPDFだけでなく、新しいファイルを作成して解析し、コンテンツを抽出することもできます。 ここでは、このチュートリアルが作成しますURL から PDF ファイルを作成し、そこからコンテンツを抽出する。. 以下の例は、このタスクを達成する方法を示しています:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
出力は以下の通りです:
出力
IronPDF も簡単なオプションを提供しています。解析されたドキュメントからすべての画像を抽出. ここでは、チュートリアルで前の例を使用して、PDFファイルから画像がどれほど簡単に抽出されるかを見ていきます。
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
について[extractAllImages
-> すべての画像を抽出](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())メソッドはBufferedImages
のリストを返します。 各 BufferedImage
は、ImageIO.write
メソッドを使用して指定された場所に PNG 画像として保存できます。 解析されたPDFファイルには34枚の画像があり、すべての画像が完璧に抽出されています。
抽出された画像
PDFファイルの表形式の境界からコンテンツを抽出するのは、次の一行コードで簡単に行えます。[extractAllText`メソッド](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). 以下のコードスニペットは、PDFファイルのテーブルからテキストを抽出する方法を示しています:
PDF内のテーブル
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
出力は以下の通りです:
出力
この記事では、IronPDFを使用してJavaで既存のPDFドキュメントを解析するか、URLから新しいPDFパーサーファイルを作成してデータを抽出する方法を示しました。 ファイルを開いた後、PDFから表データ、画像、テキストを抽出することができ、抽出したテキストを後で使用するためにテキストファイルに追加することもできます。
Javaでプログラム的にPDFファイルを扱う方法の詳細については、以下をご覧ください。PDFファイル作成例.
For development purposes, the IronPDF for Java library is free for use with a 家公司license.無料トライアルあり. ただし、商業利用の場合はIronSoftwareを通してライセンス以下の通り翻訳します:
$749から開始します。
9つの .NET API製品 オフィス文書用