Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Cet article va créer un analyseur PDF en Java en utilisant la bibliothèque IronPDF de manière efficace.
IronPDF est une bibliothèque Java PDF qui permet la création, la lecture et la manipulation de documents PDF avec facilité et précision. Il s'appuie sur le succès d'IronPDF for .NET et offre des fonctionnalités efficaces sur différentes plates-formes. IronPDF for Java utilise le IronPdfEngine
, qui est rapide et optimisé pour la performance.
Avec IronPDF, vous pouvez analyser les pages PDF et extraire le texte, les images et d'autres objets des fichiers PDF. Il permet également aux création de PDFs à partir de chaînes HTML, de fichiers, d'URL et d'images, ainsi que la conversion entre différents formats de fichiers. De plus, vous pouvez facilement ajouter du nouveau contenu, ajouter des signatureset ajouter des métadonnées aux documents PDF existants. IronPDF est conçu spécifiquement pour Java 8+, Scala et Kotlin, et est compatible avec les plateformes Windows, Linux et Cloud.
fromFile
méthodeextraireToutTexte
méthoderenderUrlAsPdf
méthode to render a PDF from a URLextraireToutesImages
méthodePour réaliser un projet PDF Parsing en Java, vous aurez besoin des outils suivants :
Java IDE : Vous pouvez utiliser n'importe quel IDE compatible avec Java. Plusieurs IDE Java sont disponibles pour le développement. Ici, ce tutoriel utilisera IntelliJ IDE. Vous pouvez utiliser NetBeans, Eclipse, etc.
Projet Maven : Maven est un gestionnaire de dépendances et permet de contrôler le projet Java. Maven pour Java peut être téléchargé à l'adresse suivante ici. IDE Java IntelliJ a un support intégré pour Maven.
IronPDF - Vous pouvez télécharger et installer IronPDF for Java de plusieurs façons.
pom.xml
dans un projet Maven. :ProductInstall
Visitez le site Web Maven et téléchargez le dernier package IronPDF pour Java, il peut être téléchargé depuis Site Web du dépôt Maven.
Un téléchargement direct à partir du site web d'IronPDF par le biais de ce lien lien de téléchargement.
pom.xml
: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
Une fois que toutes les conditions préalables sont installées, la première étape consiste à importer les packages IronPDF nécessaires pour travailler avec un document PDF. Ajoutez le code suivant en haut du fichier Main.java
:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
Certaines méthodes disponibles dans IronPDF nécessitent une licence pour être utilisées. Vous pouvez acheter une licence ou essayer IronPDF gratuitement dans le cadre d'une version d'essai. Vous pouvez régler la touche comme suit :
License.setLicenseKey("YOUR-KEY");
Pour analyser un document existant afin d'extraire le contenu, le PdfDocument
classe est utilisée. Son statique fromFile
La méthode est utilisée pour analyser un fichier PDF à partir d'un chemin spécifique avec un nom de fichier spécifique dans un programme Java. Le code est le suivant :
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
Document analysé
IronPDF for Java fournit une méthode simple pour extraction de texte à partir de documents PDF. L'extrait de code suivant permet d'extraire des données textuelles d'un fichier PDF :
String extracted_text = parsedDocument.extractAllText();
Le code ci-dessus produit la sortie indiquée ci-dessous :
Sortie
Les capacités d'IronPDF for Java ne se limitent pas aux PDF existants, mais il peut également créer et analyser un nouveau fichier pour en extraire le contenu. Voici, ce tutoriel va créer un Fichier PDF à partir d'une URL et d'en extraire le contenu. L'exemple suivant montre comment réaliser cette tâche :
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
Le résultat est le suivant :
Sortie
IronPDF offre également une option facile pour extraire toutes les images du document analysé. Ici, le tutoriel utilisera l'exemple précédent pour voir à quel point il est facile d'extraire les images des fichiers PDF.
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
Les [extractAllImages
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) La méthode renvoie une liste de BufferedImages
. Chaque BufferedImage
peut alors être stockée en tant qu'image PNG sur un emplacement en utilisant la méthode ImageIO.write
. Le fichier PDF analysé contient 34 images et chaque image est parfaitement extraite.
Images extraites
L'extraction de contenu à partir de frontières tabulaires dans un fichier PDF est facilitée avec une seule ligne de code en utilisant le [extraireToutLeTexte
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) méthode. L'extrait de code suivant montre comment extraire du texte d'un tableau dans un fichier PDF :
Table dans PDF
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
Le résultat est le suivant :
Sortie
Cet article a démontré comment analyser un document PDF existant ou créer un nouveau fichier analyseur PDF à partir d'une URL pour en extraire des données en Java en utilisant IronPDF. Après ouverture du fichier, il peut extraire des données tabulaires, des images et du texte du PDF, et peut également ajouter le texte extrait à un fichier texte pour une utilisation ultérieure.
Pour obtenir des informations plus détaillées sur la manière de travailler avec des fichiers PDF par programmation en Java, veuillez consulter le site suivant exemples de création de fichiers PDF.
La bibliothèque IronPDF for Java est gratuite à des fins de développement, moyennant une redevance de essai gratuit. Toutefois, pour un usage commercial, il peut être sous licenceà partir de $749.
9 produits de l'API .NET pour vos documents de bureau