Passer au contenu du pied de page
UTILISATION D'IRONPDF FOR JAVA

Comment analyser les PDF en Java (Tutoriel pour développeur)

Cet article créera un analyseur PDF en Java en utilisant la bibliothèque IronPDF de manière efficace.

IronPDF - Bibliothèque de PDF for Java

IronPDF for Java est une bibliothèque PDF Java qui permet la création, la lecture et la manipulation de documents PDF avec facilité et précision. Il est construit sur le succès de IronPDF for .NET et fournit des fonctionnalités efficaces sur différentes plateformes. IronPDF for Java utilise le IronPdfEngine qui est rapide et optimisé pour les performances.

Avec IronPDF, vous pouvez extraire du texte et des images des fichiers PDF et il permet également la création de PDF à partir de diverses sources y compris des chaînes HTML, des fichiers, des URL et des images. De plus, vous pouvez facilement ajouter du nouveau contenu, insérer des signatures avec IronPDF, et intégrer des métadonnées dans des documents PDF. IronPDF est spécialement conçu for Java 8+, Scala, et Kotlin, et est compatible avec les plateformes Windows, Linux, et Cloud.

Créer un analyseur de fichier PDF en using IronPDF dans un programme Java

Prérequis

Pour réaliser un projet d'analyse PDF en Java, vous aurez besoin des outils suivants :

  1. IDE Java : Vous pouvez utiliser n'importe quel IDE compatible avec Java. Plusieurs IDE Java sont disponibles pour le développement. Ici, ce tutoriel utilisera IntelliJ IDE. Vous pouvez utiliser NetBeans, Eclipse, etc.
  2. Projet Maven : Maven est un gestionnaire de dépendances qui permet de contrôler le projet Java. Maven for Java peut être téléchargé depuis le site officiel de Maven. IntelliJ Java IDE dispose d'un support intégré pour Maven.
  3. IronPDF - Vous pouvez télécharger et installer IronPDF for Java de plusieurs manières.

    • Ajout de la dépendance IronPDF dans le fichier pom.xml dans un projet Maven.

      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      XML
    • Visitez le site du dépôt Maven pour le dernier package IronPDF for Java.
    • Un téléchargement direct depuis la page de téléchargement officielle de Iron Software.
    • Installer manuellement IronPDF en utilisant le fichier JAR dans votre simple application Java.
  4. Slf4j-Simple : Cette dépendance est également requise pour ajouter du contenu à un document existant. Il peut être ajouté en utilisant le gestionnaire de dépendances Maven dans IntelliJ, ou il peut être directement téléchargé depuis le site web de Maven. Ajoutez la dépendance suivante au fichier pom.xml :

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    XML

Ajouter les imports nécessaires

Une fois que toutes les prérequis sont installés, la première étape consiste à importer les packages nécessaires d'IronPDF pour travailler avec un document PDF. Ajoutez le code suivant en haut du fichier Main.java :

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

Clé de licence

Certaines méthodes disponibles dans IronPDF nécessitent une licence pour être utilisées. Vous pouvez acheter une licence ou essayer IronPDF avec un essai gratuit. Vous pouvez définir la clé comme suit :

License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
JAVA

Étape 1 : Analyser un document PDF existant

Pour analyser un document existant pour l'extraction de contenu, la classe PdfDocument est utilisée. Sa méthode statique fromFile est utilisée pour analyser un fichier PDF depuis un emplacement spécifique avec un nom de fichier spécifique dans un programme Java. Le code est le suivant :

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

Comment analyser un PDF en Java (Tutoriel pour les développeurs), Figure 1 : Document analysé Document analysé

Étape 2 : Extraire des données textuelles du fichier PDF analysé

IronPDF for Java fournit une méthode facile pour extraire du texte à partir de documents PDF. Le snippet de code suivant est pour extraire des données textuelles d'un fichier PDF se trouve ci-dessous :

String extractedText = parsedDocument.extractAllText();
String extractedText = parsedDocument.extractAllText();
JAVA

Le code ci-dessus produit la sortie donnée ci-dessous :

Comment analyser un PDF en Java (Tutoriel pour les développeurs), Figure 2 : Sortie Sortie

Étape 3 : Extraire des données textuelles à partir d'URLs ou de chaînes HTML

La capacité d'IronPDF for Java n'est pas seulement limitée aux PDF existants, mais elle peut également créer et analyser un nouveau fichier pour en extraire du contenu. Ici, ce tutoriel va créer un fichier PDF à partir d'une URL et en extraire le contenu. L'exemple suivant montre comment réaliser cette tâche :

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
JAVA

La sortie est la suivante :

Comment analyser un PDF en Java (Tutoriel pour les développeurs), Figure 3 : Sortie Sortie

Étape 4 : Extraire des images du document PDF analysé

IronPDF fournit également une option facile pour extraire toutes les images des documents analysés. Ici, le tutoriel utilisera l'exemple précédent pour voir à quel point il est facile d'extraire les images des fichiers PDF.

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
JAVA

La méthode [extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) renvoie une liste de BufferedImages. Chaque BufferedImage peut alors être stocké en tant qu'images PNG sur un emplacement en utilisant la méthode ImageIO.write. Il y a 34 images dans le fichier PDF analysé et chaque image est parfaitement extraite.

Comment analyser un PDF en Java (Tutoriel pour les développeurs), Figure 4 : Images extraites Images extraites

Étape 5 : Extraire des données d'un tableau dans des fichiers PDF

L'extraction de contenu à partir de limites tabulaires dans un fichier PDF est rendue facile avec juste une ligne de code en utilisant la méthode [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). Le snippet de code suivant montre comment extraire du texte d'un tableau dans un fichier PDF :

Comment analyser un PDF en Java (Tutoriel pour les développeurs), Figure 5 : Table dans le PDF Tableau dans un PDF

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
JAVA

La sortie est la suivante :

Comment analyser un PDF en Java (Tutoriel pour les développeurs), Figure 6 : Sortie Sortie

Conclusion

Cet article a démontré comment analyser un document PDF existant ou créer un nouveau fichier analyseur PDF à partir d'une URL pour en extraire des données en Java en using IronPDF. Après ouverture du fichier, il peut extraire des données tabulaires, des images, et du texte du PDF, et peut également ajouter le texte extrait à un fichier texte pour une utilisation ultérieure.

Pour des informations plus détaillées sur la façon de travailler avec des fichiers PDF de manière programmatique en Java, veuillez visiter ces exemples de création de fichiers PDF.

La bibliothèque IronPDF for Java est gratuite à des fins de développement avec un essai gratuit disponible. Cependant, pour un usage commercial, il peut être licencié par IronSoftware, à partir de $799.

Questions Fréquemment Posées

Comment créer un analyseur de PDF en Java ?

Pour créer un analyseur de PDF en Java, vous pouvez utiliser la bibliothèque IronPDF. Commencez par télécharger et installer IronPDF, puis chargez votre document PDF en utilisant la méthode fromFile. Vous pouvez extraire du texte et des images en utilisant respectivement les méthodes extractAllText et extractAllImages.

IronPDF peut-il être utilisé avec Java 8+ ?

Oui, IronPDF est compatible avec Java 8 et supérieur, ainsi qu'avec Scala et Kotlin. Il prend en charge plusieurs plateformes, y compris Windows, Linux et les environnements cloud.

Quelles sont les principales étapes pour analyser des PDF avec IronPDF en Java ?

Les principales étapes incluent la configuration d'un projet Maven, l'ajout de la dépendance IronPDF, le chargement d'un document PDF avec fromFile, l'extraction de texte avec extractAllText et l'extraction d'images avec extractAllImages.

Comment puis-je convertir une URL en PDF en Java ?

Vous pouvez convertir une URL en PDF en Java en utilisant la méthode renderUrlAsPdf de IronPDF. Cela vous permet de générer des pages web sous forme de documents PDF de manière efficace.

IronPDF est-il adapté aux applications Java basées sur le cloud ?

Oui, IronPDF est conçu pour être polyvalent et prend en charge les environnements basés sur le cloud, ce qui le rend adapté au développement d'applications Java nécessitant des fonctionnalités PDF dans le cloud.

Comment gérer les dépendances pour un projet d'analyse PDF en Java ?

Pour gérer les dépendances dans un projet Java, vous pouvez utiliser Maven. Ajoutez la bibliothèque IronPDF au fichier pom.xml de votre projet pour l'inclure en tant que dépendance.

Quelles sont les options de licence disponibles pour IronPDF ?

IronPDF propose un essai gratuit à des fins de développement. Cependant, pour une utilisation commerciale, une licence est requise. Cela garantit l'accès à toutes les fonctionnalités et un support prioritaire.

Darrius Serrant
Ingénieur logiciel Full Stack (WebOps)

Darrius Serrant est titulaire d'un baccalauréat en informatique de l'université de Miami et travaille comme ingénieur marketing WebOps Full Stack chez Iron Software. Attiré par le codage dès son plus jeune âge, il a vu l'informatique comme à la fois mystérieuse et accessible, en faisant le ...

Lire la suite

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me