Passer au contenu du pied de page
UTILISATION D'IRONPDF POUR JAVA

Comment analyser les PDF en Java (Tutoriel pour développeur)

Cet article créera un analyseur PDF en Java en utilisant la bibliothèque IronPDF de manière efficace.

IronPDF - Bibliothèque de PDF pour Java

IronPDF pour Java est une bibliothèque PDF Java qui permet la création, la lecture et la manipulation de documents PDF avec facilité et précision. Il est construit sur le succès de IronPDF pour .NET et fournit des fonctionnalités efficaces sur différentes plateformes. IronPDF pour Java utilise le IronPdfEngine, qui est rapide et optimisé pour la performance.

With IronPDF, you can extract text and images from PDF files and it also enables creating PDFs from various sources including HTML strings, files, URLs, and images. Furthermore, you can easily add new content, insert signatures with IronPDF, and embed metadata into PDF documents. IronPDF est spécialement conçu pour Java 8+, Scala, et Kotlin, et est compatible avec les plateformes Windows, Linux, et Cloud.

class="hsg-featured-snippet">

Comment analyser un fichier PDF en Java

  1. Télécharger la bibliothèque Java pour analyser un fichier PDF
  2. Charger un document PDF existant en utilisant la méthode fromFile
  3. Extraire tout le texte du PDF analysé en utilisant la méthode extractAllText
  4. Utiliser la méthode renderUrlAsPdf pour rendre un PDF à partir d'une URL
  5. Extraire les images du PDF analysé en utilisant la méthode extractAllImages

Créer un analyseur de fichier PDF en utilisant IronPDF dans un programme Java

Prérequis

Pour réaliser un projet d'analyse PDF en Java, vous aurez besoin des outils suivants :

  1. IDE Java : Vous pouvez utiliser n'importe quel IDE compatible Java. De nombreux IDE Java sont disponibles pour le développement. Ici, ce tutoriel utilisera IntelliJ IDE. Vous pouvez utiliser NetBeans, Eclipse, etc.
  2. Projet Maven : Maven est un gestionnaire de dépendances et permet de contrôler le projet Java. Maven pour Java peut être téléchargé depuis le site officiel de Maven. IntelliJ Java IDE dispose d'un support intégré pour Maven.
  3. IronPDF - Vous pouvez télécharger et installer IronPDF pour Java de plusieurs manières.

    • Ajouter la dépendance IronPDF dans le fichier pom.xml d'un projet Maven.

      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      <dependency>
       <groupId>com.ironsoftware</groupId>
       <artifactId>ironpdf</artifactId>
       <version>[LATEST_VERSION]</version>
      </dependency>
      XML
    • Visitez le site du dépôt Maven pour le dernier package IronPDF pour Java.
    • Un téléchargement direct depuis la page de téléchargement officielle de Iron Software.
    • Installer manuellement IronPDF en utilisant le fichier JAR dans votre simple application Java.
  4. Slf4j-Simple : Cette dépendance est également nécessaire pour tamponner le contenu à un document existant. Elle peut être ajoutée en utilisant le gestionnaire de dépendances Maven dans IntelliJ, ou elle peut être directement téléchargée depuis le site de Maven. Ajoutez la dépendance suivante au fichier pom.xml :

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    XML

Ajouter les imports nécessaires

Une fois que toutes les prérequis sont installés, la première étape consiste à importer les packages nécessaires d'IronPDF pour travailler avec un document PDF. Ajoutez le code suivant en haut du fichier Main.java :

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

Clé de licence

Certaines méthodes disponibles dans IronPDF nécessitent une licence pour être utilisées. Vous pouvez acheter une licence ou essayer IronPDF gratuitement avec un essai gratuit. Vous pouvez définir la clé comme suit :

License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
JAVA

Étape 1 : Analyser un document PDF existant

Pour analyser un document existant pour l'extraction de contenu, la classe PdfDocument est utilisée. Sa méthode statique fromFile est utilisée pour analyser un fichier PDF à partir d'un chemin spécifique avec un nom de fichier spécifique dans un programme Java. Le code est le suivant :

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 1 : Document analysé Document analysé

Étape 2 : Extraire des données textuelles du fichier PDF analysé

IronPDF pour Java fournit une méthode facile pour extraire du texte à partir de documents PDF. Le snippet de code suivant est pour extraire des données textuelles d'un fichier PDF se trouve ci-dessous :

String extractedText = parsedDocument.extractAllText();
String extractedText = parsedDocument.extractAllText();
JAVA

Le code ci-dessus produit la sortie donnée ci-dessous :

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 2 : Sortie Sortie

Étape 3 : Extraire des données textuelles à partir d'URLs ou de chaînes HTML

La capacité d'IronPDF pour Java n'est pas seulement limitée aux PDF existants, mais elle peut également créer et analyser un nouveau fichier pour en extraire du contenu. Ici, ce tutoriel créera un fichier PDF à partir d'une URL et en extraire le contenu. L'exemple suivant montre comment réaliser cette tâche :

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
JAVA

Le résultat est le suivant :

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 3 : Sortie Sortie

Étape 4 : Extraire des images du document PDF analysé

IronPDF fournit également une option facile pour extraire toutes les images des documents analysés. Ici, le tutoriel utilisera l'exemple précédent pour voir à quel point il est facile d'extraire les images des fichiers PDF.

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
JAVA

La méthode [extractAllImages](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) retourne une liste d'BufferedImages. Chaque BufferedImage peut ensuite être stockée comme images PNG sur un emplacement en utilisant la méthode ImageIO.write. Il y a 34 images dans le fichier PDF analysé et chaque image est parfaitement extraite.

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 4 : Images extraites Images extraites

Étape 5 : Extraire des données depuis un tableau dans les fichiers PDF

L'extraction de contenu des limites tabulaires dans un fichier PDF est facilitée avec juste une ligne de code en utilisant le [extractAllText method](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). Le snippet de code suivant montre comment extraire du texte d'un tableau dans un fichier PDF :

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 5 : Tableau dans un PDF Tableau dans un PDF

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
JAVA

Le résultat est le suivant :

Comment analyser un PDF en Java (Tutoriel pour développeurs), Figure 6 : Sortie Sortie

Conclusion

Cet article a démontré comment analyser un document PDF existant ou créer un nouveau fichier analyseur PDF à partir d'une URL pour en extraire des données en Java en utilisant IronPDF. Après ouverture du fichier, il peut extraire des données tabulaires, des images, et du texte du PDF, et peut également ajouter le texte extrait à un fichier texte pour une utilisation ultérieure.

Pour des informations plus détaillées sur la façon de travailler avec des fichiers PDF de manière programmatique en Java, veuillez visiter ces exemples de création de fichiers PDF.

La bibliothèque IronPDF pour Java est gratuite pour des fins de développement avec une essai gratuit disponible. Cependant, pour un usage commercial, elle peut être licenciée via IronSoftware, à partir de $799.

Questions Fréquemment Posées

Comment créer un analyseur de PDF en Java ?

Pour créer un analyseur de PDF en Java, vous pouvez utiliser la bibliothèque IronPDF. Commencez par télécharger et installer IronPDF, puis chargez votre document PDF en utilisant la méthode fromFile. Vous pouvez extraire du texte et des images en utilisant respectivement les méthodes extractAllText et extractAllImages.

IronPDF peut-il être utilisé avec Java 8+ ?

Oui, IronPDF est compatible avec Java 8 et supérieur, ainsi qu'avec Scala et Kotlin. Il prend en charge plusieurs plateformes, y compris Windows, Linux et les environnements cloud.

Quelles sont les principales étapes pour analyser des PDF avec IronPDF en Java ?

Les principales étapes incluent la configuration d'un projet Maven, l'ajout de la dépendance IronPDF, le chargement d'un document PDF avec fromFile, l'extraction de texte avec extractAllText et l'extraction d'images avec extractAllImages.

Comment puis-je convertir une URL en PDF en Java ?

Vous pouvez convertir une URL en PDF en Java en utilisant la méthode renderUrlAsPdf de IronPDF. Cela vous permet de générer des pages web sous forme de documents PDF de manière efficace.

IronPDF est-il adapté aux applications Java basées sur le cloud ?

Oui, IronPDF est conçu pour être polyvalent et prend en charge les environnements basés sur le cloud, ce qui le rend adapté au développement d'applications Java nécessitant des fonctionnalités PDF dans le cloud.

Comment gérer les dépendances pour un projet d'analyse PDF en Java ?

Pour gérer les dépendances dans un projet Java, vous pouvez utiliser Maven. Ajoutez la bibliothèque IronPDF au fichier pom.xml de votre projet pour l'inclure en tant que dépendance.

Quelles sont les options de licence disponibles pour IronPDF ?

IronPDF propose un essai gratuit à des fins de développement. Cependant, pour une utilisation commerciale, une licence est requise. Cela garantit l'accès à toutes les fonctionnalités et un support prioritaire.

Darrius Serrant
Ingénieur logiciel Full Stack (WebOps)

Darrius Serrant est titulaire d'un baccalauréat en informatique de l'université de Miami et travaille comme ingénieur marketing WebOps Full Stack chez Iron Software. Attiré par le codage dès son plus jeune âge, il a vu l'informatique comme à la fois mystérieuse et accessible, en faisant le ...

Lire la suite