UTILISATION D'IRONPDF FOR JAVA

Comment extraire des données d'un fichier PDF en Java ?

Ce tutoriel vous montrera comment utiliser IronPDF for Java pour extraire des données d'un fichier PDF. La configuration de l'environnement, l'importation de la bibliothèque, la lecture du fichier d'entrée et l'extraction des données nécessaires sont expliquées avec des exemples de code.

2. IronPDF for Java PDF Library (Bibliothèque PDF Java)

IronPDF est une bibliothèque logicielle qui offre aux développeurs la possibilité de générer, d'éditer et d'extraire des données de fichiers PDF en utilisant IronPDF for Java dans leurs applications Java. Il vous permet de créer des PDF à partir de documents HTML, d'images et plus encore, ainsi que de fusionner plusieurs PDF, diviser des fichiers PDF, et manipuler des PDF existants. IronPDF offre également la possibilité de sécuriser les PDFs avec des fonctionnalités de protection par mot de passe et d'ajouter des signatures numériques aux PDFs, parmi d'autres fonctionnalités.

IronPDF for Java est développé et maintenu par Iron Software. L'une de ses fonctions les plus appréciées est l'extraction de texte et de données à partir de fichiers PDF ainsi que de HTML et d'URL.

3. Conditions préalables

Pour utiliser IronPDF afin d'extraire des données de fichiers PDF, vous devez remplir les conditions préalables suivantes :

  1. Installation de Java : Assurez-vous que Java est installé sur votre système et que son chemin est configuré dans les variables d'environnement. Si vous n'avez pas encore installé Java, consultez cette page de téléchargement sur le site de Java pour les instructions.

  2. Java IDE : Installez un IDE Java comme Eclipse ou IntelliJ. Vous pouvez télécharger Eclipse depuis cette page de téléchargement d'Eclipse et IntelliJ depuis cette page de téléchargement d'IntelliJ.

  3. Bibliothèque IronPDF : Téléchargez et ajoutez la bibliothèque IronPDF en tant que dépendance dans votre projet. Visitez la page des instructions de configuration d'IronPDF pour les instructions de configuration.

  4. Installation de Maven : Maven doit être installé et intégré à votre IDE avant de commencer le processus de conversion PDF. Consultez ce tutoriel d'installation de Maven sur JetBrains pour l'installation et l'intégration de Maven.

4. Installation d'IronPDF for Java

L'installation d'IronPDF for Java est simple et facile, à condition que toutes les conditions requises soient remplies. Ce guide utilise IntelliJ IDEA de JetBrains pour démontrer l'installation et exécuter un exemple de code.

Voici ce qu'il faut faire :

Ouvrir IntelliJ IDEA : Lancer JetBrains IntelliJ IDEA sur votre système.

Créer un projet Maven : Dans IntelliJ IDEA, créer un nouveau projet Maven. Ceci fournira un environnement approprié pour l'installation d'IronPDF for Java.

Comment extraire des données d'un PDF en Java, Figure 1 : Nouveau projet Maven dans IntelliJ

Nouveau projet Maven dans IntelliJ

Une nouvelle fenêtre apparaît. Saisissez le nom du projet et cliquez sur Terminer.

Comment extraire des données d'un PDF en Java, Figure 2 : Nommez le projet Maven et cliquez sur Terminer

Nommer le projet Maven et cliquer sur Terminer

Un nouveau projet avec un pom.xml s'ouvrira une fois que vous aurez cliqué sur Finish. Ceci sera utilisé pour ajouter les dépendances IronPDF for Java Maven.

Comment extraire des données d'un PDF en Java, Figure 3 : Le fichier pom.xml

Le fichier pom.xml

Ajoutez les dépendances suivantes dans le fichier pom.xml ou vous pouvez télécharger le fichier JAR depuis la page de la bibliothèque IronPDF sur Sonatype Central.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.5.6</version>
</dependency>

Une fois que vous avez placé les dépendances dans le fichier pom.xml, une petite icône apparaîtra dans le coin supérieur droit du fichier.

Comment extraire des données d'un PDF en Java, Figure 4 : Cliquez sur l'icône flottante pour installer automatiquement les dépendances Maven

Cliquez sur l’icône flottante pour installer automatiquement les dépendances Maven

Installez les dépendances Maven d'IronPDF for Java en cliquant sur ce bouton. Selon la vitesse de votre connexion internet, cette opération ne devrait prendre que quelques minutes.

5. Extraire des données

IronPDF est une bibliothèque Java pour créer, éditer et extraire des données des documents PDF. Il fournit une API simple pour extraire du texte de fichiers PDF, d'URL et de tables.

5.1. Extraire des données de documents PDF

En utilisant IronPDF for Java, vous pouvez facilement extraire des données textuelles de documents PDF. Vous trouverez ci-dessous un exemple de code permettant d'extraire des données d'un fichier PDF.

Comment extraire des données d'un PDF en Java, Figure 5 : Entrée PDF

Saisie PDF

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

Le code source produit la sortie indiquée ci-dessous :

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. Extraire des données des URL

IronPDF for Java convertit l'URL en PDF en cours d'exécution et en extrait le texte. Cet exemple montrera le code source pour extraire du texte à partir d'URLs.

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

Comment extraire des données de PDF en Java, Figure 6 : Données de la page Web extraites

Données extraites de la page Web

5.3. Extraire les données du tableau

L'extraction des données d'un tableau à partir d'un PDF à l'aide d'IronPDF for Java est très simple ; tout ce dont vous avez besoin, c'est d'un PDF contenant un tableau, et d'exécuter le code ci-dessous.

Comment extraire des données d'un PDF en Java, Figure 7 : Exemple de tableau PDF en entrée

Exemple de tableau PDF d'entrée

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. Conclusion

En conclusion, ce tutoriel a démontré comment extraire des données, en particulier des données tabulaires d'un fichier PDF, à l'aide d'IronPDF for Java.

Pour plus d'informations, veuillez vous référer à l'exemple d'extraction de texte à partir de PDF sur le site Web IronPDF.

IronPDF est une bibliothèque avec des détails sur la licence commerciale, à partir de $749. Toutefois, vous pouvez l'évaluer en production avec une version d'essai gratuite en utilisant la licence d'essai IronPDF.

Darrius Serrant
Ingénieur Logiciel Full Stack (WebOps)

Darrius Serrant est titulaire d'une licence en informatique de l'Université de Miami et travaille en tant qu'ingénieur marketing Full Stack WebOps chez Iron Software. Attiré par le code depuis son plus jeune âge, il a vu l'informatique comme à la fois mystérieuse et accessible, en faisant le support parfait pour la créativité et la résolution de problèmes.

Chez Iron Software, Darrius apprécie de créer de nouvelles choses et de simplifier des concepts complexes pour les rendre plus compréhensibles. En tant que l'un de nos développeurs résidents, il a également fait du bénévolat pour enseigner aux étudiants, partageant son expertise avec la prochaine génération.

Pour Darrius, son travail est épanouissant car il est apprécié et a un réel impact.

< PRÉCÉDENT
Comment extraire une image d'un fichier PDF en Java ?
SUIVANT >
Comment fusionner deux fichiers PDF à l'aide de Java