Passer au contenu du pied de page
UTILISATION D'IRONPDF POUR JAVA

Comment lire un fichier PDF en Java

Cet article explorera comment créer un lecteur PDF, pour ouvrir un fichier PDF dans votre application logicielle de manière programmatique. Pour effectuer cette tâche efficacement, IronPDF pour Java est l'une de ces bibliothèques système qui aide à ouvrir et lire des fichiers PDF en utilisant le nom de fichier dans les programmes Java.

class="hsg-featured-snippet">

Comment lire des fichiers PDF en Java

  1. Télécharger la bibliothèque Java IronPDF
  2. Utilisez la méthode fromFile pour charger des documents PDF existants
  3. Appelez la méthode extractAllText pour extraire le texte intégré dans les PDF
  4. Extrayez le texte d'une page spécifique avec la méthode extractTextFromPage
  5. Récupérez le texte des PDF rendus à partir de l'URL

IronPDF

La bibliothèque Java IronPDF est construite sur le Framework .NET déjà réussi. Cela fait d'IronPDF un outil polyvalent pour travailler avec des documents PDF par rapport à d'autres bibliothèques de classes comme Apache PDFBox. Il offre la possibilité d'extraire et analyser le contenu, charger du texte et des images. It also provides options to customize the PDF pages such as page layout, margins, header and footer, page orientation, and much more.

En plus de cela, IronPDF prend également en charge la conversion à partir d'autres formats de fichiers, la protection des PDF avec un mot de passe, la signature numérique, la fusion et la séparation des documents PDF.

Comment lire des fichiers PDF en Java

Prérequis

Pour utiliser IronPDF pour créer un lecteur PDF Java, il est nécessaire de s'assurer que les composants suivants sont installés sur l'ordinateur :

  1. JDK - Le Kit de développement Java est requis pour développer et exécuter des programmes Java. S'il n'est pas installé, téléchargez-le depuis le site web d'Oracle.
  2. IDE - L'Environnement de développement intégré est un logiciel qui aide à écrire, modifier et déboguer un programme. Téléchargez n'importe quel IDE pour Java, par exemple Eclipse, NetBeans, IntelliJ.
  3. Maven - Maven est un outil d'automatisation qui aide à télécharger des bibliothèques depuis le référentiel central. Téléchargez-le sur le site d'Apache Maven.
  4. IronPDF - Enfin, IronPDF est requis pour lire le fichier PDF en Java. Cela doit être ajouté en tant que dépendance dans votre projet Maven Java. Incluez l'artifact IronPDF avec la dépendance slf4j dans le fichier pom.xml comme indiqué dans l'exemple ci-dessous :
<!-- Add Maven dependencies for IronPDF -->
<dependencies>
    <!-- IronPDF Dependency -->
    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <!-- SLF4J Dependency necessary for logging -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>
<!-- Add Maven dependencies for IronPDF -->
<dependencies>
    <!-- IronPDF Dependency -->
    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <!-- SLF4J Dependency necessary for logging -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>
XML

Ajout des Importations Nécessaires

Tout d'abord, ajoutez le code suivant en haut du fichier source Java pour référencer toutes les méthodes requises d'IronPDF :

import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
JAVA

Ensuite, configurez IronPDF avec une clé de licence valide pour utiliser ses méthodes. Invoquez la méthode setLicenseKey dans la méthode principale.

License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
JAVA

Remarque : Vous pouvez obtenir une clé de licence d'essai gratuite pour créer, lire et imprimer des PDF.

Lire un fichier PDF existant en Java

Pour lire des fichiers PDF, il doit y avoir des fichiers PDF, ou l'on peut en créer un. Cet article utilisera un fichier PDF déjà créé. Le code est simple et une procédure en deux étapes pour extraire le texte du document :

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
JAVA

Dans le code ci-dessus, [fromFile](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#fromFile(java.nio.file.Path) ouvre un document PDF. La méthode Paths.get obtient le répertoire du fichier et est prête à extraire le contenu du fichier. Ensuite, [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText() lit tout le texte du document.

Le résultat est ci-dessous :

Comment lire un fichier PDF en Java, Figure 1 : Lecture du texte PDF Lecture du texte PDF

Lire le texte d'une page spécifique

IronPDF peut également lire le contenu d'une page spécifique d'un PDF. La méthode extractTextFromPage utilise un objet PageSelection pour accepter une plage de page(s) à partir de laquelle le texte sera lu.

Dans l'exemple suivant, le texte est extrait de la deuxième page du document PDF. PageSelection.singlePage prend l'index de la page qui doit être extraite (l'index commençant à 0).

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
JAVA

Comment lire un fichier PDF en Java, Figure 2 : Lecture du texte PDF Lecture du texte PDF

Other methods available in the PageSelection class which can be used to extract text from various pages include: [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), pageRange, and [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

Lire le texte d'un fichier PDF nouvellement généré

La recherche de texte peut également être effectuée à partir d'un fichier PDF nouvellement généré à partir d'un fichier HTML ou d'une URL. Le code suivant génère des PDF à partir d'une URL et extrait tout le texte du site web.

// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
JAVA

Comment lire un fichier PDF en Java, Figure 3 : Lecture à partir d'un nouveau fichier Lecture à partir d'un nouveau fichier

IronPDF peut également être utilisé pour extraire des images des fichiers PDF.

Le code complet est le suivant :

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
JAVA

Résumé

Cet article a expliqué comment ouvrir et lire des PDF en Java en utilisant IronPDF.

IronPDF aide à créer facilement des PDF à partir de HTML ou d'URL et à convertir depuis différents formats de fichiers. Il aide également à réaliser rapidement et facilement les tâches PDF.

Essayez IronPDF pour 30 jours avec un essai gratuit et découvrez à quel point cela fonctionne bien pour vous en production. Explorez les options de licence commerciale pour IronPDF qui commencent seulement à partir de $799.

Questions Fréquemment Posées

Comment puis-je créer un lecteur PDF en Java ?

Vous pouvez créer un lecteur PDF en Java en utilisant IronPDF en exploitant la méthode `fromFile` pour charger des documents PDF, puis en utilisant des méthodes comme `extractAllText` pour analyser et manipuler le contenu.

Quelles sont les étapes pour installer les prérequis pour utiliser IronPDF en Java ?

Pour utiliser IronPDF en Java, vous devez installer le Java Development Kit (JDK), configurer un Environnement de Développement Intégré (IDE) tel qu'Eclipse ou IntelliJ, configurer Maven pour la gestion des dépendances, et inclure la bibliothèque IronPDF dans votre projet.

Comment puis-je extraire du texte d'un fichier PDF en Java ?

Pour extraire du texte d'un fichier PDF en Java en utilisant IronPDF, vous pouvez utiliser la méthode `extractAllText` pour récupérer le texte entier du document ou `extractTextFromPage` pour extraire le texte d'une page spécifique.

Puis-je générer un PDF à partir d'une URL en Java ?

Oui, avec IronPDF, vous pouvez générer un PDF à partir d'une URL en utilisant la méthode `renderUrlAsPdf`, qui convertit le contenu web en format PDF.

IronPDF prend-il en charge l'ajout de protection par mot de passe aux PDF en Java ?

Oui, IronPDF prend en charge l'ajout de protection par mot de passe aux PDF, ainsi que d'autres fonctionnalités comme la signature numérique, la fusion ou la division des documents.

Quels formats de fichier IronPDF peut-il convertir en PDF en Java ?

IronPDF peut convertir divers formats de fichiers en PDF, y compris HTML et d'autres formats de documents, offrant des options flexibles pour la génération et la manipulation de PDF.

Existe-t-il une version d'essai disponible pour IronPDF en Java ?

Oui, IronPDF propose un essai gratuit de 30 jours, vous permettant de tester ses fonctionnalités et d'évaluer ses performances dans vos applications Java avant d'acheter une licence.

Comment puis-je extraire du texte d'une page spécifique dans un document PDF en utilisant une bibliothèque Java ?

En utilisant IronPDF, vous pouvez extraire du texte d'une page spécifique dans un PDF en utilisant la méthode `extractTextFromPage`, qui nécessite de spécifier le numéro ou la plage de pages.

Darrius Serrant
Ingénieur logiciel Full Stack (WebOps)

Darrius Serrant est titulaire d'un baccalauréat en informatique de l'université de Miami et travaille comme ingénieur marketing WebOps Full Stack chez Iron Software. Attiré par le codage dès son plus jeune âge, il a vu l'informatique comme à la fois mystérieuse et accessible, en faisant le ...

Lire la suite