Comment lire un fichier PDF en Java
Cet article explorera comment créer un lecteur PDF, pour ouvrir un fichier PDF dans votre application logicielle de manière programmatique. Pour effectuer cette tâche efficacement, IronPDF for Java est l'une de ces bibliothèques système qui aide à ouvrir et lire des fichiers PDF en utilisant le nom de fichier dans les programmes Java.
Comment lire des fichiers PDF en Java
- Télécharger la bibliothèque IronPDF for Java
- Utiliser la méthode `fromFile` pour charger des documents PDF existants
- Appeler la méthode `extractAllText` pour extraire le texte intégré dans les PDF
- Extraire le texte d'une page spécifique avec la méthode `extractTextFromPage`
- Récupérer le texte des PDF rendus à partir d'une URL
IronPDF
La bibliothèque Java IronPDF est construite sur le Framework .NET déjà réussi. Cela fait d'IronPDF un outil polyvalent pour travailler avec des documents PDF par rapport à d'autres bibliothèques de classes comme Apache PDFBox. Il offre la possibilité d'extraire et analyser le contenu, charger du texte et des images. Il offre également des options pour personnaliser les pages PDF telles que la mise en page, les marges, l'en-tête et le pied de page, l'orientation de la page, et bien plus encore.
En plus de cela, IronPDF prend également en charge la conversion à partir d'autres formats de fichiers, la protection des PDF avec un mot de passe, la signature numérique, la fusion et la séparation des documents PDF.
Comment lire des fichiers PDF en Java
Prérequis
Pour utiliser IronPDF pour créer un lecteur PDF Java, il est nécessaire de s'assurer que les composants suivants sont installés sur l'ordinateur :
- JDK - Le Kit de développement Java est requis pour développer et exécuter des programmes Java. S'il n'est pas installé, téléchargez-le depuis le site web d'Oracle.
- IDE - L'Environnement de développement intégré est un logiciel qui aide à écrire, modifier et déboguer un programme. Téléchargez n'importe quel IDE pour Java, par exemple Eclipse, NetBeans, IntelliJ.
- Maven - Maven est un outil d'automatisation qui aide à télécharger des bibliothèques depuis le référentiel central. Téléchargez-le sur le site d'Apache Maven.
- IronPDF - Enfin, IronPDF est requis pour lire le fichier PDF en Java. Cela doit être ajouté en tant que dépendance dans votre projet Maven Java. Incluez l'artefact IronPDF ainsi que la dépendance slf4j dans le fichier
pom.xmlcomme indiqué dans l'exemple ci-dessous :
<dependencies>
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>ironpdf</artifactId>
<version>your-version-here</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
<version>1.7.32</version>
</dependency>
</dependencies>
<dependencies>
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>ironpdf</artifactId>
<version>your-version-here</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-api</artifactId>
<version>1.7.32</version>
</dependency>
</dependencies>
Ajout des Importations Nécessaires
Tout d'abord, ajoutez le code suivant en haut du fichier source Java pour référencer toutes les méthodes requises d'IronPDF :
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
Ensuite, configurez IronPDF avec une clé de licence valide pour utiliser ses méthodes. Invoquez la méthode setLicenseKey dans la méthode principale.
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
Remarque : Vous pouvez obtenir une clé de licence d'essai gratuite pour créer, lire et imprimer des PDF.
Lire un fichier PDF existant en Java
Pour lire des fichiers PDF, il doit y avoir des fichiers PDF, ou l'on peut en créer un. Cet article utilisera un fichier PDF déjà créé. Le code est simple et une procédure en deux étapes pour extraire le texte du document :
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
Dans le code ci-dessus, fromFile ouvre un document PDF. La méthode Paths.get récupère le répertoire du fichier et est prête à en extraire le contenu. Ensuite, [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText() ) lit tout le texte du document.
Le résultat est ci-dessous :
Lecture du texte PDF
Lire le texte d'une page spécifique
IronPDF peut également lire le contenu d'une page spécifique d'un PDF. La méthode extractTextFromPage utilise un objet PageSelection pour accepter une plage de pages à partir de laquelle le texte sera lu.
Dans l'exemple suivant, le texte est extrait de la deuxième page du document PDF. PageSelection.singlePage prend l'index de la page à extraire (index commençant à 0).
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
Lecture du texte PDF
D'autres méthodes disponibles dans la classe PageSelection qui peuvent être utilisées pour extraire du texte de diverses pages incluent : [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage() ), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage() ), pageRange, et [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages() ).
Lire le texte d'un fichier PDF nouvellement généré
La recherche de texte peut également être effectuée à partir d'un fichier PDF nouvellement généré à partir d'un fichier HTML ou d'une URL. Le code suivant génère des PDF à partir d'une URL et extrait tout le texte du site web.
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
Lecture à partir d'un nouveau fichier
IronPDF peut également être utilisé pour extraire des images des fichiers PDF.
Le code complet est le suivant :
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
// Set the IronPDF license key for commercial use
License.setLicenseKey("YOUR LICENSE KEY HERE");
// Read text from a specific page in an existing PDF
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
// Read all text from a PDF generated from a URL
pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
}
}
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
// Set the IronPDF license key for commercial use
License.setLicenseKey("YOUR LICENSE KEY HERE");
// Read text from a specific page in an existing PDF
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
// Read all text from a PDF generated from a URL
pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
}
}
Résumé
Cet article a expliqué comment ouvrir et lire des PDF en Java en using IronPDF.
IronPDF aide à créer facilement des PDF à partir de HTML ou d'URL et à convertir depuis différents formats de fichiers. Il aide également à réaliser rapidement et facilement les tâches PDF.
Essayez IronPDF pour 30 jours avec un essai gratuit et découvrez à quel point cela fonctionne bien pour vous en production. Explorez les options de licence commerciale pour IronPDF qui commencent seulement à partir de $999.
Questions Fréquemment Posées
Comment puis-je créer un lecteur PDF en Java ?
Vous pouvez créer un lecteur PDF en Java en using IronPDF en exploitant la méthode `fromFile` pour charger des documents PDF, puis en utilisant des méthodes comme `extractAllText` pour analyser et manipuler le contenu.
Quelles sont les étapes pour installer les prérequis pour utiliser IronPDF en Java ?
Pour utiliser IronPDF en Java, vous devez installer le Java Development Kit (JDK), configurer un Environnement de Développement Intégré (IDE) tel qu'Eclipse ou IntelliJ, configurer Maven pour la gestion des dépendances, et inclure la bibliothèque IronPDF dans votre projet.
Comment puis-je extraire du texte d'un fichier PDF en Java ?
Pour extraire du texte d'un fichier PDF en Java en using IronPDF, vous pouvez utiliser la méthode `extractAllText` pour récupérer le texte entier du document ou `extractTextFromPage` pour extraire le texte d'une page spécifique.
Puis-je générer un PDF à partir d'une URL en Java ?
Oui, avec IronPDF, vous pouvez générer un PDF à partir d'une URL en utilisant la méthode `renderUrlAsPdf`, qui convertit le contenu web en format PDF.
IronPDF prend-il en charge l'ajout de protection par mot de passe aux PDF en Java ?
Oui, IronPDF prend en charge l'ajout de protection par mot de passe aux PDF, ainsi que d'autres fonctionnalités comme la signature numérique, la fusion ou la division des documents.
Quels formats de fichier IronPDF peut-il convertir en PDF en Java ?
IronPDF peut convertir divers formats de fichiers en PDF, y compris HTML et d'autres formats de documents, offrant des options flexibles pour la génération et la manipulation de PDF.
Existe-t-il une version d'essai disponible pour IronPDF en Java ?
Oui, IronPDF propose un essai gratuit de 30 jours, vous permettant de tester ses fonctionnalités et d'évaluer ses performances dans vos applications Java avant d'acheter une licence.
Comment puis-je extraire du texte d'une page spécifique dans un document PDF en utilisant une bibliothèque Java ?
En using IronPDF, vous pouvez extraire du texte d'une page spécifique dans un PDF en utilisant la méthode `extractTextFromPage`, qui nécessite de spécifier le numéro ou la plage de pages.



