Extraire le texte d'un PDF
Dans le cadre de la vaste collection de fonctions de création et d'édition de PDF d'IronPDF, IronPDF facilite également le traitement granulaire du contenu d'un document PDF grâce à ses méthodes d'extraction de contenu.
Disponible sur tous les objets PdfDocument
est la méthode extractAllText
. La String
que retourne extractAllText
contient tout le texte présent sur chaque page du PDF.
Cette méthode est un moyen pratique d'extraire du texte au niveau du document à partir de PDF contenant de nombreuses pages. Pour extraire du texte au niveau de la page (c'est-à-dire, juste à partir d'un ensemble spécifique de pages), utilisez plutôt la méthode extractTextFromPage
.
Le bref extrait de code ci-dessous extrait le texte de la première page d'un document PDF.
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
Comment extraire du texte d'un fichier PDF en Java ?
- Installer la bibliothèque Java IronPDF pour l'extraction de texte PDF
- Importation d'un document PDF ciblé ou rendu à partir d'une URL en Java
- Utilisez la méthode
extractAllText
pour extraire du texte à partir de PDF - Utilisez la méthode
extractTextFromPage
pour effectuer l'extraction sur une page spécifique - Extraire du texte sans affecter le PDF original