Extraire le texte d'un PDF

Dans le cadre de la vaste collection de fonctions de création et d'édition de PDF d'IronPDF, IronPDF facilite également le traitement granulaire du contenu d'un document PDF grâce à ses méthodes d'extraction de contenu.

La méthode extractAllText est disponible pour tous les objets PdfDocument. La chaîne renvoyée par extractAllText contient tout le texte contenu dans chaque page du PDF.

Cette méthode est un moyen pratique d'extraire du texte au niveau du document à partir de PDF contenant de nombreuses pages. Pour extraire du texte au niveau d'une page(c.-à-d. à partir d'un ensemble spécifique de pages)utilisez plutôt la méthode extractTextFromPage.

Le bref extrait de code ci-dessous extrait le texte de la première page d'un document PDF.

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA