Lire des fichiers PDF en C#
La méthode PdfDocument.ExtractAllText
de la bibliothèque PDF IronPDF C# est parfaite pour les tâches de lecture de texte de PDF vanille. Cette méthode permet de traiter sans problème les espaces blancs et les divergences de codage dans les documents PDF source.
PdfDocument.ExtractTextFromPage
lit le texte de pages spécifiques d'un PDF. Dans l'exemple ci-dessus, il est utilisé de manière itérative pour extraire le contenu textuel d'une série spécifique de pages.
IronPDF peut également extraire des images brutes des PDF. Pour cela, utilisez l'une des méthodes de la classe PdfDocument
ci-dessous :
ExtractAllImages
: renvoie toutes les images incorporées dans un PDF en tant qu'objetsIronSoftware.Drawing.AnyBitmap
.ExtractAllRawImages
: récupère toutes les images intégrées sous la forme d'une liste d'octets bruts (byte []
).ExtractImagesFromPage
: extrait les images contenues dans une page indexéeExtractImagesFromPages
: la même chose queExtractImagesFromPage
, mais à partir d'une plage de pages spécifique ou d'une liste de pages individuelles.ExtractRawImagesFromPage
etExtractRawImagesFromPages
: fonctionne de la même manière que les deux méthodes précédentes, mais renvoie les images extraites sous forme de tableaux d'octets au lieu d'objetsIronSoftware.Drawing.AnyBitmap
.Comment lire les fichiers PDF en C# ;
- Télécharger Lire et écrire des PDF Bibliothèque C#
- Extraire des images ou du texte d'un PDF
- Lire et trouver des mots dans des documents spécifiques
- Visualiser la sortie PDF de votre document d'origine