Comment extraire le texte intégré et les images depuis des PDFs en utilisant C#

Extraire du texte et des images incorporés dans des PDF en C#

This article was translated from English: Does it need improvement?
Translated
View the article in English

Extrayez à la fois le contenu textuel et les images des documents PDF en C# à l'aide d'appels de méthodes simples. Récupérer le contenu intégré pour l'éditer, l'analyser ou le réutiliser dans d'autres applications.

L'extraction de texte et d'image permet de récupérer le contenu textuel et les éléments graphiques des documents PDF. Accédez au contenu et réutilisez-le pour l'édition, la recherche, la conversion de texte dans d'autres formats ou l'enregistrement d'images en vue de leur réutilisation. Que vous ayez besoin d'parser des PDF en C# pour l'analyse de données, de convertir du contenu dans des formats de recherche ou d'extraire des éléments visuels pour l'archivage, IronPDF fournit des outils d'extraction complets.

Extrayez du texte et des images à l'aide d'IronPDF. Enregistrez les images extraites sur le disque ou convertissez-les dans un autre format avant de les intégrer dans de nouveaux documents. Cette flexibilité prend en charge les flux de travail nécessitant une transformation du contenu, tels que la conversion de PDF en HTML ou la réaffectation d'images extraites.

Démarrage rapide : extraction de texte et d'images avec IronPdf

Extrayez du texte et des images à partir de PDF en quelques lignes de code seulement. Ce quickstart montre comment récupérer du contenu incorporé dans des documents PDF à des fins de réutilisation et d'analyse du contenu. Extrayez du texte pour l'éditer ou enregistrez des images pour une utilisation ultérieure avec la solution rationalisée d'IronPDF.

Nuget IconCommencez dès maintenant à créer des PDF avec NuGet :

  1. Installez IronPDF avec le gestionnaire de packages NuGet

    PM > Install-Package IronPdf

  2. Copiez et exécutez cet extrait de code.

    var pdf = new IronPdf.PdfDocument("sample.pdf");  
    string text = pdf.ExtractAllText();  
    var images = pdf.ExtractAllImages();
  3. Déployez pour tester sur votre environnement de production.

    Commencez à utiliser IronPDF dans votre projet dès aujourd'hui grâce à un essai gratuit.
    arrow pointer


Comment extraire du texte d'un fichier PDF?

Extraire du texte à partir de documents PDF existants ou nouvellement rendus. Utilisez la méthode ExtractAllText pour extraire le texte incorporé du document. La méthode renvoie une chaîne contenant tout le texte du PDF. Les pages sont séparées par quatre caractères de retour à la ligne consécutifs. Cet exemple utilise un exemple de PDF rendu à partir du site web de Wikipedia.

Lorsque vous travaillez avec des PDF contenant des langues internationales et des caractères UTF-8, IronPDF conserve un codage et une représentation des caractères corrects. Cela garantit l'affichage correct des scripts non latins et des caractères spéciaux.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs  
$vbLabelText   $csharpLabel
Vue côte à côte de la page Wikipédia et du texte brut extrait montrant le processus d'extraction de texte

Comment extraire du texte avec des coordonnées précises?

Récupérer les coordonnées des lignes de texte et des caractères dans chaque page PDF. Sélectionnez une page du PDF et accédez aux propriétés Lines et Characters. Les coordonnées comprennent les valeurs Top, Right, Bottom et Left représentant la position du texte. Cette fonction préserve la disposition spatiale et permet l'analyse de la position du texte.

Pour les développeurs qui ont besoin de lire des fichiers PDF en C# avec une conscience de la position, l'extraction de coordonnées fournit des données pour maintenir la structure du document et mettre en œuvre une analyse de texte avancée.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs  
$vbLabelText   $csharpLabel
Écran partagé montrant la page principale de Wikipédia et le fichier texte extrait avec les coordonnées Y affichant le contenu analysé

Comment extraire des images d'un PDF?

Utilisez la méthode ExtractAllImages pour extraire toutes les images intégrées au document. La méthode renvoie les images sous la forme d'une liste d'objets AnyBitmap. À partir du même document, nous avons extrait des images et les avons exportées dans le dossier "images". Cette fonctionnalité prend en charge l'archivage d'images, la migration de contenu et le tramage de pages PDF en images en vue d'un traitement ultérieur.

Les images extraites conservent leur qualité d'origine et peuvent être enregistrées dans différents formats, notamment PNG, JPEG et BMP. Pour les flux de travail de stockage dans le cloud, intégrez cette fonctionnalité avec Azure Blob Storage pour la gestion des images.

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs  
:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs  
$vbLabelText   $csharpLabel
Explorateur de fichiers montrant 19 images PNG extraites dans la vue des vignettes après avoir lancé l'outil d'extraction d'images

Quelles sont les différentes méthodes d'extraction d'images ? Au-delà de la méthode `ExtractAllImages`, utilisez les méthodes `ExtractAllBitmaps` et `ExtractAllRawImages` pour extraire des informations sur les images. Alors que `ExtractAllBitmaps` renvoie une liste de `AnyBitmap`, `ExtractAllRawImages` extrait toutes les images et les renvoie sous forme de tableaux d'octets bruts (`byte[]`). La méthode `ExtractAllRawImages` fonctionne bien lors du traitement de données d'image en mémoire ou de l'intégration avec des systèmes nécessitant des entrées sous forme de tableaux d'octets. Pour les scénarios impliquant [l'exportation de PDF vers des flux de mémoire](https://ironpdf.com/how-to/pdf-to-memory-stream/), le format de tableau d'octets brut offre une flexibilité optimale.
## Comment extraire le contenu de pages PDF spécifiques? Extraction de texte et d'images à partir d'une ou de plusieurs pages spécifiées. Utilisez les méthodes `ExtractTextFromPage` et `ExtractTextFromPages` pour extraire du texte d'une ou de plusieurs pages. Pour les images, utilisez les méthodes `ExtractImagesFromPage` et `ExtractImagesFromPages`. Ce contrôle granulaire est utile lorsque l'on travaille avec des documents volumineux dont seules des sections spécifiques contiennent un contenu pertinent. Elle prend également en charge les fonctionnalités permettant de [séparer les PDF et d'extraire des pages individuelles](https://ironpdf.com/examples/split-pdf-pages-csharp/) en vue d'un traitement séparé. ```csharp :path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs ``` ### Quand dois-je extraire des pages spécifiques plutôt que toutes les pages? Extraire des pages spécifiques lorsque : - Travailler avec des PDF volumineux contenant des données pertinentes dans certaines sections - Mise en œuvre de flux de travail qui traitent les pages de manière indépendante - Construire des applications nécessitant un affichage ou un traitement incrémentiel du contenu - Optimiser l'utilisation de la mémoire en ne traitant que les pages nécessaires - Création d'une fonctionnalité de recherche ou d'indexation spécifique à une page

Quelles sont les considérations en matière de performances à prendre en compte ? Tenez compte des facteurs de performance suivants lors de l'extraction de contenu PDF : - **Utilisation de la mémoire** : Extraire des pages individuellement à partir de documents volumineux afin de minimiser la consommation de mémoire - **Temps de traitement** : Utiliser le traitement parallèle pour les extractions de plusieurs pages, le cas échéant - : Les PDF plus volumineux contenant des images à haute résolution nécessitent un temps de traitement plus long - **Stockage** : Prévoir un espace disque suffisant pour l'extraction de nombreuses images en haute résolution - **Threading** : IronPDF prend en charge les opérations multithreading pour améliorer les performances sur les systèmes multicœurs Pour des performances optimales avec les PDF en mémoire, utilisez [les opérations de flux en mémoire](https://ironpdf.com/how-to/pdf-memory-stream/) pour réduire la surcharge d'E/S sur disque.

Questions Fréquemment Posées

Comment extraire du texte de documents PDF en C# ?

Utilisez la méthode ExtractAllText d'IronPDF pour extraire le texte incorporé dans les documents PDF. La méthode renvoie une chaîne contenant tout le texte du PDF, les pages étant séparées par quatre caractères de retour à la ligne consécutifs. IronPDF maintient un encodage correct pour les langues internationales et les caractères UTF-8.

Puis-je extraire des images de fichiers PDF par programmation ?

Oui, IronPDF propose la méthode ExtractAllImages pour extraire les éléments graphiques des documents PDF. Vous pouvez enregistrer les images extraites sur le disque ou les convertir dans d'autres formats avant de les incorporer dans de nouveaux documents.

Quels sont les principaux cas d'utilisation de l'extraction de contenu PDF ?

Les outils d'extraction d'IronPDF prennent en charge divers flux de travail, notamment l'analyse des PDF pour l'analyse des données, la conversion du contenu en formats consultables, l'extraction d'éléments visuels pour l'archivage et la réaffectation du contenu pour l'édition ou la transformation dans d'autres formats tels que HTML.

Combien de lignes de code faut-il pour extraire le contenu d'un PDF ?

Avec IronPDF, vous pouvez extraire du texte et des images en quelques lignes de code seulement. Il vous suffit de charger votre document PDF et d'appeler ExtractAllText() pour l'extraction de texte ou ExtractAllImages() pour l'extraction d'images.

Puis-je extraire le contenu de certaines pages plutôt que du document entier ?

Oui, IronPDF vous permet de spécifier des pages particulières à partir desquelles extraire du texte et des images, ce qui vous donne un contrôle précis sur le contenu à extraire de vos documents PDF.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite
Prêt à commencer?
Nuget Téléchargements 17,012,929 | Version : 2025.12 vient de sortir