Lire les fichiers PDF en C#

string(19) "Cliquez pour copier"

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

Lire les fichiers PDF en C#

L'extraction de texte et d'images peut faciliter la migration de données lors de la transition d'un format de document à un autre. Le contenu extrait peut être préservé dans un format plus accessible et éditable, réduisant le risque de perte de données.

Les images et le texte intégrés peuvent être extraits indépendamment du document PDF. Le texte extrait sera sous forme de chaîne normale, tandis que les images extraites seront en format de mémoire tampon d'image et peuvent ensuite être exportées ou traitées davantage.

Utilisez la méthode extractText pour extraire du texte et la méthode extractRawImages pour extraire des images d'un document PDF.

Voici un exemple corrigé et commenté de la façon dont vous pouvez le faire :

Dans le code C# ci-dessus :

Nous utilisons la bibliothèque IronPDF pour charger un document PDF.
ExtractText() La méthode est invoquée pour récupérer le texte du PDF. Ce texte est affiché dans la console.
ExtractImages() La méthode est utilisée pour extraire des images, qui sont stockées dans des tableaux d'octets. Chaque image est ensuite enregistrée dans le système de fichiers avec un nom de fichier spécifié.

Pour des instructions plus détaillées sur l'utilisation de ces méthodes, visitez la Documentation de IronPDF.

En savoir plus sur la lecture de textes PDF avec IronPDF