UTILISATION D'IRONPDF

Comment analyser un fichier PDF en VB.NET

Mise à jour mars 10, 2024
Partager:

Ce tutoriel présente comment extraire par programme des textes et des images à partir de fichiers PDF avec le support de première classe d'IronPDF.

IronPDF

Caractéristiques

Conversion PDF efficace. Presque tout ce qu'une machine peut faire, IronPDF le peut aussi. Grâce à cette bibliothèque PDF, les développeurs peuvent rapidement créer, lire du contenu textuel, écrire, charger et manipuler des PDF.

IronPDF convertit le HTML en un document PDF à l'aide du moteur Chrome. Ainsi que Windows Forms, HTML, ASPX, Razor HTML, .NET Core, ASP.NET, Windows Forms et WPF. IronPDF prend également en charge les applications Xamarin, Blazor, Unity et HoloLense. IronPDF prend en charge les applications Microsoft .NET et .NET Core(Les paquets Web ASP.NET et les paquets Windows conventionnels). IronPDF peut être utilisé pour créer des PDF esthétiques.

IronPDF peut créer un PDF en utilisant HTML5, JavaScript, CSS et des images. IronPDF dispose également d'un puissant convertisseur HTML-PDF qui s'intègre au PDF. IronPDF dispose d'un solide mécanisme de conversion PDF utilisant le moteur de rendu Chromium. Il n'est pas non plus connecté à des sources extérieures.

  • Une image PDF peut être créée à partir de diverses sources, notamment HTML, HTML5, ASPX et Razor/MVC View. Les fichiers HTML et les images peuvent être convertis en PDF.
  • Les outils qui peuvent être utilisés pour travailler avec des PDF interactifs sont les suivantsremplir et envoyer des formulaires interactifs.
  • Fusionner et diviser des PDF, extraire des textes et des images à partir de fichiers PDF, rechercher du texte dans des fichiers PDF,rastériser les PDF en images, de modifier la taille des polices et de convertir des fichiers PDF.
  • Il permet de vérifier les formulaires de connexion HTML à l'aide d'agents utilisateurs, de proxies, de cookies, d'en-têtes HTTP et de variables de formulaire.
  • IronPDF permet d'accéder à des documents sécurisés en donnant des noms d'utilisateur et des mots de passe.
  • IronPDF est un programme qui lit le texte dans les PDF et complète les lacunes.
  • Permet d'ajouter du texte, des images,signets, filigraneset bien d'autres choses encore.
  • Vous pouvez créer un fichier PDF à partir d'un fichier CSS.

    Pour plus d'informations, consultez le site suivantPage d'information sur les licences IronPDF pour une clé limitée gratuite et une version professionnelle.

    Comment analyser un fichier PDF en VB.NET, Figure 1 : IronPDF forPDF- Formatage des polices de caractères

    IronPDF- Formatage des polices

Extraire le texte d'un fichier PDF

IronPDF peut également lire et extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. Vous trouverez ci-dessous un modèle de code IronPDF qui peut être utilisé pour examiner les fichiers PDF présents.

Extraire le texte de toutes les pages

L'exemple de code ci-dessous démontre la première méthode pour acquérir tout le contenu du PDF en tant que chaîne de caractères en quelques lignes seulement.

Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
Imports IronPdf
Module Program
    Sub Main(args As String())
        Dim AllText As String
        Dim pdfdoc = PdfDocument.FromFile("result.pdf")
        AllText = pdfdoc.ExtractAllText()
        Console.WriteLine(AllText)
    End Sub
End Module
VB.NET

L'exemple de code ci-dessus montre comment utiliser la méthode FromFile pour lire un PDF à partir d'un fichier existant et le convertir en un objet document PDF. L'objet fournit une méthode appeléeExtraireToutTexte qui extrait le texte brut du PDF et le transforme en chaîne de caractères.

Extraire le texte par numéro de page

L'exemple de code ci-dessous montre comment extraire des données d'un fichier PDF en utilisant le numéro de page.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPage(0)
    Console.WriteLine(AllText)
End Sub
End Module
VB.NET

Le code ci-dessus montre comment lire un PDF à partir d'un fichier existant et le transformer en un objet document PDF à l'aide de la fonctionFromFile fonction. Cet objet permet d'accéder aux textes et aux images sur le PDF. L'objet propose une méthode appeléeExtraitTexteDePage qui permet d'envoyer un numéro de page comme paramètre pour obtenir une chaîne de caractères contenant tous les mots qui se trouvaient sur la page du PDF.

Extraire du texte entre les pages

Le code ci-dessous montre comment extraire les données entre plusieurs pages.

Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
Imports IronPdf
Module Program
Sub Main(args       As String())
    Dim Pages       As List(Of Integer) = New List(Of Integer)
    Pages.Add(3)
    Pages.Add(5)
    Pages.Add(7)
    Dim AllText     As String
    Dim pdfdoc = PdfDocument.FromFile("result.pdf")
    AllText = pdfdoc.ExtractTextFromPages(Pages)
    Console.WriteLine(AllText)

End Sub
End Module
VB.NET

Le code ci-dessus montre comment utiliser la méthode FromFile pour lire un PDF à partir d'un fichier existant et le convertir en un objet document PDF. Cet objet permet d'examiner le texte et les images en PDF. L'objet possède une méthode appeléeExtractTextFromPages (Extraire le texte des pages) qui peut être utilisé pour obtenir une chaîne de caractères comprenant tout le contenu textuel d'une page donnée du document en passant une liste de numéros de page en tant que paramètre. Ci-dessous, le côté gauche est le PDF source et le côté droit les données extraites.

Comment analyser un fichier PDF en VB.NET, Figure 2 : Extraire du texte entre les pages de sortie

Extraire le texte entre les pages

Extraire une image d'un fichier PDF

IronPDF fournit une liste de méthodes d'extraction d'images telles que :

Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
Dim pdfdoc = PdfDocument.FromFile("result.pdf")
Dim images = pdfdoc.ExtractRawImagesFromPage(1)
For Each            As Byte() In images
    Dim ms          As New IO.MemoryStream(CType(, Byte()))
    Dim image = New Bitmap(ms)
    image.Save("output//test.jpg")
Next
VB.NET

Le code ci-dessus montre comment lire un document à partir d'un fichier existant et le transformer en un objet document PDF à l'aide de la fonction FromFile. En passant une liste de numéros de page à la méthode ExtractRawImagesFromPage de l'objet, il est possible d'obtenir une liste d'octets contenant toutes les images présentes sur une page donnée du document. Utilisation d'une boucle foreach pour traiter chaque octet et le transformer en un flux de mémoire. Il est ensuite transformé en bitmap, ce qui facilite la sauvegarde de l'image. L'image ci-dessous montre le résultat du code ci-dessus.

Comment analyser un fichier PDF en VB.NET, Figure 3 : Extraire des images d'un fichier PDF

Extraire des images de la sortie PDF

Pour en savoir plus sur le tutoriel de code de l'API IronPDF, reportez-vous à la sectionDocumentation IronPDF. Vous pouvez également consulter d'autres tutoriels pour apprendre àanalyser le texte d'un PDF à l'aide de C#.

Conclusion

La licence de développement de la bibliothèque IronPDF est gratuite. Si IronPDF est utilisé dans un environnement de production, différentes licences peuvent être achetées en fonction des besoins du développeur. Le plan Lite commence à $749 et n'a pas de coûts permanents. Des alternatives de redistribution SaaS et OEM sont également proposées. Toutes les licences comprennent des mises à jour, un an d'assistance produit et une licence permanente. Ils sont également utiles pour la fabrication, la mise en place et le développement. Il s'agit d'un achat unique. D'autres licences gratuites et limitées dans le temps sont disponibles. Visitez le siteinformations complètes sur les licences IronPDF pour connaître tous les détails concernant les prix et les licences d'IronPDF. IronPDF fournit également des licences gratuites pour la protection contre la copie.

< PRÉCÉDENT
Comment désécuriser un PDF (Tutoriel pour débutants)
SUIVANT >
Comment convertir un PDF en JPG dans .NET