using IronPdf;
// Disable local disk access or cross-origin requests
Installation.EnableWebSecurity = true;
// Instantiate Renderer
var renderer = new ChromePdfRenderer();
// Create a PDF from a HTML string using C#
var pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>");
// Export to a file or Stream
pdf.SaveAs("output.pdf");
// Advanced Example with HTML Assets
// Load external html assets: Images, CSS and JavaScript.
// An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
var myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", @"C:\site\assets\");
myAdvancedPdf.SaveAs("html-with-assets.pdf");
itext7 Extraire du texte d'un PDF vs IronPDF (Tutoriel d'exemple de code)
Kannapat Udonpant
février 2, 2023
Partager:
Votre entreprise dépense trop pour des abonnements annuels de sécurité et de conformité des PDF. Considérer IronSecureDoc, qui propose des solutions pour la gestion des services SaaS comme la signature numérique, la rédaction, le cryptage et la protection, le tout pour un paiement unique. Explorer la documentation d'IronSecureDoc
Dans ce tutoriel, nous allons apprendre à lire des données à partir d'un PDF(Format de document portable) en C# avec des exemples utilisant deux outils différents.
Il existe de nombreuses bibliothèques/lecteurs d'analyseurs en ligne qui peuvent extraire du texte et des images des PDF. Nous allons extraire des informations d'un fichier PDF en utilisant les deux bibliothèques les plus utiles et les plus performantes avec des services pertinents à ce jour. Nous comparerons également les deux bibliothèques afin de déterminer laquelle est la meilleure.
Nous comparerons iText 7 et IronPDF. Avant de poursuivre, nous allons présenter les deux bibliothèques.
iText 7
la bibliothèque iText 7 est la dernière version de iTextSharp. Elle est utilisée dans les applications .NET et Java. Il est équipé d'un moteur de documents(comme Adobe Acrobat Reader)il offre des capacités de programmation de haut et de bas niveau, un récepteur d'événements et des capacités d'édition de fichiers PDF. iText 7 peut créer, éditer et améliorer les pages des documents PDF sans aucune erreur. Les autres fonctionnalités comprennent l'ajout de mots de passe, la création de stratégies d'encodage et l'enregistrement d'options d'autorisation dans un document PDF. Il permet également d'ajouter ou de modifier le contenu ou les images du canevas, d'ajouter des éléments au format PDF[dictionnaires, etc]vous pouvez également créer des filigranes et des signets, modifier la taille des polices et signer des données sensibles.
iText 7 nous permet de créer des applications de traitement PDF personnalisées pour le web, le mobile, le bureau, le noyau ou les applications cloud en .NET.
IronPDF
IronPDF est une bibliothèque développée par Iron Software qui aide les ingénieurs logiciels C# et Java à créer, modifier et extraire du contenu PDF. Il est couramment utilisé pour générer des PDF à partir de HTML, de pages web ou d'images. Il permet de lire les PDF et d'en extraire le texte. Parmi les autres fonctionnalités, citons l'ajout d'en-têtes/pieds de page, de signatures, de pièces jointes, de mots de passe et de questions de sécurité. Il offre une optimisation complète des performances grâce à ses fonctionnalités multithreading et asynchrones.
IronPDF bénéficie d'une compatibilité multiplateforme avec .NET 5, .NET 6 et .NET 7, .NET Core, Standard et Framework. Il est également compatible avec Windows, macOS, Linux, Docker, Azure et AWS.
Voyons maintenant une démonstration pour chacun d'entre eux.
Extraire le texte d'un fichier PDF à l'aide d'iText 7
Nous utiliserons le fichier PDF suivant pour extraire le texte du PDF.
IronPDF
Ecrivez le code source suivant pour extraire du texte en utilisant iText 7.
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
{
var pageNumbers = document.GetNumberOfPages();
for (int page = 1; page <= pageNumbers; page++)
{
//new LocationTextExtractionStrategy creates a new text extraction renderer
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(document.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
Console.WriteLine(pageText.ToString());
}
//assign PDF location to a string and create new StringBuilder...
string pdfPath = @"D:/TestDocument.pdf";
var pageText = new StringBuilder();
//read PDF using new PdfDocument and new PdfReader...
using (PdfDocument document = new PdfDocument(new PdfReader(pdfPath)))
{
var pageNumbers = document.GetNumberOfPages();
for (int page = 1; page <= pageNumbers; page++)
{
//new LocationTextExtractionStrategy creates a new text extraction renderer
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(document.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
Console.WriteLine(pageText.ToString());
}
'assign PDF location to a string and create new StringBuilder...
Dim pdfPath As String = "D:/TestDocument.pdf"
Dim pageText = New StringBuilder()
'read PDF using new PdfDocument and new PdfReader...
Using document As New PdfDocument(New PdfReader(pdfPath))
Dim pageNumbers = document.GetNumberOfPages()
For page As Integer = 1 To pageNumbers
'new LocationTextExtractionStrategy creates a new text extraction renderer
Dim strategy As New LocationTextExtractionStrategy()
Dim parser As New PdfCanvasProcessor(strategy)
parser.ProcessPageContent(document.GetFirstPage())
pageText.Append(strategy.GetResultantText())
Next page
Console.WriteLine(pageText.ToString())
End Using
Texte extrait
Maintenant, extrayons du texte d'un PDF à l'aide d'IronPdf.
Extraire du texte de documents PDF à l'aide d'IronPDF
Le code source suivant illustre l'exemple d'extraction de texte à partir d'un fichier PDF à l'aide d'IronPDF.
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
var pdf = PdfDocument.FromFile(@"D:/TestDocument.pdf");
string text = pdf.ExtractAllText();
Console.WriteLine(text);
Dim pdf = PdfDocument.FromFile("D:/TestDocument.pdf")
Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)
Texte extrait à l'aide d'IronPDF
Comparaison
Avec IronPDF, il faut deux lignes pour extraire le texte des PDF. Avec iText 7, en revanche, nous devons écrire environ 10 lignes de code pour la même tâche.
IronPDF propose des méthodes d'extraction de texte très pratiques ; mais iText 7 nous oblige à écrire notre propre logique pour effectuer la même tâche.
IronPDF est efficace en termes de performances et de lisibilité du code.
Les deux bibliothèques sont égales en termes de précision, puisqu'elles fournissent toutes deux des résultats précis à 100 %.
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier