Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
PDF (EN ANGLAIS)(Format de document portable) sont largement utilisés pour l'échange de documents, et la possibilité de lire leur contenu de manière programmatique est précieuse dans diverses applications. Les bibliothèques suivantes sont disponibles pour lire les PDF en C# : Poppler, Mupdf, Haru free PDF library, Xpdf, et Qpdf.
Dans cet article, nous allons explorer comment lire des fichiers PDF en C++ à l'aide de l'outil de ligne de commande Xpdf. Xpdf fournit une série d'utilitaires pour travailler avec des fichiers PDF, y compris l'extraction du contenu textuel. En intégrant Xpdf dans un programme C#, nous pouvons extraire le texte des fichiers PDF et le traiter par programme.
Xpdf est une suite logicielle open-source qui fournit une collection d'outils et de bibliothèques pour travailler avec des fichiers PDF(Format de document portable) des dossiers. La suite Xpdf comprend plusieurs utilitaires en ligne de commande et des bibliothèques C++ qui permettent de réaliser diverses fonctionnalités liées au PDF, telles que l'analyse, le rendu, l'extraction de texte, etc. Parmi les composants clés de Xpdf figurent pdfimages, pdftops, pdfinfo et pdfimages. Ici, nous allons utiliser pdftotext
pour lire des documents PDF.
pdftotext
est un outil en ligne de commande qui extrait le contenu textuel des fichiers PDF et le restitue sous forme de texte brut. Cet outil est particulièrement utile lorsqu'il s'agit d'extraire les informations textuelles des PDF pour les traiter ou les analyser ultérieurement. Les options vous permettent également de spécifier la ou les pages à partir desquelles le texte doit être extrait.
Pour qu'un projet de lecteur PDF puisse extraire du texte, il faut que les conditions suivantes soient réunies :
Un compilateur C++ tel que GCC ou Clang installé sur votre système. Vous pouvez utiliser n'importe quel IDE qui prend en charge la programmation C#.
Tout d'abord, ajoutons les fichiers d'en-tête nécessaires dans notre fichier main.cpp en haut :
#include <cstdlib>
#include <iostream>
#include <fstream>
#include <cstdlib>
#include <iostream>
#include <fstream>
Écrivons le code C# qui invoque l'outil de ligne de commande Xpdf pour extraire le contenu textuel du document PDF. Nous allons utiliser le fichier input.pdf suivant :
L'exemple de code est le suivant :
// Include C library
#include <cstdlib>
#include <iostream>
#include <fstream>
#include <cstdio>
using namespace std;
int main() {
string pdfPath = "input.pdf";
string outputFilePath = "output.txt";
string command = "pdftotext " + pdfPath + " " + outputFilePath;
int status = system(command.c_str());
if (status == 0) {
cout << "Text extraction successful." << endl;
} else {
cout << "Text extraction failed." << endl;
return 1;
}
ifstream outputFile(outputFilePath);
if (outputFile.is_open()) {
string textContent;
string line;
while (getline(outputFile, line)) {
textContent += line + "\n";
}
outputFile.close();
cout << "Text content extracted from PDF document:" << endl;
cout << textContent << endl;
} else {
cout << "Failed to open output file." << endl;
return 1;
}
return 0;
}
// Include C library
#include <cstdlib>
#include <iostream>
#include <fstream>
#include <cstdio>
using namespace std;
int main() {
string pdfPath = "input.pdf";
string outputFilePath = "output.txt";
string command = "pdftotext " + pdfPath + " " + outputFilePath;
int status = system(command.c_str());
if (status == 0) {
cout << "Text extraction successful." << endl;
} else {
cout << "Text extraction failed." << endl;
return 1;
}
ifstream outputFile(outputFilePath);
if (outputFile.is_open()) {
string textContent;
string line;
while (getline(outputFile, line)) {
textContent += line + "\n";
}
outputFile.close();
cout << "Text content extracted from PDF document:" << endl;
cout << textContent << endl;
} else {
cout << "Failed to open output file." << endl;
return 1;
}
return 0;
}
Dans le code ci-dessus, nous définissons la variable pdfPath
pour contenir le chemin vers le fichier PDF d'entrée. Veillez à remplacer cette variable par le chemin approprié vers votre document PDF d'entrée.
Nous définissons également la variable outputFilePath
qui contient le chemin vers le fichier texte de sortie qui sera généré par Xpdf.
Le code exécute la commande pdftotext
à l'aide de la fonction system
, en passant le chemin du fichier PDF d'entrée et le chemin du fichier texte de sortie comme arguments de ligne de commande. La variable status
indique le statut de sortie de la commande.
Si pdftotext
s'exécute avec succès(indiqué par un état de 0)nous ouvrons ensuite le fichier texte de sortie en utilisant ifstream
. Nous lisons ensuite le contenu du texte ligne par ligne et le stockons dans la chaîne textContent
.
Enfin, nous envoyons le contenu du texte extrait à la console à partir du fichier de sortie généré. Si vous n'avez pas besoin du fichier texte de sortie éditable ou si vous souhaitez libérer de l'espace disque, à la fin du programme, supprimez-le simplement à l'aide de la commande suivante avant de terminer la fonction principale :
remove(outputFilePath.c_str());
remove(outputFilePath.c_str());
Compilez le code C# et exécutez l'exécutable. Si pdftotext
est ajouté au chemin système des variables d'environnement, sa commande s'exécutera avec succès. Le programme génère le fichier texte de sortie et extrait le contenu textuel du document PDF. Le texte extrait est ensuite affiché sur la console.
Présentation de la bibliothèque IronPDF C# est une bibliothèque PDF C# populaire qui offre de puissantes fonctionnalités pour travailler avec des documents PDF. Il permet aux développeurs de créer, d'éditer, de modifier et de lire des fichiers PDF de manière programmatique.
La lecture de documents PDF à l'aide de la bibliothèque IronPDF est un processus simple. La bibliothèque propose diverses méthodes et propriétés qui permettent aux développeurs d'extraire du texte, des images, des métadonnées et d'autres données des pages PDF. Les informations extraites peuvent être utilisées pour un traitement, une analyse ou un affichage ultérieur au sein de l'application.
L'exemple de code suivantutiliser IronPDF pour lire les fichiers PDF:
// Rendering PDF documents to Images or Thumbnails
using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string text = pdf.ExtractAllText();
// Get all Images
var allImages = pdf.ExtractAllImages();
// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
int pageNumber = index + 1;
text = pdf.ExtractTextFromPage(index);
List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
//...
}
// Rendering PDF documents to Images or Thumbnails
using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string text = pdf.ExtractAllText();
// Get all Images
var allImages = pdf.ExtractAllImages();
// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
int pageNumber = index + 1;
text = pdf.ExtractTextFromPage(index);
List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
//...
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
Pour obtenir des informations plus détaillées sur la lecture des documents PDF, veuillez consulter la page d'accueil du site Web de la Commission européenneGuide de lecture IronPDF C# PDF.
Dans cet article, nous avons appris à lire le contenu d'un document PDF en C# à l'aide de l'outil de ligne de commande Xpdf. En intégrant Xpdf dans un programme C#, nous pouvons extraire par programme le contenu textuel des fichiers PDF en une seconde. Cette approche nous permet de traiter et d'analyser le texte extrait au sein de nos applications C#.
Explorer IronPDF est une puissante bibliothèque C# qui facilite la lecture et la manipulation des fichiers PDF. Ses fonctionnalités étendues, sa facilité d'utilisation et son moteur de rendu fiable en font un choix populaire pour les développeurs qui travaillent avec des documents PDF dans leurs projets C# ;.
IronPDF est gratuit pour le développement et fournit uneessai gratuit pour un usage commercial. En outre, il doit êtresous licence à des fins commerciales.
9 produits de l'API .NET pour vos documents de bureau