Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Les objets PDF vers texte dans Node.js sont une tâche courante dans de nombreuses applications Node.js, notamment lorsqu'il s'agit d'analyse de données, de systèmes de gestion de contenu ou même de simples utilitaires de conversion. Avec l'environnement Node.js et l'option Bibliothèque IronPDFles développeurs peuvent sans effort convertir des documents PDF en données textuelles utilisables. Ce tutoriel vise à guider les débutants dans le processus de mise en place d'un projet IronPDF for Node.js pour extraire du texte à partir de fichiers de pages PDF à l'aide d'IronPDF, en se concentrant sur des aspects clés tels que les détails de l'installation, la mise en œuvre de l'analyse syntaxique des PDF, la gestion des erreurs et les applications pratiques.
Installer la bibliothèque PDF en utilisant npm.3. Chargez les pages PDF dans l'application.
Avant de vous lancer dans cette aventure, assurez-vous de disposer des éléments suivants :
Créez un nouveau répertoire pour votre projet et lancez une application Node.js :
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'mkdir pdf-@to-text-node cd pdf-@to-text-node npm init -y
Installez IronPDF à l'aide de npm :
npm install ironpdf
npm install ironpdf
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'npm install ironpdf
import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
import
If True Then
PdfDocument
End If
from "@ironsoftware/ironpdf"
import
If True Then
IronPdfGlobalConfig
End If
from "@ironsoftware/ironpdf"
import fs from "fs"
Dans cette première étape, vous importez les modules nécessaires. PdfDocument et IronPdfGlobalConfig sont importés du paquet @ironsoftware/ironpdf, qui sont essentiels pour travailler avec des documents PDF et configurer IronPDF, respectivement. Le module fs, un module de base de Node.js, est également importé pour gérer les opérations du système de fichiers.
(async function createPDFs() {
// ...
})();
(async function createPDFs() {
// ...
})();
(async [function] createPDFs() { })()
Ici, une fonction anonyme asynchrone nommée créerPDF est définie et immédiatement invoquée. Cette configuration permet d'utiliser await dans la fonction, ce qui facilite la gestion des opérations asynchrones, qui sont courantes lorsqu'il s'agit d'E/S de fichiers et de bibliothèques externes comme IronPDF.
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = { licenseKey: "Your-License-Key"}
IronPdfGlobalConfig.setConfig(IronPdfConfig)
Dans cette étape, vous créez un objet de configuration pour IronPDF, y compris la clé de licence, et vous appliquez cette configuration en utilisant IronPdfGlobalConfig.setConfig. Ceci est crucial pour activer toutes les fonctionnalités d'IronPDF, en particulier si vous utilisez une version sous licence.
const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = Await PdfDocument.fromFile("report.pdf")
Dans cette étape, le code utilise correctement la méthode fromFile de la classe PdfDocument pour charger un document PDF existant. Il s'agit d'une opération asynchrone, d'où l'utilisation de await. En spécifiant le chemin d'accès à votre fichier PDF (dans ce cas, "old-report.pdf")la variable pdf devient une représentation de votre document PDF, entièrement chargé et prêt pour l'extraction de texte. Cette étape est cruciale car c'est là que le fichier PDF est analysé et préparé pour toutes les opérations que vous souhaitez effectuer, comme l'extraction de texte.
const text = await pdf.extractText();
const text = await pdf.extractText();
const text = Await pdf.extractText()
Ici, la méthode extractText est appelée sur l'objet pdf. Cette opération asynchrone extrait tout le texte du document PDF chargé et le stocke dans la variable text.
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length
console.log("Word Count:", wordCount)
Dans cette étape, le texte extrait est traité pour compter le nombre de mots. Pour ce faire, la chaîne de texte est divisée en un tableau de mots à l'aide d'une expression régulière correspondant à un ou plusieurs caractères d'espacement, puis la longueur du tableau obtenu est comptée.
fs.writeFileSync("extracted_text.txt", extractedText);
fs.writeFileSync("extracted_text.txt", extractedText);
fs.writeFileSync("extracted_text.txt", extractedText)
Cette ligne de code est destinée à enregistrer le texte extrait dans un fichier nommé texte_extrait.txt. Cependant, il semble y avoir une erreur : la variable extractedText n'est pas définie dans le code. Il doit s'agir de text, qui contient le texte extrait :
fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text)
Cette ligne corrigée utilise la méthode writeFileSync du module fs pour écrire de manière synchrone le texte extrait dans un fichier.
} catch (error) {
console.error("An error occurred:", error); //log error
}
} catch (error) {
console.error("An error occurred:", error); //log error
}
}
Catch e1 As [error]
console.error("An error occurred:", [error]) 'log error
End Try
Enfin, le code comprend un bloc try-catch pour la gestion des erreurs. Si une partie des opérations asynchrones dans le bloc try échoue, le bloc catch récupère l'erreur et le message est enregistré dans la console. C'est important pour le débogage et pour s'assurer que votre application peut gérer les problèmes inattendus avec élégance.
Vous trouverez ci-dessous le code complet qui encapsule toutes les étapes que nous avons abordées pour extraire du texte d'un document PDF à l'aide d'IronPDF for Node.js dans un environnement Node.js :
import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
(async function createPDFs() {
try {
// Input the license key
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
// Set the config with the license key
IronPdfGlobalConfig.setConfig(IronPdfConfig);
// Import existing PDF document
const pdf = await PdfDocument.fromFile("old-report.pdf");
// Get all text to put in a search index
const text = await pdf.extractText();
// Process the extracted text
// Example: Count words
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
// Save the extracted text to a text file
fs.writeFileSync("extracted_text.txt", text);
console.log("Extracted text saved to extracted_text.txt");
} catch (error) {
// Handle errors here
console.error("An error occurred:", error);
}
})();
import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
(async function createPDFs() {
try {
// Input the license key
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
// Set the config with the license key
IronPdfGlobalConfig.setConfig(IronPdfConfig);
// Import existing PDF document
const pdf = await PdfDocument.fromFile("old-report.pdf");
// Get all text to put in a search index
const text = await pdf.extractText();
// Process the extracted text
// Example: Count words
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
// Save the extracted text to a text file
fs.writeFileSync("extracted_text.txt", text);
console.log("Extracted text saved to extracted_text.txt");
} catch (error) {
// Handle errors here
console.error("An error occurred:", error);
}
})();
import
If True Then
PdfDocument
End If
from "@ironsoftware/ironpdf"
import
If True Then
IronPdfGlobalConfig
End If
from "@ironsoftware/ironpdf"
import fs from "fs"
(async [function] createPDFs() {
try {
const IronPdfConfig = { licenseKey:= "Your-License-Key"}; IronPdfGlobalConfig.setConfig(IronPdfConfig); const pdf = Await PdfDocument.fromFile("old-report.pdf"); const text = Await pdf.extractText(); const wordCount = text.split(/\s+/).length; console.log("Word Count:", wordCount); fs.writeFileSync("extracted_text.txt", text); console.log("Extracted text saved to extracted_text.txt");
}
catch ([error]) { console.error("An error occurred:", [error]); }
})()
Ce script comprend tous les éléments nécessaires à l'extraction de texte d'un fichier PDF : configuration d'IronPDF avec une clé de licence, chargement du document PDF, extraction du texte, réalisation d'une analyse de texte simple (le nombre de mots dans ce cas)le code est enveloppé dans une fonction asynchrone pour gérer la nature asynchrone des opérations de fichiers et du traitement des PDF dans Node js. Le code est enveloppé dans une fonction asynchrone pour gérer la nature asynchrone des opérations de fichiers et du traitement des PDF dans Node.js.
Une fois le script exécuté, vous obtiendrez deux éléments clés à analyser : le fichier PDF d'origine et le fichier texte contenant le texte extrait. Cette section vous aidera à comprendre et à évaluer les résultats du script.
Le fichier PDF que vous choisissez pour ce processus, dans ce cas, nommé "rapport-ancien.pdf", est le point de départ. Les documents PDF peuvent varier considérablement en complexité et en contenu. Ils peuvent contenir un texte simple et direct, ou être riches en images, tableaux et divers formats de texte. La structure et la complexité de votre PDF auront un impact direct sur le processus d'extraction.
Après l'exécution du script, un nouveau fichier texte nommé "texte_extrait.txt" sera créé. Ce fichier contient tout le texte qui a été extrait du document PDF.
Voici ce qui s'affiche sur la console :
L'extraction de texte à partir de PDF est particulièrement utile pour l'exploration et l'analyse de données. Qu'il s'agisse d'extraire des rapports financiers, des documents de recherche ou tout autre document PDF, la possibilité de convertir les PDF en texte est cruciale pour les tâches d'analyse de données.
Dans les systèmes de gestion de contenu, il est souvent nécessaire de gérer différents formats de fichiers. IronPDF peut être un élément clé d'un système de gestion, d'archivage et de récupération de contenu stocké au format PDF.
Ce guide complet vous a accompagné dans la mise en place d'un projet IronPDF for Node.js pour extraire du texte à partir de documents PDF à l'aide d'IronPDF. De la gestion de l'extraction de texte de base à la plongée dans des fonctionnalités plus complexes telles que l'extraction d'objets textuels et l'optimisation des performances, vous disposez désormais des connaissances nécessaires pour mettre en œuvre une extraction de texte PDF efficace dans vos applications Node.js.
N'oubliez pas que le voyage ne s'arrête pas là. Le domaine du traitement des PDF et de l'extraction de texte est vaste, avec de nombreuses caractéristiques et techniques à explorer. Relevez le défi et continuez à améliorer vos compétences dans ce domaine passionnant qu'est le développement de logiciels.
Il est intéressant de noter qu'IronPDF propose un service de essai gratuit pour que les utilisateurs puissent explorer ses capacités. Pour ceux qui souhaitent intégrer IronPDF dans un cadre professionnel, la licence commence à partir de $749.
9 produits de l'API .NET pour vos documents de bureau