Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Ce guide montrera les nuances de l'utilisation d'IronPDF pour extraire séquentiellement du texte à partir de documents PDF en Python. Cela couvrira tout, de la configuration de votre environnement Python à l'exécution de votre premier programme Python pour l'extraction de texte PDF.
Téléchargez et installez la bibliothèque PDF à l'aide de Python pour extraire le texte de la ligne du fichier PDF.
Créez un projet Python dans votre IDE préféré.
Charger le fichier PDF souhaité pour en extraire le contenu textuel.
Parcourez le PDF en boucle et extrayez le texte séquentiellement à l'aide de la fonction de la bibliothèque intégrée.
IronPDF est un outil pratique qui vous permet de travailler avec des fichiers PDF en Python. Il s'agit d'un assistant utile qui rend la lecture, la création et l'édition de fichiers PDF accessibles. Que vous souhaitiez extraire le contenu d'un document PDF, y inclure de nouvelles informations ou transformer une page web au format PDF, IronPDF propose des solutions complètes. Il s'agit d'un logiciel payant, mais une version d'essai est proposée pour vous permettre de l'explorer avant de l'acheter.
Avant de plonger dans le script, il est essentiel de configurer votre environnement Python. Ce guide étape par étape vous aidera à configurer votre environnement, à créer un nouveau projet Python dans Visual Studio Code et à configurer l'environnement de la bibliothèque IronPDF for Python.
Téléchargez et installez Python : Si vous n'avez pas installé Python, téléchargez la version la plus récente à partir du site Web de lsite officiel de Python. Suivez les instructions d'installation de votre système d'exploitation.
Vérifier l'installation de Python : Ouvrez votre terminal ou votre invite de commande et tapez python --version. Cette commande devrait afficher la version de Python installée, confirmant ainsi que l'installation s'est déroulée correctement.
Mise à jour de pip : Pip est l'installateur de paquets Python. Assurez-vous qu'il est à jour en exécutant pip install --upgrade pip.
Téléchargez Visual Studio Code : Si vous ne l'avez pas, téléchargez-le depuis lesite web officiel.
Installer l'extension Python : Ouvrez Visual Studio Code et rendez-vous sur la place de marché des extensions. Recherchez l'extension Python de Microsoft et installez-la.
Créer un nouveau dossier : Créez un nouveau dossier dans lequel vous souhaitez héberger votre projet Python. Donnez-lui un nom pertinent, comme PDF_Text_Extractor.
Ouvrez le dossier dans VS Code : Faites glisser le dossier dans Visual Studio Code ou utilisez l'option de menu Fichier > Ouvrir le dossier pour ouvrir le dossier.
Créer un fichier Python : Cliquez avec le bouton droit de la souris dans le panneau VS Code Explorer et choisissez Nouveau fichier. Nommez le fichier main.py ou quelque chose de similaire. Ce fichier contiendra votre programme Python.
Créer un nouveau fichier Python dans Visual Studio Code
IronPDF est indispensable pour récupérer le contenu textuel des PDF. Voici comment l'installer :
Ouvrir le terminal dans VS Code : Vous pouvez ouvrir un terminal à l'intérieur de VS Code en allant dans Terminal > Nouveau terminal.
Installer IronPDF : Dans le terminal, exécutez ce qui suit pour installer la dernière version d'IronPDF :
pip install ironpdf
Ce processus récupère et installe la bibliothèque IronPDF ainsi que tous les modules nécessaires.
Installer le package IronPDF
Et voilà! Vous avez maintenant configuré avec succès votre environnement Python, créé un nouveau projet dans Visual Studio Code et installé la bibliothèque IronPDF for Python.
Avant de continuer, assurez-vous d'appliquer votre clé de licence IronPDF.
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
Remplacez "VOTRE-CLÉ DE LICENCE" par votre véritable clé de licence IronPDF. Cette licence vous permet de débloquer toutes les fonctionnalités de la bibliothèque pour votre projet.
Vous devez charger un fichier PDF existant dans votre programme Python. Vous pouvez y parvenir avec la méthode PdfDocument.FromFile
d'IronPDF.
pdfFileObj = PdfDocument.FromFile("content.pdf")
"content.pdf" fait référence au fichier PDF que vous souhaitez lire. Ce fichier PDF chargé est stocké dans la variable pdfFileObj
, utilisée comme un lecteur PDF ou l'objet fichier PDF pdfFileObj
.
Si vous souhaitez récupérer toutes les données textuelles du fichier PDF en une seule fois, vous pouvez utiliser la méthode ExtractAllText
.
all_text = pdfFileObj.ExtractAllText()
La méthode ExtractAllText
est utilisée ici à des fins de démonstration. Cette méthode extrait tout le texte du fichier PDF et le stocke dans une variable appelée all_text
.
IronPDF permet l'extraction de texte à partir d'une page spécifique en utilisant la méthode ExtractTextFromPage
. Cette méthode est utile lorsque vous n'avez besoin que du texte de certaines pages.
page_2_text = pdfFileObj.ExtractTextFromPage(1)
Ici, nous extrayons le texte de la deuxième page, correspondant à un index de 1.
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
Ouvrez un fichier nommé "extracted_text.txt" pour enregistrer les données textuelles. La fonction intégrée open
de Python est utilisée pour cela, en définissant le mode de fichier sur "écriture".("w "). Il suffit d'ajouter encoding='utf-8'
comme argument à la fonction open
. Cette fonction doit permettre au document texte de gérer les caractères Unicode comme celui que vous rencontrez.
for i in range(0, pdfFileObj.get_Pages().Count):
Le code ci-dessus parcourt chaque page du fichier PDF en utilisant la méthode get_Pages
d'IronPDF.().Count` pour obtenir le nombre total de pages.
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
Pour chaque page, la méthode ExtractTextFromPage
est utilisée pour obtenir tout le texte, puis utiliser la méthode split
de Python pour le découper en lignes. Cela se traduit par une liste de lignes qui peuvent être parcourues en boucle.
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
Ici, le code parcourt chaque ligne de la liste de lignes, l’imprime sur la console et l’écrit dans le fichier en ajoutant un caractère de nouvelle ligne.(\n) après chaque ligne pour formater correctement ce texte.
Voici la mise en œuvre complète :
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
Exécutez le fichier Python en écrivant la commande suivante dans le terminal de Visual Studio Code :
python main.py
Ce résultat s'affichera sur le terminal :
Le texte extrait
Il s'agit du texte extrait du fichier PDF. Vous remarquerez également qu'un document texte a été créé dans votre répertoire.
Le texte extrait stocké dans le fichier TXT
Dans ce fichier texte, vous trouverez le format de texte qui a été récupéré, présenté de manière séquentielle.
Le contenu du fichier texte extrait
En conclusion, l'utilisation d'IronPDF et de Python pour extraire du texte de fichiers PDF est une approche robuste et simple, qu'il s'agisse d'extraire du texte d'un document entier, de pages spécifiques ou même d'une ligne à la fois. L'avantage supplémentaire d'enregistrer le texte extrait dans un fichier texte vous permet de gérer et d'utiliser efficacement les données en vue d'un traitement ultérieur. IronPDF s'avère être un outil inestimable dans le traitement des PDF, offrant une gamme de fonctionnalités allant au-delà de la simple extraction de texte. Vous pouvez égalementconvertir un PDF en texte en Python en utilisant IronPDF.
De plus, la création de PDF interactifs, le remplissage et la soumissionformulaires interactifs, fusion etdiviserFichiers PDF,extraction de textes et d'images, recherche de texte dans les fichiers PDF, rasterisation de PDFs en imagesLa modification de la taille de la police, la couleur de la bordure et du fond, ainsi que la conversion de fichiers PDF sont toutes des tâches que l'outil IronPDF peut aider à accomplir.
IronPDF n'est pas une bibliothèque Python à code source ouvert. Si vous envisagez d'utiliser IronPDF pour vos projets, la licence du paquet commence à $749. Toutefois, si vous avez besoin d'éclaircissements sur l'investissement, IronPDF offre unessai gratuit pour en découvrir toutes les caractéristiques.
9 produits de l'API .NET pour vos documents de bureau