from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
Comment extraire du texte d'un PDF ligne par ligne
Regan Pun
novembre 14, 2023
Mise à jour septembre 28, 2024
Partager:
Ce guide montrera les nuances de l'utilisation d'IronPDF pour extraire séquentiellement du texte à partir de documents PDF en Python. Cela couvrira tout, de la configuration de votre environnement Python à l'exécution de votre premier programme Python pour l'extraction de texte PDF.
Comment extraire du texte d'un PDF ligne par ligne
Téléchargez et installez la bibliothèque PDF à l'aide de Python pour extraire le texte de la ligne du fichier PDF.
Créez un projet Python dans votre IDE préféré.
Charger le fichier PDF souhaité pour en extraire le contenu textuel.
Parcourez le PDF en boucle et extrayez le texte séquentiellement à l'aide de la fonction de la bibliothèque intégrée.
Enregistrer le texte extrait dans un fichier.
IronPDF for Python Bibliothèque PDF Python
IronPDF est un outil pratique qui vous permet de travailler avec des fichiers PDF en Python. Il s'agit d'un assistant utile qui rend la lecture, la création et l'édition de fichiers PDF accessibles. Que vous souhaitiez extraire le contenu d'un document PDF, y inclure de nouvelles informations ou transformer une page web au format PDF, IronPDF propose des solutions complètes. Il s'agit d'un logiciel payant, mais une version d'essai est proposée pour vous permettre de l'explorer avant de l'acheter.
Avant de plonger dans le script, il est essentiel de configurer votre environnement Python. Ce guide étape par étape vous aidera à configurer votre environnement, à créer un nouveau projet Python dans Visual Studio Code et à configurer l'environnement de la bibliothèque IronPDF for Python.
Téléchargez et installez Python : Si vous n'avez pas installé Python, téléchargez la version la plus récente à partir du site Web de lsite officiel de Python. Suivez les instructions d'installation de votre système d'exploitation.
Vérifier l'installation de Python : Ouvrez votre terminal ou votre invite de commande et tapez python --version. Cette commande devrait afficher la version de Python installée, confirmant ainsi que l'installation s'est déroulée correctement.
Mise à jour de pip : Pip est l'installateur de paquets Python. Assurez-vous qu'il est à jour en exécutant pip install --upgrade pip.
Créer un nouveau projet Python dans Visual Studio Code
Téléchargez Visual Studio Code : Si vous ne l'avez pas, téléchargez-le depuis lesite web officiel.
Installer l'extension Python : Ouvrez Visual Studio Code et rendez-vous sur la place de marché des extensions. Recherchez l'extension Python de Microsoft et installez-la.
Créer un nouveau dossier : Créez un nouveau dossier dans lequel vous souhaitez héberger votre projet Python. Donnez-lui un nom pertinent, comme PDF_Text_Extractor.
Ouvrez le dossier dans VS Code : Faites glisser le dossier dans Visual Studio Code ou utilisez l'option de menu Fichier > Ouvrir le dossier pour ouvrir le dossier.
Créer un fichier Python : Cliquez avec le bouton droit de la souris dans le panneau VS Code Explorer et choisissez Nouveau fichier. Nommez le fichier main.py ou quelque chose de similaire. Ce fichier contiendra votre programme Python.
Créer un nouveau fichier Python dans Visual Studio Code
Configuration requise pour la bibliothèque IronPDF
IronPDF est indispensable pour récupérer le contenu textuel des PDF. Voici comment l'installer :
Ouvrir le terminal dans VS Code : Vous pouvez ouvrir un terminal à l'intérieur de VS Code en allant dans Terminal > Nouveau terminal.
Installer IronPDF : Dans le terminal, exécutez ce qui suit pour installer la dernière version d'IronPDF :
pip install ironpdf
Ce processus récupère et installe la bibliothèque IronPDF ainsi que tous les modules nécessaires.
Installer le package IronPDF
Et voilà! Vous avez maintenant configuré avec succès votre environnement Python, créé un nouveau projet dans Visual Studio Code et installé la bibliothèque IronPDF for Python.
Extraire le texte d'un PDF ligne par ligne
Application de la clé de licence
Avant de continuer, assurez-vous d'appliquer votre clé de licence IronPDF.
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON
Remplacez "VOTRE-CLÉ DE LICENCE" par votre véritable clé de licence IronPDF. Cette licence vous permet de débloquer toutes les fonctionnalités de la bibliothèque pour votre projet.
Chargement du format de fichier PDF
Vous devez charger un fichier PDF existant dans votre programme Python. Vous pouvez y parvenir avec la méthode PdfDocument.FromFile d'IronPDF.
pdfFileObj = PdfDocument.FromFile("content.pdf")
pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON
"content.pdf" fait référence au fichier PDF que vous souhaitez lire. Ce fichier PDF chargé est stocké dans la variable pdfFileObj, utilisée comme un lecteur PDF ou l'objet fichier PDF pdfFileObj.
Extraction de texte à partir de l'ensemble du document PDF
Si vous souhaitez récupérer toutes les données textuelles du fichier PDF en une seule fois, vous pouvez utiliser la méthode ExtractAllText.
all_text = pdfFileObj.ExtractAllText()
all_text = pdfFileObj.ExtractAllText()
PYTHON
La méthode ExtractAllText est utilisée ici à des fins de démonstration. Cette méthode extrait tout le texte du fichier PDF et le stocke dans une variable appelée all_text.
Extraction de texte à partir d'une page PDF spécifique
IronPDF permet l'extraction de texte à partir d'une page spécifique en utilisant la méthode ExtractTextFromPage. Cette méthode est utile lorsque vous n'avez besoin que du texte de certaines pages.
page_2_text = pdfFileObj.ExtractTextFromPage(1)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON
Ici, nous extrayons le texte de la deuxième page, correspondant à un index de 1.
Initialisation d'un fichier texte pour l'écriture du texte extrait
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON
Ouvrez un fichier nommé "extracted_text.txt" pour enregistrer les données textuelles. La fonction intégrée open de Python est utilisée pour cela, en définissant le mode de fichier sur "écriture".("w "). Il suffit d'ajouter encoding='utf-8' comme argument à la fonction open. Cette fonction doit permettre au document texte de gérer les caractères Unicode comme celui que vous rencontrez.
Boucle sur chaque page pour l'extraction du texte ligne par ligne
for i in range(0, pdfFileObj.get_Pages().Count):
for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON
Le code ci-dessus parcourt chaque page du fichier PDF en utilisant la méthode get_Pages d'IronPDF.().Count` pour obtenir le nombre total de pages.
Pour chaque page, la méthode ExtractTextFromPage est utilisée pour obtenir tout le texte, puis utiliser la méthode split de Python pour le découper en lignes. Cela se traduit par une liste de lignes qui peuvent être parcourues en boucle.
Écrire les lignes extraites dans un fichier texte
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
PYTHON
Ici, le code parcourt chaque ligne de la liste de lignes, l’imprime sur la console et l’écrit dans le fichier en ajoutant un caractère de nouvelle ligne.(\n) après chaque ligne pour formater correctement ce texte.
Code complet
Voici la mise en œuvre complète :
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
PYTHON
Sortie
Exécutez le fichier Python en écrivant la commande suivante dans le terminal de Visual Studio Code :
python main.py
Ce résultat s'affichera sur le terminal :
Le texte extrait
Il s'agit du texte extrait du fichier PDF. Vous remarquerez également qu'un document texte a été créé dans votre répertoire.
Le texte extrait stocké dans le fichier TXT
Dans ce fichier texte, vous trouverez le format de texte qui a été récupéré, présenté de manière séquentielle.
Le contenu du fichier texte extrait
Conclusion
En conclusion, l'utilisation d'IronPDF et de Python pour extraire du texte de fichiers PDF est une approche robuste et simple, qu'il s'agisse d'extraire du texte d'un document entier, de pages spécifiques ou même d'une ligne à la fois. L'avantage supplémentaire d'enregistrer le texte extrait dans un fichier texte vous permet de gérer et d'utiliser efficacement les données en vue d'un traitement ultérieur. IronPDF s'avère être un outil inestimable dans le traitement des PDF, offrant une gamme de fonctionnalités allant au-delà de la simple extraction de texte. Vous pouvez égalementconvertir un PDF en texte en Python en utilisant IronPDF.
De plus, la création de PDF interactifs, le remplissage et la soumissionformulaires interactifs, fusion etdiviserFichiers PDF,extraction de textes et d'images, recherche de texte dans les fichiers PDF, rasterisation de PDFs en imagesLa modification de la taille de la police, la couleur de la bordure et du fond, ainsi que la conversion de fichiers PDF sont toutes des tâches que l'outil IronPDF peut aider à accomplir.
IronPDF n'est pas une bibliothèque Python à code source ouvert. Si vous envisagez d'utiliser IronPDF pour vos projets, la licence du paquet commence à $749. Toutefois, si vous avez besoin d'éclaircissements sur l'investissement, IronPDF offre unessai gratuit pour en découvrir toutes les caractéristiques.
Regan est diplômé de l'université de Reading, où il a obtenu une licence en ingénierie électronique. Avant de rejoindre Iron Software, il s'était concentré sur une seule tâche. Ce qu'il apprécie le plus chez Iron Software, c'est la diversité des tâches qu'il peut accomplir, qu'il s'agisse d'apporter une valeur ajoutée aux ventes, à l'assistance technique, au développement de produits ou à la commercialisation. Il aime comprendre comment les développeurs utilisent la bibliothèque d'Iron Software et utiliser ces connaissances pour améliorer continuellement la documentation et développer les produits.
< PRÉCÉDENT Comment extraire des données d'un PDF en Python
SUIVANT > Comment annoter facilement des PDF en Python avec IronPDF
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier