Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
Esta guía mostrará los matices del uso de IronPDF para extraer texto secuencialmente de documentos PDF en Python. Cubriremos todo, desde la configuración de tu entorno de Python hasta la ejecución de tu primer programa en Python para la extracción de texto de PDF.
Descargue e instale la biblioteca PDF con Python para extraer texto de la línea del archivo PDF.
Crea un proyecto Python en tu IDE preferido.
Cargue el archivo PDF deseado para recuperar el contenido textual.
Recorra el PDF y extraiga el texto secuencialmente utilizando la función de la biblioteca incorporada.
IronPDF es una herramienta útil que te permite trabajar con archivos PDF en Python. Piense en él como un útil asistente que hace accesible la lectura, creación y edición de archivos PDF. Tanto si su objetivo es extraer contenido de un documento PDF, incluir información nueva o transformar una página web en formato PDF, IronPDF ofrece soluciones integrales. Es un paquete de software de pago, pero ofrecen una versión de prueba para que lo pruebes antes de comprometerte a comprarlo.
Antes de sumergirte en el script, es esencial que configures tu entorno Python. Esta guía paso a paso le ayudará a configurar su entorno, crear un nuevo proyecto Python en Visual Studio Code y establecer la configuración del entorno de la biblioteca IronPDF.
Descargar e instalar Python: Si no has instalado Python, descarga la versión más reciente desde el sitio web oficial de Python. Siga las instrucciones de instalación de su sistema operativo específico.
Verificar la Instalación de Python: Abre tu terminal o símbolo del sistema y escribe python --version. Este comando debería imprimir la versión de Python instalada, confirmando que la instalación se ha realizado correctamente.
Actualizar pip: Pip es el instalador de paquetes de Python. Asegúrate de que esté actualizado ejecutando pip install --upgrade pip.
Descargar Visual Studio Code: Si no lo tienes, descárgalo desde el sitio web oficial.
Instalar la extensión de Python: Abre Visual Studio Code y dirígete al Marketplace de Extensiones. Busca la extensión Python de Microsoft e instálala.
Crear una Nueva Carpeta: Crea una nueva carpeta donde desees alojar tu proyecto de Python. Llámalo algo relevante, como PDF_Text_Extractor.
Abrir la Carpeta en VS Code: Arrastra la carpeta a Visual Studio Code o utiliza la opción de menú Archivo > Abrir Carpeta para abrir la carpeta.
Crear un archivo Python: Haz clic derecho en el panel de Explorador de VS Code y elige Nuevo archivo. Nombra el archivo main.py o algo similar. Este archivo contendrá su programa Python.
Crear un nuevo archivo Python en Visual Studio Code
IronPDF es esencial para recuperar contenido textual de los PDF. A continuación te explicamos cómo instalarlo:
Abrir Terminal en VS Code: Puedes abrir un terminal dentro de VS Code yendo a Terminal > Nuevo Terminal.
Instalar IronPDF: En el terminal, ejecute lo siguiente para instalar la última versión de IronPDF:
pip install ironpdf
Este proceso recupera e instala la biblioteca IronPDF junto con los módulos necesarios.
Instalar el paquete IronPDF
¡Y ahí lo tienes! Ahora ha configurado correctamente su entorno Python, ha creado un nuevo proyecto en Visual Studio Code y ha instalado la biblioteca IronPDF.
Antes de continuar, asegúrese de aplicar su clave de licencia IronPDF.
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
py
Reemplace YOUR-LICENSE-KEY-HERE
con su clave de licencia real de IronPDF. Esta licencia le permite desbloquear todas las funciones de la biblioteca para su proyecto.
Necesita cargar un archivo PDF existente en su programa Python. Puedes lograr esto con el método PdfDocument.FromFile
de IronPDF.
pdfFileObj = PdfDocument.FromFile("content.pdf")
py
"contenido.pdf" se refiere al archivo PDF que desea leer. Este archivo PDF cargado se almacena en la variable pdfFileObj
, utilizada como un lector de PDF o el objeto del archivo PDF pdfFileObj
.
Si deseas capturar todos los datos de texto del archivo PDF de una sola vez, puedes usar el método ExtractAllText
.
all_text = pdfFileObj.ExtractAllText()
py
El método ExtractAllText
se utiliza aquí con fines de demostración. Este método extrae todo el texto del archivo PDF y lo almacena en una variable llamada all_text
.
IronPDF permite la extracción de texto de una página específica utilizando el método ExtractTextFromPage
. Este método es útil cuando sólo necesita el texto de algunas páginas.
page_2_text = pdfFileObj.ExtractTextFromPage(1)
py
Aquí, estamos extrayendo texto de la segunda página, correspondiente a un índice de 1.
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
py
Abre un archivo llamado "extracted_text.txt" para guardar los datos de texto. La función open
incorporada en Python se utiliza para esto, configurando el modo del archivo en "escribir" ("w"). Simplemente añada encoding='utf-8'
como un argumento a la función open
. Esta función debería permitir al documento de texto manejar caracteres Unicode como el que te estás encontrando.
for i in range(0, pdfFileObj.get_Pages().Count):
py
El código anterior recorre cada página en el archivo PDF utilizando get_Pages().Count
de IronPDF para obtener el número total de páginas.
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
py
Para cada página, se utiliza el método ExtractTextFromPage
para obtener todo el texto y luego usar el método split
de Python para dividirlo en líneas. Esto resulta en una lista de líneas por las que se puede iterar.
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
py
Aquí, el código itera a través de cada línea en la lista de líneas, imprimiéndola en la consola y escribiéndola en el archivo al agregar un carácter de nueva línea (\n) después de cada línea para dar el formato adecuado a este texto.
He aquí la aplicación completa:
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
py
Ejecute el archivo Python escribiendo el siguiente comando en el terminal de Visual Studio Code:
python main.py
python main.py
Este resultado se mostrará en el terminal:
El texto extraído
Es el texto recuperado del archivo PDF. También observará que se ha creado un documento de texto en su directorio.
El texto extraído almacenado en el archivo TXT
En este archivo de texto, encontrará el formato de texto que se ha recuperado, presentado secuencialmente.
El contenido del archivo de texto extraído
En conclusión, el uso de IronPDF y Python para extraer texto de archivos PDF es un enfoque robusto y sencillo, ya sea extrayendo texto de todo el documento, de páginas específicas o incluso línea por línea. La ventaja añadida de guardar este texto recuperado en un archivo de texto le permite gestionar y utilizar eficazmente los datos para futuros procesamientos. IronPDF resulta ser una herramienta inestimable en el manejo de PDF, ya que ofrece una serie de funcionalidades que van más allá de la mera extracción de texto. También puedes convertir PDF a Texto en Python usando IronPDF.
Además, crear PDFs interactivos, completar y enviar formularios interactivos, fusionar y dividir archivos PDF, extraer texto e imágenes, buscar texto dentro de archivos PDF, rasterizar PDFs a imágenes, cambiar el tamaño de la fuente, el borde y el color de fondo, y convertir archivos PDF son todas tareas con las que el kit de herramientas de IronPDF puede ayudar.
IronPDF no es una biblioteca Python de código abierto. Si estás considerando usar IronPDF para tus proyectos, la licencia para el paquete comienza en $749. Sin embargo, si necesita aclaración sobre la inversión, IronPDF ofrece una prueba gratuita para explorar sus características a fondo.