Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Esta guía mostrará los matices del uso de IronPDF para extraer texto secuencialmente de documentos PDF en Python. Cubriremos todo, desde la configuración de tu entorno de Python hasta la ejecución de tu primer programa en Python para la extracción de texto de PDF.
Descargue e instale la biblioteca PDF con Python para extraer texto de la línea del archivo PDF.
Crea un proyecto Python en tu IDE preferido.
Cargue el archivo PDF deseado para recuperar el contenido textual.
Recorra el PDF y extraiga el texto secuencialmente utilizando la función de la biblioteca incorporada.
IronPDF es una práctica herramienta que permite trabajar con archivos PDF en Python. Piense en él como un útil asistente que hace accesible la lectura, creación y edición de archivos PDF. Tanto si su objetivo es extraer contenido de un documento PDF, incluir información nueva o transformar una página web en formato PDF, IronPDF ofrece soluciones integrales. Es un paquete de software de pago, pero ofrecen una versión de prueba para que lo pruebes antes de comprometerte a comprarlo.
Antes de sumergirte en el script, es esencial que configures tu entorno Python. Esta guía paso a paso le ayudará a configurar su entorno, crear un nuevo proyecto Python en Visual Studio Code y establecer la configuración del entorno de la biblioteca IronPDF.
Descargue e instale Python: Si no ha instalado Python, descargue la versión más reciente de la página**Sitio web oficial de Python. Siga las instrucciones de instalación de su sistema operativo específico.
Compruebe la instalación de Python: Abra su terminal o símbolo del sistema y escriba python --version**. Este comando debería imprimir la versión de Python instalada, confirmando que la instalación se ha realizado correctamente.
Actualización de pip: Pip es el instalador de paquetes de Python. Asegúrese de que está actualizado ejecutando pip install --upgrade pip.
Descargar Visual Studio Code: Si no lo tienes, descárgalo desde el sitio web oficial.
Instale la extensión de Python: Abre Visual Studio Code y dirígete al Mercado de Extensiones. Busca la extensión Python de Microsoft e instálala.
Crea una nueva carpeta: Crea una nueva carpeta donde quieras alojar tu proyecto Python. Ponle un nombre relevante, como Extractor_de_Texto_PDF.
Abra la carpeta en VS Code: Arrastre la carpeta a Visual Studio Code o utilice la opción de menú Archivo > Abrir carpeta para abrir la carpeta.
Crear un Archivo Python: Haga clic con el botón derecho del ratón en el panel del Explorador de código VS y elija Nuevo archivo. Nombra el archivo main.py o algo similar. Este archivo contendrá su programa Python.
Crear un nuevo archivo Python en Visual Studio Code
IronPDF es esencial para recuperar contenido textual de los PDF. A continuación te explicamos cómo instalarlo:
Abrir Terminal en VS Code: Puedes abrir un terminal dentro de VS Code yendo a Terminal > Nuevo Terminal.
Instalar IronPDF: En el terminal, ejecute lo siguiente para instalar la última versión de IronPDF:
pip install ironpdf
Este proceso recupera e instala la biblioteca IronPDF junto con los módulos necesarios.
Instalar el paquete IronPDF
Y ahí lo tienen! Ahora ha configurado correctamente su entorno Python, ha creado un nuevo proyecto en Visual Studio Code y ha instalado la biblioteca IronPDF.
Antes de continuar, asegúrese de aplicar su clave de licencia IronPDF.
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
Sustituya "SU CLAVE DE LICENCIA AQUÍ" por su clave de licencia IronPDF real. Esta licencia le permite desbloquear todas las funciones de la biblioteca para su proyecto.
Necesita cargar un archivo PDF existente en su programa Python. Puede conseguirlo con el método PdfDocument.FromFile
de IronPDF.
pdfFileObj = PdfDocument.FromFile("content.pdf")
"contenido.pdf" se refiere al archivo PDF que desea leer. Este archivo PDF cargado se almacena en la variable pdfFileObj
, utilizada como lector de PDF o el objeto de archivo PDF pdfFileObj
.
Si desea obtener todos los datos de texto del archivo PDF a la vez, puede utilizar el método ExtractAllText
.
all_text = pdfFileObj.ExtractAllText()
El método ExtractAllText
se utiliza aquí con fines de demostración. Este método extrae todo el texto del archivo PDF y lo almacena en una variable llamada all_text
.
IronPDF permite la extracción de texto de una página específica mediante el método ExtractTextFromPage
. Este método es útil cuando sólo necesita el texto de algunas páginas.
page_2_text = pdfFileObj.ExtractTextFromPage(1)
Aquí, estamos extrayendo texto de la segunda página, correspondiente a un índice de 1.
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
Abre un archivo llamado "extracted_text.txt" para guardar los datos de texto. La función incorporada open
de Python se utiliza para esto, configurando el modo de archivo en "escribir".("w "). Basta con añadir encoding='utf-8'
como argumento a la función open
. Esta función debería permitir al documento de texto manejar caracteres Unicode como el que te estás encontrando.
for i in range(0, pdfFileObj.get_Pages().Count):
El código anterior recorre cada página en el archivo PDF utilizando el método get_Pages
de IronPDF.().Count` para obtener el número total de páginas.
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
Para cada página, se utiliza el método ExtractTextFromPage
para obtener todo el texto y luego usar el método split
de Python para dividirlo en líneas. Esto resulta en una lista de líneas por las que se puede iterar.
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
Aquí, el código recorre cada línea en la lista de líneas, imprimiéndola en la consola y escribiéndola en el archivo añadiendo un carácter de nueva línea.(\n) después de cada línea para formatear correctamente este texto.
He aquí la aplicación completa:
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
Ejecute el archivo Python escribiendo el siguiente comando en el terminal de Visual Studio Code:
python main.py
Este resultado se mostrará en el terminal:
El texto extraído
Es el texto recuperado del archivo PDF. También observará que se ha creado un documento de texto en su directorio.
El texto extraído almacenado en un archivo TXT
En este archivo de texto, encontrará el formato de texto que se ha recuperado, presentado secuencialmente.
El contenido del archivo de texto extraído
En conclusión, el uso de IronPDF y Python para extraer texto de archivos PDF es un enfoque robusto y sencillo, ya sea extrayendo texto de todo el documento, de páginas específicas o incluso línea por línea. La ventaja añadida de guardar este texto recuperado en un archivo de texto le permite gestionar y utilizar eficazmente los datos para futuros procesamientos. IronPDF resulta ser una herramienta inestimable en el manejo de PDF, ya que ofrece una serie de funcionalidades que van más allá de la mera extracción de texto. También puedeconvertir PDF a texto en Python utilizando IronPDF.
Además, crear PDF interactivos, completar y enviarformularios interactivos, fusión ydividiendo Archivos PDF,extracción de texto e imágenes, búsqueda de texto dentro de archivos PDF, rasterizar PDFs a imágenes, cambiar el tamaño de la fuente, el borde y el color de fondo, y convertir archivos PDF son todas tareas con las que el conjunto de herramientas IronPDF puede ayudar.
IronPDF no es una biblioteca Python de código abierto. Si está considerando utilizar IronPDF para sus proyectos, la licencia del paquete comienza en $749. No obstante, si necesita aclaraciones sobre la inversión, IronPDF ofrece unprueba gratuita para explorar a fondo sus características.
9 productos API .NET para sus documentos de oficina