USO DE IRONPDF FOR .NET

Cómo extraer texto de un PDF línea por línea

Actualizado 14 de noviembre, 2023
Compartir:

Extraer texto de un documento PDF es una tarea que los desarrolladores se encuentran con frecuencia. Los archivos PDF son muy populares para compartir documentos, dada su independencia de plataformas y su formato fijo. Sin embargo, leer texto de estos archivos PDF mediante programación puede resultar complicado. Gracias a Python, existen muchas bibliotecas que facilitan esta tarea. IronPDF es una de estas populares bibliotecas de Python diseñada explícitamente para la manipulación de PDF.

Esta guía mostrará los matices del uso de IronPDF para extraer texto secuencialmente de documentos PDF en Python. Lo cubriremos todo, desde la configuración de su entorno Python hasta la ejecución de su primer programa Python para la extracción de texto PDF.

Cómo extraer texto de un PDF línea por línea

  1. Descargue e instale la biblioteca PDF con Python para extraer texto de la línea del archivo PDF.
  2. Crea un proyecto Python en tu IDE preferido.
  3. Cargue el archivo PDF deseado para recuperar el contenido textual.
  4. Recorra el PDF y extraiga el texto secuencialmente utilizando la función de la biblioteca incorporada.
  5. Guarda el texto extraído en un archivo.

Biblioteca PDF Python IronPDF

IronPDF es una práctica herramienta que permite trabajar con archivos PDF en Python. Piense en él como un útil asistente que hace accesible la lectura, creación y edición de archivos PDF. Tanto si su objetivo es extraer contenido de un documento PDF, incluir información nueva o transformar una página web en formato PDF, IronPDF ofrece soluciones integrales. Es un paquete de software de pago, pero ofrecen una versión de prueba para que lo pruebes antes de comprometerte a comprarlo.

Antes de sumergirte en el script, es esencial que configures tu entorno Python. Esta guía paso a paso le ayudará a configurar su entorno, crear un nuevo proyecto Python en Visual Studio Code y establecer la configuración del entorno de la biblioteca IronPDF.

Descargue e instale Python: Si no ha instalado Python, descargue la versión más reciente de la página **Sitio web oficial de Python. Siga las instrucciones de instalación de su sistema operativo específico.

Compruebe la instalación de Python: Abra su terminal o símbolo del sistema y escriba python --version**. Este comando debería imprimir la versión de Python instalada, confirmando que la instalación se ha realizado correctamente.

Actualización de pip: Pip es el instalador de paquetes de Python. Asegúrese de que está actualizado ejecutando pip install --upgrade pip.

Creación de un nuevo proyecto Python en Visual Studio

Descarga Visual Studio Code: Si no lo tiene, descárguelo de la página sitio web oficial.

Instale la extensión de Python: Abre Visual Studio Code y dirígete al Mercado de Extensiones. Busca la extensión Python de Microsoft e instálala.

Crea una nueva carpeta: Crea una nueva carpeta donde quieras alojar tu proyecto Python. Ponle un nombre relevante, como Extractor_de_Texto_PDF.

Abra la carpeta en VS Code: Arrastre la carpeta a Visual Studio Code o utilice la opción de menú Archivo > Abrir carpeta para abrir la carpeta.

Crear un Archivo Python: Haga clic con el botón derecho del ratón en el panel del Explorador de código VS y elija Nuevo archivo. Nombra el archivo main.py o algo similar. Este archivo contendrá su programa Python.

Cómo extraer texto de un PDF línea por línea: Figura 1

Requisitos y configuración de la biblioteca IronPDF

IronPDF es esencial para recuperar contenido textual de los PDF. A continuación te explicamos cómo instalarlo:

Abrir Terminal en VS Code: Puede abrir un terminal dentro de VS Code yendo a terminal> Nuevo Terminal.

Instalar IronPDF: En el terminal, ejecute lo siguiente para instalar la última versión de IronPDF:

 pip install ironpdf

Este proceso recupera e instala la biblioteca IronPDF junto con los módulos necesarios.

Cómo extraer texto de un PDF línea por línea: Figura 2

Y ahí lo tienen! Ahora ha configurado correctamente su entorno Python, ha creado un nuevo proyecto en Visual Studio Code y ha instalado la biblioteca IronPDF.

Extraer texto de un PDF línea por línea

Aplicación de la clave de licencia

Antes de continuar, asegúrese de aplicar su clave de licencia IronPDF.

from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

Sustituya "SU CLAVE DE LICENCIA AQUÍ" por su clave de licencia IronPDF real. Esta licencia le permite desbloquear todas las funciones de la biblioteca para su proyecto.

Cargar el formato de archivo PDF

Necesita cargar un archivo PDF existente en su programa Python. Puede conseguirlo con el método PdfDocument.FromFile de IronPDF.

pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

"contenido.pdf" se refiere al archivo PDF que desea leer. Este archivo PDF cargado se almacena en la variable pdfFileObj, utilizada como lector de PDF o el objeto de archivo PDF pdfFileObj.

Extraer texto de todo el documento PDF

Si desea obtener todos los datos de texto del archivo PDF a la vez, puede utilizar el método ExtractAllText.

all_text = pdfFileObj.ExtractAllText()
PYTHON

El método ExtractAllText se utiliza aquí con fines de demostración. Este método extrae todo el texto del archivo PDF y lo almacena en una variable llamada all_text.

Extraer texto de una página PDF específica

IronPDF permite la extracción de texto de una página específica mediante el método ExtractTextFromPage. Este método es útil cuando sólo necesita el texto de algunas páginas.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

Aquí, estamos extrayendo texto de la segunda página, correspondiente a un índice de 1.

Inicialización de un archivo de texto para escribir texto extraído

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

Abrimos un archivo llamado "texto_extraído.txt", donde guardaremos los datos del texto. Para ello, utilizaremos la función open de Python, estableciendo el modo de archivo en "escritura". ("w "). Basta con añadir encoding='utf-8' como argumento a la función open. Esta función debería permitir al documento de texto manejar caracteres Unicode como el que te estás encontrando.

Recorrer cada página para extraer el texto línea por línea

for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

Recorremos cada página del archivo PDF utilizando get_Pages' de IronPDF().Count para obtener el número total de páginas.

Extraer texto y segmentarlo en líneas

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

Para cada página, usamos ExtractTextFromPage para obtener todo el texto y luego usamos el método split de Python para dividirlo en líneas. El resultado es una lista de líneas que podemos recorrer en bucle.

Escribir las líneas extraídas en un archivo de texto

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

Aquí, estamos iterando a través de cada línea en la lista de líneas, imprimiéndola en la consola doc, y escribiéndola en el archivo. Añadimos un carácter de nueva línea (\n) después de cada línea para formatear correctamente este texto.

Código completo

He aquí la aplicación completa:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
    # Print number of pages in pdf file print count of pages present in pdf file
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):

        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each eachline to the console
            text_file.write(eachline + '\n')  # Write each line to the text documents
PYTHON

Salida

Ejecute el archivo Python escribiendo el siguiente comando en el terminal de Visual Studio Code:

python main.py

Este resultado se mostrará en el terminal:

Cómo extraer texto de un PDF línea por línea: Figura 3

Es el texto recuperado del archivo PDF. También observará que se ha creado un documento de texto en su directorio.

Cómo extraer texto de un PDF línea por línea: Figura 4

En este archivo de texto, encontrará el formato de texto que se ha recuperado, presentado secuencialmente.

Cómo extraer texto de un PDF línea por línea: Figura 5

Conclusión

En conclusión, el uso de IronPDF y Python para extraer texto de archivos PDF es un enfoque robusto y sencillo, ya sea extrayendo texto de todo el documento, de páginas específicas o incluso línea por línea. La ventaja añadida de guardar este texto recuperado en un archivo de texto le permite gestionar y utilizar eficazmente los datos para futuros procesamientos. IronPDF resulta ser una herramienta inestimable en el manejo de PDF, ya que ofrece una serie de funcionalidades que van más allá de la mera extracción de texto. También puede convertir PDF a texto en Python utilizando IronPDF.

IronPDF no es una biblioteca Python de código abierto. Si está considerando utilizar IronPDF para sus proyectos, la licencia del paquete comienza en $749. No obstante, si necesita aclaraciones sobre la inversión, IronPDF ofrece un prueba gratuita para explorar a fondo sus características.

Cómo extraer texto de un PDF línea por línea: Figura 6

< ANTERIOR
Cómo extraer datos de un PDF en Python
SIGUIENTE >
Cómo anotar un archivo PDF en Python

¿Listo para empezar? Versión: 2024.7 recién publicada

Instalación pip gratuita Ver licencias >
123