USO DE IRONPDF FOR .NET

Cómo extraer texto específico de un PDF en Python

Actualizado 2 de agosto, 2023
Compartir:

1.0 Introducción

Cuando se trata de compartir documentos y procesar datos, el Formato de Documento Portátil creado por Adobe (PDF) es crucial para preservar la integridad de los contenidos ricos en texto y estéticamente bellos. Para acceder a documentos PDF en línea, normalmente se necesita un programa concreto con los módulos necesarios. En la era moderna, los archivos PDF son necesarios para muchas publicaciones digitales importantes. Para la creación de documentos y facturas profesionales, muchas empresas utilizan archivos de datos PDF. Para satisfacer determinados requisitos de los clientes, como la extracción de datos, los desarrolladores utilizan con frecuencia bibliotecas de creación de documentos PDF.

La evolución de las bibliotecas contemporáneas ha facilitado la creación de PDF y la extracción de texto. Para lograr una integración perfecta y el máximo rendimiento, es esencial tener en cuenta las capacidades de creación, lectura, extracción de datos de archivos PDF y conversión a la hora de elegir la biblioteca adecuada para un proyecto que implique la generación de PDF. Python puede utilizarse para analizar un PDF existente y extraer de él el texto de las páginas. Hay varias bibliotecas de Python disponibles. IronPDF es una potente biblioteca que puede extraer texto e imágenes de archivos PDF, entre otras cosas.

En este artículo, vamos a extraer elementos de texto de documentos PDF con la ayuda de la biblioteca IronPDF Python.

2.0 IronPDF

Python es un lenguaje de programación que permite a los desarrolladores crear interfaces gráficas de usuario de forma rápida y sencilla. En comparación con otros lenguajes, Python también es mucho más dinámico para los programadores. Por ello, añadir la biblioteca IronPDF a Python es un proceso sencillo. Una multitud de herramientas preinstaladas, incluyendo PyQt, wxWidgets, Kivy, y muchos paquetes adicionales y bibliotecas de Python, se pueden utilizar para construir de forma rápida y segura una interfaz gráfica de usuario totalmente completa. IronPDF incorpora Python y también nos permite integrar funciones de otros marcos, como .NET Core.

IronPDF facilita el desarrollo web. La razón principal es la adopción generalizada de paradigmas de desarrollo web en Python como Django, Flask y Pyramid. Reddit, Mozilla y Spotify son sólo algunos de los sitios web y servicios en línea que han utilizado estos frameworks.

2.1 Características de IronPDF

  • Con IronPDF, los archivos PDF pueden crearse a partir de diversas fuentes, como HTML, HTML5, ASPX y Razor/MVC View. Ofrece la posibilidad de convertir páginas HTML e imágenes en archivos PDF.
  • Crear PDF interactivos, rellenar y enviar formularios interactivos, fusionar y dividir archivos PDF, extraer texto e imágenes, buscar texto en archivos PDF, rasterizar PDF en imágenes, cambiar el tamaño de las fuentes, procesar lenguaje natural con ChatGPT y convertir páginas PDF en propiedades son sólo algunas de las actividades en las que puede ayudar el conjunto de herramientas IronPDF.
  • IronPDF ofrece validación de formularios de inicio de sesión HTML con soporte para agentes de usuario, proxies, cookies, cabeceras HTTP y variables de formulario.
  • IronPDF utiliza nombres de usuario y contraseñas para proporcionar a los usuarios acceso a los documentos protegidos.
  • Con unas pocas líneas de código, podemos imprimir un archivo PDF desde diversas fuentes, como una cadena, un flujo o una URL.

3.0 Configuración de Python

3.1 Configuración del entorno

Asegúrate de que Python está instalado en tu ordenador. Para descargar e instalar la versión más reciente de Python compatible con su sistema operativo, vaya a la página oficial de Python sitio web. Crea un entorno virtual una vez instalado Python para separar las necesidades de tu proyecto. Cree y gestione entornos virtuales con el módulo venv para dotar a su proyecto de conversión de un lugar de trabajo ordenado y separado.

3.2 Nueva iniciativa en PyCharm

Para esta demostración, utilizaremos PyCharm, un IDE para desarrollar código Python.

Después de iniciar el IDE PyCharm, seleccione "Nuevo proyecto".

Cómo extraer texto específico de un PDF en Python: Figura 1 - PyCharm

Al seleccionar "Nuevo proyecto", se abrirá una nueva ventana que le permitirá establecer la ubicación y el entorno del proyecto. Esto puede verse en la siguiente imagen.

Cómo Extraer Texto Específico de un PDF en Python: Figura 2 - Nuevo Proyecto

Tras elegir la ubicación del proyecto y la ruta del entorno, pulse el botón "Crear" para iniciar un nuevo proyecto. A continuación, el programa se puede crear en una nueva ventana que se abrirá como resultado. Para esta lección se utiliza Python 3.9.

Cómo Extraer Texto Específico de un PDF en Python: Figura 3 - Crear Proyecto Python

3.3 Requisitos de la biblioteca IronPDF

La biblioteca Python IronPDF utiliza en gran medida .NET 6.0. Como resultado, el tiempo de ejecución de .NET 6.0 debe estar instalado en su ordenador para poder utilizar IronPDF Python. Puede que sea necesario instalar .NET para que los usuarios de Linux y Mac puedan utilizar este módulo de Python. Visita esta página página para obtener el entorno de ejecución necesario.

3.4 Configuración de la biblioteca IronPDF

Para generar, modificar y abrir archivos con extensión ".pdf", es necesario instalar el paquete "ironpdf". Abra una ventana de terminal e introduzca el siguiente comando para instalar el paquete en PyCharm:

:PackageInstall

La instalación del paquete ironpdf se muestra en la siguiente captura de pantalla.

Cómo Extraer Texto Específico de un PDF en Python: Figura 4 - Instalar IronPDF

4.0 Extraer datos específicos de un archivo PDF

También podemos extraer texto de archivos PDF con la ayuda de las bibliotecas IronPDF. IronPDF ofrece varios métodos de extracción de texto. El primer método consiste en recuperar todo el contenido de la página como una única cadena. La segunda estrategia consiste en revisar el contenido página por página, empezando por la primera. Los archivos PDF existentes pueden investigarse utilizando la biblioteca IronPDF. El siguiente fragmento de código muestra cómo utilizar IronPDF para inspeccionar archivos PDF activos.

Tenemos dos opciones para extraer información de un PDF:

  1. Extracción página a página del PDF
  2. Convertir todo el PDF en texto

    El archivo PDF que utilizaremos para este artículo está disponible más abajo.

    Cómo extraer texto específico de un PDF en Python: Figura 5 - PDF de entrada

4.1 Extracción página por página del PDF

El código de ejemplo que se proporciona a continuación muestra cómo obtener datos de un archivo PDF utilizando el número de página.

from ironpdf import *
# # PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

El fragmento de código muestra cómo leer un archivo PDF y construir un objeto PDF utilizando la función FromFile. Podemos acceder al texto y a las fotos del PDF utilizando este objeto. Pasando el número de página como parámetro a la función ExtractTextFromPage, podemos recuperar el texto de una página concreta. Este método devuelve una cadena que contiene todas las palabras de la página elegida. A continuación, utilizamos la función split de Python para dividir todas las líneas nuevas del texto extraído. A continuación, comprobamos si cada línea del texto extraído contiene las palabras clave que necesitamos encontrar. Si la palabra clave coincide, mostrará la línea específica en el símbolo del sistema. En caso contrario, ignorará esa línea y pasará a la siguiente. La salida para la extracción de texto aparecerá como se muestra a continuación.

4.2 Convertir todo el PDF en texto

El siguiente ejemplo de código muestra el primer método para obtener de forma rápida y sencilla todo el contenido del PDF como una cadena.

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

El código de ejemplo anterior muestra cómo utilizar la función FromFile para leer un PDF desde una ruta de archivo existente y convertirlo en un objeto de archivo PDF. Como resultado, podemos utilizar este objeto lector de PDF para ver el texto y las imágenes del PDF. La función ExtractAllText del objeto se utilizará para extraer los datos del PDF en un texto plano, convertirlo en una cadena, y utilizar la lógica similar a la anterior para encontrar la palabra clave específica para mostrar el resultado en el terminal. Los resultados se muestran del siguiente modo.

Cómo extraer texto específico de un PDF en Python: Figura 6 - Salida

El código/salida anterior muestra que el documento PDF dado contiene tanto el nombre como la edad, pero el resultado muestra sólo el nombre disponible en el documento PDF.

5.0 Conclusión

La biblioteca IronPDF ofrece sólidos mecanismos de seguridad para reducir las amenazas y garantizar la seguridad de los datos. No está restringido a ningún navegador y es compatible con todos los que se utilizan habitualmente. Con sólo unas pocas líneas de código, los programadores pueden producir y leer rápidamente archivos PDF utilizando IronPDF. La biblioteca IronPDF ofrece una serie de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse, para satisfacer las diversas demandas de los desarrolladores.

El precio incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de mantenimiento del software y opciones de actualización. Paquete Lite. Estas licencias pueden utilizarse en todos los entornos. Además, IronPDF ofrece licencias gratuitas con algunas restricciones de redistribución. A licencia de prueba permite a los usuarios evaluar el producto sin marca de agua.

Por favor, ver las licencias IronPDF disponibles para más información sobre licencias comerciales.

< ANTERIOR
Cómo editar un archivo PDF en Python
SIGUIENTE >
Cómo aplanar un archivo PDF en Python

¿Listo para empezar? Versión: 2024.6 recién publicada

Instalación pip gratuita Ver licencias >