USO DE IRONPDF FOR PYTHON

Cómo analizar un archivo PDF en Python

Actualizado septiembre 13, 2023
Compartir:

1.0 Introducción

El formato de documento portátil (PDF)desarrollado por Adobe, es esencial para mantener la integridad de la información rica en texto y estéticamente agradable a la hora de compartir documentos. Normalmente, se necesita un programa específico para acceder a los archivos PDF en línea. Hoy en día, los archivos PDF son necesarios para muchas publicaciones digitales importantes. Muchas empresas utilizan archivos PDF para preparar documentos profesionales y facturas. Además, los desarrolladores suelen utilizar bibliotecas de generación de documentos PDF para satisfacer requisitos específicos de los clientes.

El desarrollo de bibliotecas modernas ha simplificado el proceso de creación de PDF. Al seleccionar la biblioteca adecuada para un proyecto que implique la creación de PDF, es fundamental tener en cuenta las capacidades de compilación, lectura y conversión para lograr una integración fluida y un rendimiento óptimo. Usando Python, podemos analizar un PDF existente.

2.0 IronPDF

Python es un lenguaje de programación que permite a los desarrolladores construir rápida y fácilmente interfaces gráficas de usuario. Ofrece un mayor dinamismo a los programadores en comparación con otros lenguajes. Por lo tanto, integrar la biblioteca IronPDF con Python es un proceso sencillo.

Para crear de forma rápida y segura una interfaz gráfica de usuario totalmente funcional, los desarrolladores pueden utilizar varias herramientas preinstaladas, como PyQt, wxWidgets, Kivy y muchos otros paquetes y bibliotecas. Cabe señalar que IronPDF no es una biblioteca PDF puramente Python; en cambio, permite la inclusión de diversas características de otros marcos como Dot Net Core.

IronPDF simplifica el diseño y desarrollo web en Python, especialmente debido a la popularidad de paradigmas de desarrollo web en Python como Django, Flask y Pyramid. Sitios web y servicios en línea notables, como Reddit, Mozilla y Spotify, han utilizado estos marcos. Puede obtener más información sobre Python en IronPDF en la página Sitio web de IronPDF Python.

2.1 Características de IronPDF

  • IronPDF es capaz de generar archivos PDF a partir de varias fuentes, incluyendo HTML, HTML5, ASPX y Razor/MVC View. Ofrece funciones para crear PDF a partir de páginas HTML e imágenes.
  • El kit de herramientas IronPDF ofrece una serie de herramientas para tareas como la creación de PDF interactivos, la cumplimentación y envío de formularios interactivos, la fusión y división de archivos PDF, la extracción de texto e imágenes, la búsqueda de texto en archivos PDF, la rasterización de PDF en imágenes, el ajuste del tamaño de las fuentes y la conversión de archivos PDF.
  • Con soporte para agentes de usuario, proxies, cookies, cabeceras HTTP y variables de forma, IronPDF permite la validación de formularios de inicio de sesión HTML.
  • El acceso a los documentos protegidos en IronPDF se garantiza mediante el uso de nombres de usuario y contraseñas.

  • IronPDF nos ayuda a generar archivos PDF e imprimirlos con sólo unas pocas líneas de código a partir de diversas fuentes como cadenas, flujos, URL, etc.

3.0 Configuración de Python

3.1 Configuración del entorno

Asegúrese de que Python está instalado en su PC. Visite el Sitio web oficial de Python para descargar e instalar la última versión de Python adecuada para su sistema operativo. Una vez instalado Python, configura un entorno virtual para aislar las dependencias de tu proyecto. Utilice el módulo "venv" para crear y gestionar entornos virtuales y dotar a su proyecto de conversión de un espacio de trabajo limpio e independiente.

3.2 Nuevo proyecto en Pycharm

Vamos a utilizar PyCharm, un IDE para escribir código Python, para esta demostración.

Haga clic en "Nuevo proyecto" después de iniciar el IDE de PyCharm.

Cómo analizar un archivo PDF en Python: Figura 1 - La pantalla de bienvenida de PyCharm.

Cuando seleccione "Nuevo proyecto", aparecerá una nueva ventana que le permitirá especificar la ubicación del proyecto y su entorno. Esta nueva ventana puede verse en la siguiente captura de pantalla.

Cómo analizar un archivo PDF en Python: Figura 2 - La pantalla de nuevo proyecto en PyCharm.

Haga clic en el botón "Crear" para iniciar un nuevo proyecto, después de establecer la ubicación del proyecto y la ruta del entorno. Esto abrirá una nueva ventana donde se puede desarrollar el programa. Estamos utilizando Python 3.9 para este tutorial.

Cómo analizar un archivo PDF en Python: Figura 3 - Un archivo principal abierto en PyCharm.

3.3 Requisitos de la biblioteca IronPDF

IronPDF, una biblioteca de Python, se basa principalmente en .NET 6.0. En consecuencia, para utilizar IronPDF Python, su PC debe tener instalado el tiempo de ejecución de .NET 6.0. Antes de que los usuarios de Linux y Mac puedan utilizar este módulo de Python, puede ser necesario instalar Dot NET. Puede obtener el entorno de ejecución necesario en la página Sitio web .NET.

3.4 Configuración de la biblioteca IronPDF

Es necesario instalar el paquete "ironpdf" para crear, editar y abrir archivos con extensión ".pdf". Para instalar el paquete en PyCharm, abra una ventana de terminal y escriba el siguiente comando:

pip install ironpdf
PYTHON

La captura de pantalla inferior muestra la configuración del paquete 'ironpdf'.

Cómo analizar un archivo PDF en Python: Figura 4 - Un terminal mostrando la instalación de IronPDF usando pip.

4.0 Analizar PDF con IronPDF

Con la ayuda de las bibliotecas IronPDF, también podemos extraer texto de archivos PDF. IronPDF ofrece varias técnicas para la extracción de texto. El primer enfoque consiste en recuperar todo el contenido de la página como una única cadena. El segundo enfoque consiste en leer el contenido página por página, empezando por la primera. Utilizando la biblioteca IronPDF, podemos explorar archivos PDF existentes. El siguiente fragmento de código muestra un patrón para inspeccionar archivos PDF actuales utilizando IronPDF.

Disponemos de dos métodos para extraer datos de un PDF:

  1. Extracción del PDF por páginas.

  2. Extraer todo el PDF como texto.

    A continuación se muestra el archivo PDF que vamos a utilizar para este artículo. Tiene dos páginas.

    Cómo analizar un archivo PDF en Python: Figura 5 - Un PDF con el número de página en la parte superior de cada página.

4.0.1 EXTRACCIÓN DE TEXTO POR PÁGINAS

El código de ejemplo que se proporciona a continuación muestra cómo utilizar el número de página para recuperar datos de un archivo PDF.

from ironpdf import *
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
PYTHON

El fragmento de código muestra el uso de la función FromFile para leer un archivo PDF y crear un objeto de documento PDF. Este objeto nos permite acceder al texto y a las imágenes dentro del PDF. Para extraer el texto de una página concreta, podemos utilizar el método ExtractTextFromPage proporcionando el número de página como parámetro. Este método devolverá una cadena que contiene todas las palabras de la página especificada. El resultado se mostrará como se indica a continuación.

Cómo analizar un archivo PDF en Python: Figura 6 - Una captura de pantalla del terminal con la salida de texto Página 1.

El rectángulo que aparece resaltado en el resultado es el texto extraído del archivo PDF en la página número 1, cuyo índice es 0.

4.0.2 EXTRAER DE TODA LA PÁGINA

El primer enfoque para obtener rápida y fácilmente todo el contenido del PDF como una cadena se muestra en el ejemplo de código que sigue.

# creating a pdf file object pdfFileObj 
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

El código de ejemplo mostrado arriba explica cómo leer un PDF desde una ruta de archivo existente y convertirlo en un objeto de archivo PDF utilizando la función FromFile. Podemos ver el texto y las imágenes del PDF utilizando este objeto lector de PDF como respuesta. El texto sin formato del PDF se extraerá y convertirá en una cadena utilizando la función ExtractAllText del objeto e imprimirá el texto extraído en el terminal. El resultado se mostrará como se indica a continuación.

Cómo analizar un archivo PDF en Python: Figura 7 - Una captura de pantalla del terminal con la salida de texto Página 1, y Página 2.

Los recuadros rectangulares que aparecen resaltados en el resultado contienen los datos del texto extraído de todas las páginas del archivo PDF.

Podemos crear PDFs usando C# con la ayuda de IronPDF. Para obtener más información sobre IronPDF, visite la página Sitio web de IronPDF.

5.0 Conclusión

Para minimizar los riesgos y garantizar la protección de los datos, la biblioteca IronPDF ofrece sólidas medidas de seguridad. Es compatible con todos los navegadores de uso común y no se limita a ninguno. IronPDF permite a los programadores crear y leer fácilmente archivos PDF con sólo unas pocas líneas de código. Para adaptarse a las distintas necesidades de los desarrolladores, la biblioteca IronPDF ofrece diversas opciones de licencia, incluida una licencia de desarrollador gratuita y licencias de desarrollo adicionales que pueden adquirirse.

El paquete $749 Lite incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de soporte de software y posibilidades de actualización. Más allá de la primera compra, no hay gastos adicionales. Tanto los entornos de producción como los de ensayo y desarrollo hacen uso de estas licencias. IronPDF también ofrece licencias gratuitas con algunas limitaciones de tiempo y redistribución. Durante el periodo de prueba gratuito, los usuarios pueden probar el producto en uso real sin marca de agua. Para obtener más información sobre el coste y la licencia de la versión de prueba de IronPDF, visite la página Sitio web de IronPDF.

< ANTERIOR
Cómo dividir archivos PDF en Python
SIGUIENTE >
Cómo extraer datos de facturas de un PDF en Python

¿Listo para empezar? Versión: 2024.8 acaba de salir

Instalación pip gratuita View Licenses >