from ironpdf import * # Instanciar renderizador renderer = ChromePdfRenderer() # Crear un PDF a partir de una cadena HTML con Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Exportar a un archivo o Stream pdf.SaveAs("output.pdf") # Ejemplo avanzado con recursos HTML # Cargar activos html externos: Imágenes, CSS y JavaScript. # Una BasePath opcional 'C:\site\assets\' se establece como la ubicación del archivo para cargar los activos de myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

USO DE IRONPDF FOR .NET

Cómo extraer una tabla de un PDF en Python

Actualizado 22 de julio, 2023

Introducción

Cuando se trata de compartir documentos, el Formato de Documento Portátil (PDF)creado por Adobe, es crucial para preservar la integridad de la información rica en texto y estéticamente bella. Para acceder a archivos PDF en línea, a menudo se necesita un programa específico. Hoy en día, para muchas publicaciones digitales importantes se necesitan archivos PDF. Muchas empresas utilizan archivos PDF para crear documentos y facturas profesionales. Los desarrolladores suelen utilizar bibliotecas para crear documentos PDF que satisfagan necesidades específicas de los consumidores. La evolución de las bibliotecas modernas ha simplificado el proceso de producción de PDF. Es fundamental tener en cuenta las capacidades de creación, lectura y conversión a la hora de seleccionar la biblioteca adecuada para un proyecto que requiera la creación de archivos PDF, con el fin de garantizar una integración perfecta y el máximo rendimiento. Hay muchas bibliotecas de Python disponibles, pero en este artículo vamos a utilizar IronPDF, una potente biblioteca de procesamiento de PDF.

2.0 IronPDF

Python ofrece a los programadores mucha más flexibilidad que otros lenguajes y permite diseñar interfaces gráficas de usuario de forma sencilla y eficaz. Por lo tanto, incorporar la biblioteca IronPDF a Python es un proceso sencillo. Para crear de forma rápida y segura una interfaz gráfica de usuario totalmente funcional, se puede utilizar una serie de herramientas preinstaladas, como PyQt, wxWidgets, Kivy y otros paquetes y bibliotecas.

IronPDF simplifica el diseño y el desarrollo web con Python. Esto se debe principalmente a la abundancia de marcos de desarrollo web de Python disponibles, como Django, Flask y Pyramid. Algunos sitios web y servicios en línea notables que han empleado estos marcos son Reddit, Mozilla y Spotify.

Cómo extraer una tabla de un PDF en Python

Descargar un módulo Python para extraer tablas de PDF
Utiliza el FromFile para importar el archivo PDF
Extraer texto de las tablas con la función ExtraerTodoTexto método
Iterar por el texto extraído para dividir las filas
Envía el texto extraído a la consola o a un archivo de texto

2.1 Características de IronPDF

A continuación se indican algunas características de IronPDF:

Los archivos PDF pueden crearse a partir de fuentes como HTML, HTML5, ASP, PHP, etc. Además, los archivos de imagen se pueden convertir a PDF junto con los archivos HTML.
IronPDF permite crear documentos PDF interactivos. Ofrece funciones como dividir y combinar archivos PDF, extraer texto e imágenes de archivos PDF, rasterizar páginas PDF en imágenes, convertir PDF a HTML, imprimir archivos PDF, rellenar y enviar formularios interactivos, y dividir y combinar archivos PDF.
Con IronPDF, es posible generar un documento a partir de una URL. También admite agentes de usuario que inician sesión mediante formularios de inicio de sesión HTML, proxies, cookies, cabeceras HTTP, credenciales de inicio de sesión de red especiales, variables de formulario y agentes de usuario.
El programa IronPDF permite inspeccionar y anotar archivos PDF.
IronPDF permite extraer imágenes de documentos.
IronPDF ofrece a los usuarios la posibilidad de añadir encabezados, pies de página, texto, fotos, marcadores, marcas de agua y mucho más a los documentos.
Con IronPDF, puede dividir y combinar páginas en un documento nuevo o existente.
Convertir documentos en objetos PDF es posible sin necesidad de un visor Acrobat.
IronPDF permite crear un documento PDF a partir de un archivo CSS.
Con IronPDF se pueden crear documentos utilizando archivos CSS que contengan definiciones de tipo multimedia.

3.0 Configurar el entorno Python

3.1 Configuración de Python

Asegúrese de que Python está instalado en su ordenador. Para descargar y configurar la versión más reciente de Python para su sistema operativo, vaya a la página oficial de Python sitio web. Una vez instalado Python, segregue los requisitos de su proyecto creando un entorno virtual. Con la ayuda del módulo venv, puede crear y gestionar entornos virtuales para ofrecer a su proyecto de conversión un espacio de trabajo ordenado y organizado.

3.2 Nuevo proyecto en PyCharm

Para este tutorial, utilizaremos PyCharm, un IDE para el desarrollo en Python.

Después de iniciar el IDE PyCharm, seleccione "Nuevo proyecto" en el menú, como se muestra en la figura siguiente.

Cómo extraer una tabla de un PDF en Python: Figura 1

Como se ve en la imagen de abajo, al elegir "Nuevo proyecto", aparecerá una nueva ventana que le permitirá definir la ubicación del proyecto y el entorno Python.

Cómo extraer una tabla de un PDF en Python: Figura 2

Tras seleccionar la ubicación y el entorno del proyecto, pulse el botón "Crear" para iniciarlo. Los archivos Python pueden abrirse en la ventana recién lanzada para que introduzcas tu código. Esta guía utiliza Python 3.9.

Cómo extraer una tabla de un PDF en Python: Figura 3

3.3 Requisitos de la biblioteca IronPDF

IronPDF for Python se basa en .NET 6.0 como tecnología central. Por lo tanto, para poder utilizar IronPDF Python, su ordenador debe tener instalado el tiempo de ejecución .NET 6.0. Es posible que los usuarios de Linux y Mac necesiten instalar Dot NET antes de poder utilizar este módulo de Python. Para adquirir el entorno de ejecución necesario, visite este enlace enlace.

3.4 Configuración de la biblioteca IronPDF

Es necesario instalar el paquete ironpdf para crear, editar y abrir archivos con extensión ".pdf". Para instalar el paquete en PyCharm, abra una ventana de terminal y escriba el siguiente comando:

 pip install ironpdf

La siguiente captura de pantalla ilustra el proceso de instalación del paquete ironpdf.

Cómo extraer una tabla de un PDF en Python: Figura 4

4.0 Extracción de datos de tabla de un archivo PDF

Podemos extraer datos de archivos PDF sin esfuerzo utilizando la biblioteca IronPDF Python. IronPDF facilita el análisis de datos de texto y la extracción de tablas de archivos PDF. A continuación se muestra un código de ejemplo que demuestra cómo extraer datos de tablas PDF, utilizando la imagen proporcionada como referencia.

Cómo extraer una tabla de un PDF en Python: Figura 5

from ironpdf import *
pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

from ironpdf import *
pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

PYTHON

El código proporcionado demuestra cómo se puede utilizar IronPDF para extraer tablas de archivos PDF utilizando sólo unas pocas líneas de código Python. Inicialmente, importamos la biblioteca IronPDF para acceder a su funcionalidad. Al utilizar la biblioteca, obtenemos acceso a todas las funciones de IronPDF. A continuación, con la ayuda de la clase PdfDocument, podemos procesar archivos PDF existentes, lo que nos permite realizar diversas operaciones con ellos.

Cuando se utiliza la función FromFile, se dispone del argumento para cargar el archivo PDF de entrada. Pasando la ubicación del archivo como parámetro, podemos cargar un archivo PDF existente. A continuación, utilizamos la función ExtractAllText para extraer todos los datos de la tabla de todas las páginas de los archivos PDF. A continuación, utilizamos la función Split para dividir los datos extraídos de la tabla en varias filas y mostrarlas en la pantalla de la consola.

Cómo extraer una tabla de un PDF en Python: Figura 6

En la salida anterior, los datos se muestran fila por fila, mostrando cómo se pueden extraer los datos de la tabla. Si desea obtener más información sobre IronPDF, consulte lo siguiente artículo.

5.0 Conclusión

La biblioteca IronPDF proporciona sólidas medidas de seguridad para minimizar los riesgos potenciales y garantizar la seguridad de los datos. Es compatible con todos los navegadores populares y no se limita a ninguno en concreto. Con IronPDF, los programadores pueden crear y leer eficazmente archivos PDF utilizando sólo unas pocas líneas de código. Para satisfacer las diversas necesidades de los desarrolladores, la biblioteca IronPDF ofrece varias opciones de licencia, incluida una licencia de desarrollador gratuita y licencias de desarrollo adicionales disponibles para su compra.

El paquete Lite, con un precio de $749, incluye una licencia perpetua, una garantía de devolución del dinero de 30 días, un año de mantenimiento del software y posibilidades de actualización. No hay más gastos después de la compra inicial, y estas licencias pueden utilizarse en entornos de producción, ensayo y desarrollo. IronPDF también ofrece licencias gratuitas con algunas limitaciones temporales y de redistribución. Los usuarios pueden probar el producto en un entorno real con un prueba gratuita que no incluya una marca de agua. Para obtener información detallada sobre el coste y las licencias de la versión de prueba de IronPDF, haga clic en lo siguiente enlace.

< ANTERIOR
Cómo escribir un archivo PDF en Python

SIGUIENTE >
Cómo descargar PDF desde una URL en Python