Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
PyArrow es una potente biblioteca que proporciona una interfaz Python para el framework Apache Arrow. Apache Arrow es una plataforma de desarrollo multilingüe para datos en memoria. Especifica un formato de memoria columnar estandarizado e independiente del lenguaje para datos planos y jerárquicos, organizado para operaciones analíticas eficientes en hardware moderno.PyArrow es básicamente Apache Arrow Python Bindings realizado como un paquete python. PyArrow permite el intercambio eficaz de datos y la interoperabilidad entre distintos sistemas de tratamiento de datos y lenguajes de programación. Más adelante en este artículo, también aprenderemos sobreIronPDFuna biblioteca de generación de PDF desarrollada por**Software de hierro.
Formato de memoria columnar:
PyArrow utiliza un formato de memoria en columnas, que es muy eficiente para las operaciones de análisis en memoria. Este formato permite una mejor utilización de la caché de la CPU y operaciones vectorizadas, por lo que es ideal para tareas de procesamiento de datos. PyArrow puede leer y escribir eficientemente estructuras de archivos parquet debido a su naturaleza columnar.
Interoperabilidad: Una de las principales ventajas de PyArrow es su capacidad para facilitar el intercambio de datos entre diferentes lenguajes de programación y sistemas sin necesidad de serialización o deserialización. Esto resulta especialmente útil en entornos en los que se utilizan varios lenguajes, como la ciencia de datos y el aprendizaje automático.
Integración con Pandas: PyArrow puede ser utilizado como backend para Pandas, permitiendo una eficiente manipulación y almacenamiento de datos. A partir de Pandas 2.0, es posible almacenar datos en arrays Arrow en lugar de arrays NumPy, lo que puede suponer mejoras en el rendimiento, especialmente cuando se trata de datos de cadenas.
Soporte para varios tipos de datos: PyArrow soporta una amplia gama de tipos de datos, incluyendo tipos primitivos(números enteros, números en coma flotante)tipos complejos(structs, listas)y tipos anidados. Esto lo hace versátil para manejar diferentes tipos de datos.
Para instalarPyArrowpuede utilizarpip oconda:
pip install pyarrow
o
conda install pyarrow -c conda-forge
Estamos utilizandoCódigo de Visual Studio como editor de código. Comienza creando un nuevo archivo, pyarrowDemo.py.
He aquí un ejemplo sencillo de cómo utilizar PyArrow para crear una tabla y realizar algunas operaciones básicas:
import pyarrow as pa
import pyarrow.dataset as pt
# Create a PyArrow table
data = [
pa.array([1, 2, 3]),
pa.array(['a', 'b', 'c']),
pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])
# Display the table
print(table)
El código Python utiliza PyArrow para crear una tabla(`pa.Table`) a partir de tres matrices(\
pa.array`). A continuación, imprime la tabla, mostrando columnas denominadas "col1", "col2" y "col3", cada una de las cuales contiene los datos correspondientes de enteros, cadenas y flotantes.
PyArrow puede integrarse perfectamente conPandas para mejorar el rendimiento, especialmente cuando se trata de grandes conjuntos de datos. Aquí tienes un ejemplo de conversión de un DataFrame de Pandas a una Tabla PyArrow:
import pandas as pd
import pyarrow as pa
# Create a Pandas DataFrame
df = pd.DataFrame({
'col1': [1, 2, 3],
'col2': ['a', 'b', 'c'],
'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
El código Python convierte un DataFrame de Pandas en una tabla PyArrow(`pa.Table`) e imprime la tabla. El DataFrame consta de tres columnas(\
col1`, `col2`, `col3`) con datos enteros, de cadena y flotantes.
PyArrow soporta la lectura y escritura de varios formatos de archivo como Parquet y Feather. Estos formatos están optimizados para el rendimiento y se utilizan ampliamente en las cadenas de procesamiento de datos.
PyArrow soporta el acceso a archivos mapeados en memoria, lo que permite una lectura y escritura eficiente de grandes conjuntos de datos sin necesidad de cargar todo el conjunto de datos en memoria.
PyArrow proporciona herramientas para la comunicación entre procesos, lo que permite compartir datos de forma eficiente entre diferentes procesos.
IronPDF es una biblioteca para Python que facilita el trabajo con archivos PDF, permitiendo tareas como la creación, edición y manipulación de documentos PDF mediante programación. Ofrece funciones comogenerar PDF a partir de HTMLañadir texto, imágenes y formas a los PDF existentes, así comoextracción de texto e imágenes de archivos PDF. Estas son algunas de las principales características
IronPDF puede convertir fácilmente archivos HTML, cadenas HTML y URL en documentos PDF. Utiliza el renderizador de PDF de Chrome pararenderizar páginas web directamente en formato PDF.
IronPDF es compatible con Python 3+ y funciona sin problemas en Windows, Mac, Linux y plataformas en la nube. También se admite en.NET, Java, Pythony**Nodo.js. entornos.
Mejore los documentos PDF estableciendo propiedades, añadiendo funciones de seguridad comocontraseñas y permisosyaplicación de firmas digitales.
Con IronPDF, puede personalizar los archivos PDFencabezados, pies de página, números de páginay márgenes ajustables. Admite diseños adaptables y permite establecer tamaños de papel personalizados.
IronPDF cumple los estándares PDF, incluidos PDF/A y PDF/UA. AdmiteCodificación de caracteres UTF-8 y maneja a la perfección activos como imágenes, estilos CSS y fuentes.
1.IronPDF utiliza .NET 6.0 como tecnología subyacente. Por lo tanto, usted tieneTiempo de ejecución de .NET 6.0 instalado en su sistema.
Python 3.0+: Necesita tener instalada la versión 3 o posterior de Python.
pip: Instalador de paquetes de Pythonpip para la instalación del paquete IronPDF.
Instale las bibliotecas necesarias:
pip install pyarrow
pip install ironpdf
A continuación, añada el siguiente código para demostrar el uso de los paquetes IronPDF y pyarrow python
import pandas as pd
import pyarrow as pa
from ironpdf import *
# Apply your license key
License.LicenseKey = "license"
# Create a Pandas DataFrame
df = pd.DataFrame({
'col1': [1, 2, 3],
'col2': ['a', 'b', 'c'],
'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"
for row in table:
# Access specific values in a row
value_in_column1 = row[0]
value_in_column2 = row[1]
value_in_column3 = row[2]
content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("DemoPyarrow.pdf")
El script demuestra la integración de las librerías Pandas, PyArrow y IronPDF para crear un documento PDF a partir de datos almacenados en un DataFrame de Pandas:
Creación de DataFrame de Pandas:
Conversión a tabla PyArrow:
Generación de PDF con IronPDF:
Coloque la clave de licencia al inicio del script antes de utilizar el paquete IronPDF:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
PyArrow es una biblioteca versátil y potente que mejora las capacidades de Python para tareas de procesamiento de datos. Su eficiente formato de memoria, sus funciones de interoperabilidad y su integración con Pandas lo convierten en una herramienta esencial para los científicos e ingenieros de datos. Tanto si trabaja con grandes conjuntos de datos, como si realiza manipulaciones de datos complejas o construye pipelines de procesamiento de datos, PyArrow ofrece el rendimiento y la flexibilidad necesarios para manejar estas tareas con eficacia. Por otro lado,IronPDF es una robusta biblioteca de Python que simplifica la creación, manipulación y representación de documentos PDF directamente desde aplicaciones Python. Se integra a la perfección con los marcos de trabajo de Python existentes, lo que permite a los desarrolladores generar y personalizar PDF de forma dinámica. Junto con ambosPyArrow yIronPDF python, los usuarios pueden procesar estructuras de datos con facilidad y archivar los datos.
IronPDF también proporciona documentación completa para ayudar a los desarrolladores a empezar, acompañada de numerosos ejemplos de código que muestran sus potentes capacidades. Para más información, visite la páginadocumentación yejemplos de código páginas.
9 productos API .NET para sus documentos de oficina