Ir para o conteúdo do rodapé
AJUDA DO PYTHON

fastparquet em Python (Como funciona para desenvolvedores)

fastparquet é uma biblioteca Python projetada para lidar com o formato de arquivo Parquet, comumente usado em fluxos de trabalho de big data. Ele se integra bem com outras ferramentas de processamento de dados baseadas em Python, como Dask e Pandas. Vamos explorar suas funcionalidades e ver alguns exemplos de código. Mais adiante neste artigo, também aprenderemos sobre o IronPDF , uma biblioteca de geração de PDFs da Iron Software .

Visão geral do fastparquet

O fastparquet é eficiente e suporta uma ampla gama de recursos de Parquet. Algumas de suas principais características incluem:

Leitura e escrita de arquivos Parquet

Leia e escreva facilmente em arquivos Parquet e outros arquivos de dados.

Integração com Pandas e Dask

Trabalhe perfeitamente com DataFrames do Pandas e Dask para processamento paralelo.

Suporte de compressão

Suporta diversos algoritmos de compressão, como gzip, snappy, brotli, lz4 e zstandard em arquivos de dados.

Armazenamento eficiente

Otimizado para armazenamento e recuperação de grandes conjuntos de dados ou arquivos de dados usando o formato de arquivo colunar Parquet e arquivo de metadados apontando para o arquivo.

Instalação

Você pode instalar o fastparquet usando o pip:

pip install fastparquet
pip install fastparquet
SHELL

Ou usando o conda:

conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
SHELL

Uso básico

Aqui está um exemplo simples para você começar a usar o fastparquet.

Escrevendo um arquivo Parquet

Você pode gravar um DataFrame do Pandas em um arquivo Parquet:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

Saída

fastparquet Python (Como funciona para desenvolvedores): Figura 1 - Saída do console

Como ler um arquivo Parquet

Você pode ler um arquivo Parquet e armazená-lo em um DataFrame do Pandas:

import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
PYTHON

Saída

fastparquet Python (Como funciona para desenvolvedores): Figura 2 - Saída do console

Exibindo metadados de arquivo Parquet

import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

Saída

fastparquet Python (Como funciona para desenvolvedores): Figura 3 - Saída do console

Recursos avançados

Utilizando Dask para processamento paralelo

O fastparquet integra-se bem com o Dask para lidar com grandes conjuntos de dados em paralelo:

import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
PYTHON

Personalizando a compressão

Você pode especificar diferentes algoritmos de compressão ao gravar arquivos Parquet:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

Apresentando o IronPDF

fastparquet Python (Como funciona para desenvolvedores): Figura 4 - IronPDF for Python: A biblioteca PDF for Python

IronPDF é uma biblioteca Python robusta criada para gerar, modificar e assinar digitalmente documentos PDF derivados de HTML, CSS, imagens e JavaScript. Ele se destaca em desempenho, mantendo ao mesmo tempo uma pegada de memória mínima. Eis suas principais características:

1. Conversão de HTML para PDF

Converta arquivos HTML, strings HTML e URLs em documentos PDF com o IronPDF. Por exemplo, converta páginas da web em PDFs sem esforço usando o renderizador de PDF do Chrome.

2. Suporte multiplataforma

Compatível com Python 3+ em Windows, Mac, Linux e diversas plataformas em nuvem. O IronPDF também está disponível para ambientes .NET, Java, Python e Node.js

3. Edição e Assinatura

Modifique as propriedades do documento, aprimore a segurança com proteção por senha e permissões e integre assinaturas digitais em seus PDFs usando o IronPDF.

4. Modelos de página e configurações

Personalize PDFs com cabeçalhos, rodapés , números de página e margens ajustáveis. Suporta layouts responsivos e acomoda tamanhos de papel personalizados.

5. Conformidade com as normas

Compatível com padrões PDF como PDF/A e PDF/UA. Ele lida com a codificação de caracteres UTF-8 e gerencia recursos como imagens, folhas de estilo CSS e fontes de forma eficiente.

Gere documentos PDF usando IronPDF e fastparquet

Pré-requisitos do IronPDF for Python

  1. O IronPDF utiliza o .NET 6.0 como tecnologia subjacente. Portanto, certifique-se de que o runtime do .NET 6.0 esteja instalado em seu sistema.
  2. Python 3.0+: Certifique-se de ter a versão 3 ou posterior do Python instalada.
  3. pip: Instale o instalador de pacotes Python pip para instalar o pacote IronPDF .

Instalação

# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
SHELL

Exemplo de código

O exemplo de código a seguir demonstra o uso conjunto de fastparquet e IronPDF em Python:

import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

Explicação do código

Este trecho de código demonstra como utilizar diversas bibliotecas Python para manipular dados e gerar um documento PDF a partir de conteúdo HTML.

  1. Importação e Configuração: Importe as bibliotecas necessárias para manipulação de dados, leitura e gravação de arquivos Parquet e geração de PDFs.

  2. Configurar chave de licença: Defina a chave de licença do IronPDF para ativar todos os seus recursos.

  3. Criando um DataFrame de exemplo: Defina um DataFrame de exemplo (df) contendo informações sobre indivíduos (nome, idade, cidade).

  4. Escrevendo DataFrame em Parquet: Escreva o DataFrame df em um arquivo Parquet chamado example.parquet.

  5. Leitura de arquivo Parquet: Leia os dados do arquivo Parquet (example.parquet) de volta para um DataFrame (df_read).

  6. Gerar PDF a partir de HTML:
    • Inicialize uma instância de ChromePdfRenderer usando o IronPDF.
    • Construa uma string HTML (content) que inclua um cabeçalho (<h1>) e parágrafos (<p>) exibindo o DataFrame original (df) e o DataFrame lido do arquivo Parquet (df_read).
    • Renderize o conteúdo HTML como um documento PDF usando o IronPDF.
    • Salve o documento PDF gerado como Demo-FastParquet.pdf.

O código demonstra um exemplo de código para FastParquet, integrando recursos de processamento de dados com geração de PDF, tornando-o útil para criar relatórios ou documentos com base em dados armazenados em arquivos Parquet.

SAÍDA

fastparquet Python (Como funciona para desenvolvedores): Figura 5 - Saída do console exibindo dados do DataFrame original e do DataFrame lido do arquivo Parquet.

PDF de saída

fastparquet Python (Como funciona para desenvolvedores): Figura 6 - PDF de saída gerado usando a biblioteca IronPDF

Licença IronPDF

Para informações sobre licenças, visite a página de licenciamento do IronPDF .

Insira a chave de licença no início do script antes de usar o pacote IronPDF :

from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
PYTHON

Conclusão

fastparquet é uma biblioteca poderosa e eficiente para trabalhar com arquivos parquet em Python. Sua integração com Pandas e Dask o torna uma ótima opção para lidar com grandes conjuntos de dados em um fluxo de trabalho de big data baseado em Python. IronPDF é uma biblioteca Python robusta que facilita a criação, manipulação e renderização de documentos PDF diretamente de aplicações Python. Simplifica tarefas como converter conteúdo HTML em documentos PDF, criar formulários interativos e realizar diversas manipulações em PDFs, como mesclar arquivos ou adicionar marcas d'água. O IronPDF integra-se perfeitamente com as estruturas e ambientes Python existentes, fornecendo aos desenvolvedores uma solução versátil para gerar e personalizar documentos PDF dinamicamente. Em conjunto com o fastparquet , o IronPDF permite a manipulação perfeita de dados em formatos de arquivo Parquet e a geração de PDFs.

O IronPDF oferece documentação completa e exemplos de código para ajudar os desenvolvedores a aproveitarem ao máximo seus recursos. Para obter mais informações, consulte a documentação e as páginas de exemplos de código .

Curtis Chau
Redator Técnico

Curtis Chau é bacharel em Ciência da Computação (Universidade Carleton) e se especializa em desenvolvimento front-end, com experiência em Node.js, TypeScript, JavaScript e React. Apaixonado por criar interfaces de usuário intuitivas e esteticamente agradáveis, Curtis gosta de trabalhar com frameworks modernos e criar manuais ...

Leia mais

Equipe de suporte de ferro

Estamos online 24 horas por dia, 5 dias por semana.
Bater papo
E-mail
Liga para mim