PYTHON帮助

fastparquet Python(为开发人员提供的工作原理)

介绍

fastparquet 是一个 Python 库,旨在处理常用于大数据工作流的 Parquet 文件格式。 它可以与其他基于 Python 的数据处理工具(如 Dask 和 Pandas)很好地集成。 让我们探索一下它的功能,并看看一些代码示例。 在本文的后面部分,我们还将了解来自Iron Software的PDF生成库IronPDF

fastparquet 概述

fastparquet 高效并支持多种 Parquet 功能。 其主要功能包括

读写 Parquet 文件

轻松读取和写入 Parquet 文件和其他数据文件。

与 Pandas 和 Dask 集成

与 Pandas DataFrames 和 Dask 无缝协作,实现并行处理。

压缩支持

支持数据文件中的各种压缩算法,如 gzip、snappy、brotli、lz4 和 zstandard。

高效存储

使用 parquet 列式文件格式和指向文件的元数据文件,对大型数据集或数据文件的存储和检索进行了优化。

安装

您可以使用 pip 安装 fastparquet

pip install fastparquet
pip install fastparquet
SHELL

或者使用 conda:

conda install -c conda-forge fastparquet
py
PYTHON

基本用法

下面是一个简单的例子,让您开始使用 fastparquet。

编写 Parquet 文件

您可以将 Pandas DataFrame 写入 Parquet 文件:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
py
PYTHON

输出

fastparquet Python(它如何为开发者工作):图 1 - 控制台输出

读取 Parquet 文件

您可以将 Parquet 文件读入 Pandas DataFrame:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
py
PYTHON

输出

fastparquet Python(它如何为开发人员工作):图 2 - 控制台输出

显示 Parquet 文件元数据

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
py
PYTHON

输出

fastparquet Python(开发者指南):图 3 - 控制台输出

高级功能

使用 Dask 进行并行处理

fastparquet Python 可以很好地与Dask集成,以便并行处理大型数据集:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
py
PYTHON

自定义压缩

在编写 Parquet 文件时,您可以指定不同的压缩算法:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
py
PYTHON

介绍IronPDF

fastparquet Python(它如何为开发人员工作):图 4 - IronPDF for Python:Python PDF 库

IronPDF 是一个强大的 Python 库,用于从 HTML、CSS、图像和 JavaScript 生成、修改和数字签名 PDF 文档。 它在保持最低内存占用的同时,还具有卓越的性能。 以下是其主要特点:

HTML 转换为 PDF

使用 IronPDF 将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。 例如,使用 Chrome PDF 渲染器轻松将网页渲染为 PDF

2.跨平台支持

兼容 Windows、Mac、Linux 和各种云平台上的 Python 3+。 IronPDF 也可用于 .NET、Java、Python 和 Node.js 环境。

3.编辑和签名

使用 IronPDF 修改文档属性,通过密码保护和权限增强安全性,并将数字签名集成到您的 PDF 中。

4.页面模板和设置

使用自定义的页眉、页脚页码和可调整的页边距来定制PDF。 它支持响应式布局,并适应自定义纸张尺寸。

5.符合标准

符合 PDF/A 和 PDF/UA 等 PDF 标准。 它可以处理 UTF-8 字符编码,并有效管理图片、CSS 样式表和字体等资产。

使用IronPDF和fastparquet生成PDF文档

IronPDF for Python 的先决条件

  1. IronPDF 依赖于 .NET 6.0 作为其底层技术。 因此,请确保您的系统上已安装 .NET 6.0 运行时

  2. Python 3.0+:确保已安装 Python 3 或更高版本。

  3. pip: 安装Python包管理工具pip,用于安装IronPDF包。

安装

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
py
PYTHON

代码示例

下面的代码示例演示了在 Python 中如何一起使用 fastparquet 和 IronPDF:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
py
PYTHON

代码解释

本代码片段演示了如何利用几个 Python 库来处理数据并从 HTML 内容生成 PDF 文档。

  1. 导入和设置:用于数据操作的fastparquet导入和IronPDF导入语句,分别用于读取和写入Parquet文件以及生成PDF。

  2. 设置许可证密钥:为 IronPDF 设置许可证密钥,启用其功能。

  3. 创建示例 DataFrame:定义一个包含个人信息(姓名、年龄、城市)的示例 DataFrame(`df`)。

  4. 将 DataFrame 写入 Parquet:将 DataFrame `df` 写入名为 `example.parquet` 的 Parquet 文件。

  5. 从 Parquet 文件读取:从 Parquet 文件(example.parquet)中读回数据到数据框(df_read)。

  6. 从HTML生成PDF:使用IronPDF初始化一个ChromePdfRenderer实例。

  7. HTML 字符串:构建一个包含标题(`

    `)和段落(`

    `)的 HTML 字符串(`content`),用于显示原始数据框(`df`)和从 Parquet 文件读取的数据框(`df_read`)。

  8. `pdf = renderer.RenderHtmlAsPdf(content)`:使用 IronPDF 将 HTML 内容 (`content`) 渲染为 PDF 文档。

  9. `pdf.SaveAs("Demo-FastParquet.pdf")`:将生成的 PDF 文档保存为 `Demo-FastParquet.pdf`。

    代码演示了 FastParquet 的示例代码,然后将数据处理功能与 PDF 生成无缝集成,使其在根据存储在 parquet 文件中的数据创建报告或文档时非常有用。

输出

fastparquet Python(它如何为开发者工作):图5 - 控制台输出显示了原始Dataframe和从Parquet文件读取的Dataframe的数据。

输出 PDF

fastparquet Python(开发者如何使用):图 6 - 使用 IronPDF 库生成的输出 PDF

IronPDF 许可证

IronPDF 页面。

在使用IronPDF package之前,请将许可证密钥放在脚本的开头:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
py
PYTHON

结论

fastparquet 是一个用于在 Python 中处理 parquet 文件的强大且高效的库。 它与 Pandas 和 Dask 的集成使其成为在基于 Python 的大数据工作流程中处理大型数据集的最佳选择。 IronPDF 是一个强大的 Python 库,可以直接从 Python 应用程序中创建、操作和渲染 PDF 文档。 它简化了将 HTML 内容转换为 PDF 文档、创建交互式表单以及执行各种 PDF 操作(如合并文件或添加水印)等任务。 IronPDF 无缝集成到现有的 Python 框架和环境中,为开发人员提供了一个用于动态生成和自定义 PDF 文档的多功能解决方案。 结合fastparquetIronPDF数据,能够无缝地处理parquet文件格式和生成PDF。

IronPDF 提供了详尽的文档和代码示例,帮助开发者充分利用其功能。 有关更多信息,请参阅文档代码示例页面。

查克尼特·宾
软件工程师
Chaknith 负责 IronXL 和 IronBarcode 的工作。他在 C# 和 .NET 方面拥有深厚的专业知识,帮助改进软件并支持客户。他从用户互动中获得的洞察力,有助于提升产品、文档和整体体验。
< 前一页
Flask Python(它是如何为开发人员工作的)
下一步 >
Keras Python(开发者如何工作)

准备开始了吗? 版本: 2025.5 刚刚发布

查看许可证 >