PYTHON帮助

fastparquet Python(为开发人员提供的工作原理)

发布 2024年八月13日
分享:

简介

fastparquet 是一个专为处理Parquet文件格式而设计的Python库,Parquet文件格式常用于大数据工作流。它能够很好地与其他基于Python的数据处理工具(如Dask和Pandas)集成。让我们来探讨一下它的功能并看看一些代码示例。在本文的后面部分,我们还将学习关于 IronPDF的 PDF 生成库 IronSoftware.

fastparquet 概述

fastparquet 高效且支持多种 Parquet 功能。其一些主要特点包括:

读取和写入Parquet文件

轻松读取和写入Parquet文件及其他数据文件。

与 Pandas 和 Dask 的集成

无缝处理 Pandas DataFrame 和用于并行处理的 Dask。

支持压缩

支持各种压缩算法,如gzip、snappy、brotli、lz4和zstandard的文件。

高效存储

优化用于通过使用Parquet列式文件格式和指向文件的元数据文件进行大型数据集或数据文件的存储和检索。

安装

你可以安装 fastparquet 使用 pip:

pip install fastparquet

或者使用 conda:

conda install -c conda-forge fastparquet
PYTHON

基本用法

这里有一个简单的示例,帮助您快速上手使用fastparquet。

写入Parquet文件

您可以将Pandas DataFrame写入Parquet文件:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

输出

fastparquet Python(开发者如何使用):图1 - 控制台输出

读取Parquet文件

您可以将Parquet文件读取到Pandas DataFrame中:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
PYTHON

输出

fastparquet Python(开发人员工作方式):图2 - 控制台输出

显示 Parquet 文件元数据

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

输出

fastparquet Python(开发人员如何使用):图3 - 控制台输出

高级功能

使用Dask进行并行处理

fastparquet Python很好地集成了 Dask 用于并行处理大规模数据集:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
PYTHON

自定义压缩

您在编写Parquet文件时可以指定不同的压缩算法:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

IronPDF 简介

fastparquet Python(开发者如何使用):图4 - IronPDF for Python:Python PDF 库

IronPDF 是一款强大的Python库,专门用于生成、修改和数字签名从HTML、CSS、图像和JavaScript派生的PDF文档。它在保持最小内存占用的同时提供出色的性能。以下是其主要功能:

1. HTML 转换为 PDF

使用 IronPDF 将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。例如,轻松地 将网页渲染成PDF 使用 Chrome PDF 渲染器。

2. 跨平台支持

兼容Python 3+,支持Windows、Mac、Linux和各种云平台。IronPDF也可用于.NET、Java、Python和Node.js环境。

3. 编辑和签名

修改文档属性,通过增强安全性 密码保护和权限,并集成 数字签名 使用IronPDF将其添加到您的PDF中。

4. 页面模板和设置

使用自定义配置调整PDF 页眉、页脚, 页码,可调节边距。它支持响应式布局并适应自定义纸张尺寸。

5. 标准合规性

符合PDF/A和PDF/UA等PDF标准。它处理UTF-8字符编码,并有效管理图像、CSS样式表和字体等资产。

使用IronPDF和fastparquet生成PDF文档

IronPDF for Python 先决条件

  1. IronPDF 基于 .NET 6.0 作为其底层技术。因此,请确保 .NET 6.0 运行时 已安装在您的系统上。

  2. Python 3.0+:请确保安装了版本为3或以上的Python。

  3. pip:安装Python包管理器 pip 用于安装IronPDF软件包。

安装

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
PYTHON

代码示例

以下代码示例演示了在Python中将fastparquet和IronPDF一起使用:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

代码解释

这个代码示例演示了如何使用几个 Python 库来处理数据并从 HTML 内容生成 PDF 文档。

  1. 导入和设置: fastparquet 导入和 IronPDF 导入语句分别用于数据处理、读取和写入 Parquet 文件以及生成 PDF。!1. 设置许可证密钥:设置IronPDF的许可证密钥以启用其功能。!-- -->

  2. 创建示例数据框:定义一个示例数据框 (df) 包含关于个人的信息 (姓名, 年龄, 城市).

<!1. 将 DataFrame 写入 Parquet: 将 DataFrame `df` 写入名为 `example.parquet` 的 Parquet 文件。!-- -->

  1. 从Parquet文件读取:从Parquet文件读取数据 (example.parquet) 回到 DataFrame (df_read).
  1. 从HTML生成PDF:使用IronPDF初始化一个ChromePdfRenderer实例。

  2. HTML字符串:构建一个HTML字符串 (`内容`) 包括一个标题 (`

    `) 和段落 (`

    `) 显示原始DataFrame (df) 从Parquet文件读取的数据框 (df_read).

  3. `pdf = renderer.RenderHtmlAsPdf(内容)`:渲染HTML内容 (`内容`) 作为PDF文档,使用IronPDF。

  4. `pdf.SaveAs("Demo-FastParquet.pdf")`: 将生成的PDF文档保存为 `Demo-FastParquet.pdf`。

代码展示了FastParquet的示例代码,并且它无缝集成了数据处理能力和PDF生成,使其在基于parquet文件存储的数据制作报告或文档方面非常有用。

输出端

fastparquet Python(适用于开发者的工作原理):图 5 - 控制台输出显示原始数据框和从 Parquet 文件读取的数据框的数据。

输出 PDF

fastparquet Python(开发人员操作方式):图6 - 使用IronPDF库生成的输出PDF

IronPDF 许可证

IronPDF 页面。

将许可证密钥放在脚本的开头,然后再使用。 IronPDF 软件包:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

结论

fastparquet 是一个用于处理 Python 中 parquet 文件的强大而高效的库。它与 Pandas 和 Dask 的集成使其成为在基于 Python 的大数据工作流中处理大型数据集的绝佳选择。 IronPDF 是一个强大的Python库,可以直接从Python应用程序创建、操作和渲染PDF文档。它简化了将HTML内容转换为PDF文档、创建交互式表单以及执行各种PDF操作(如合并文件或添加水印)的任务。 IronPDF 与现有的Python框架和环境无缝集成,为开发人员提供了动态生成和定制PDF文档的多功能解决方案。结合fastparquetIronPDF,可以无缝地进行parquet文件格式的操作和PDF生成。

IronPDF 提供全面的文档和代码示例,帮助开发人员充分利用其功能。欲了解更多信息,请参阅 文献资料代码示例 页码

< 前一页
Flask Python(它是如何为开发人员工作的)
下一步 >
Keras Python(开发者如何工作)

准备开始了吗? 版本: 2024.9 刚刚发布

免费 pip 安装 查看许可证 >