PYTHON帮助

fastparquet Python(为开发人员提供的工作原理)

发布 2024年八月13日
分享:

介绍

fastparquet是一个 Python 库,旨在处理大数据工作流中常用的 Parquet 文件格式。 它可以与其他基于 Python 的数据处理工具(如 Dask 和 Pandas)很好地集成。 让我们探索一下它的功能,并看看一些代码示例。 在本文后面,我们还将了解到IronPDF的 PDF 生成库铁软件.

fastparquet 概述

fastparquetParquet®是一款高效的软件,支持广泛的 Parquet 功能。 其主要功能包括

读写 Parquet 文件

轻松读取和写入 Parquet 文件和其他数据文件。

与 Pandas 和 Dask 集成

与 Pandas DataFrames 和 Dask 无缝协作,实现并行处理。

压缩支持

支持数据文件中的各种压缩算法,如 gzip、snappy、brotli、lz4 和 zstandard。

高效存储

使用 parquet 列式文件格式和指向文件的元数据文件,对大型数据集或数据文件的存储和检索进行了优化。

安装

您可以安装fastparquet使用 pip:

pip install fastparquet

或者使用 conda:

conda install -c conda-forge fastparquet
PYTHON

基本用法

下面是一个简单的例子,让您开始使用 fastparquet。

编写 Parquet 文件

您可以将 Pandas DataFrame 写入 Parquet 文件:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

输出

fastparquet Python(开发者如何使用):图1 - 控制台输出

读取 Parquet 文件

您可以将 Parquet 文件读入 Pandas DataFrame:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
PYTHON

输出

fastparquet Python(开发人员工作方式):图2 - 控制台输出

显示 Parquet 文件元数据

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

输出

fastparquet Python(开发人员如何使用):图3 - 控制台输出

高级功能

使用 Dask 进行并行处理

fastparquet python 与以下工具集成良好Dask用于并行处理大规模数据集:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
PYTHON

自定义压缩

在编写 Parquet 文件时,您可以指定不同的压缩算法:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

介绍IronPDF

fastparquet Python(开发者如何使用):图4 - IronPDF for Python:Python PDF 库

IronPDF是一个强大的 Python 库,用于生成、修改和数字签名源自 HTML、CSS、图像和 JavaScript 的 PDF 文档。 它在保持最低内存占用的同时,还具有卓越的性能。 以下是其主要特点:

HTML 转换为 PDF

使用 IronPDF 将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。 例如,毫不费力地将网页渲染成PDF使用 Chrome PDF 渲染器。

2.跨平台支持

兼容 Windows、Mac、Linux 和各种云平台上的 Python 3+。 IronPDF 也可用于 .NET、Java、Python 和 Node.js 环境。

3.编辑和签名

修改文档属性,使用密码保护和权限,并集成数字签名使用IronPDF将其添加到您的PDF中。

4.页面模板和设置

定制 PDF页眉、页脚, 页码此外,译文还必须具有可调整的页边距。 它支持响应式布局,并适应自定义纸张尺寸。

5.符合标准

符合 PDF/A 和 PDF/UA 等 PDF 标准。 它可以处理 UTF-8 字符编码,并有效管理图片、CSS 样式表和字体等资产。

使用IronPDF和fastparquet生成PDF文档

IronPDF for Python 的先决条件

  1. IronPDF该手册以 .NET 6.0 为基础技术。 因此,请确保.NET 6.0 运行时已安装在您的系统上。

  2. Python 3.0+:确保已安装 Python 3 或更高版本。

  3. pip:安装 Python 软件包的安装程序pip用于安装IronPDF软件包。

安装

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
PYTHON

代码示例

下面的代码示例演示了在 Python 中如何一起使用 fastparquet 和 IronPDF:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

代码解释

本代码片段演示了如何利用几个 Python 库来处理数据并从 HTML 内容生成 PDF 文档。

  1. 导入和设置:fastparquet 导入和 IronPDF 导入语句,分别用于数据操作、读写 Parquet 文件和生成 PDF。

  2. 设置许可证密钥:设置 IronPDF 的许可证密钥,启用其功能。

  3. 创建示例数据帧:定义示例数据帧(df)包含关于个人的信息(姓名, 年龄, 城市).

  4. 将 DataFrame 写入 Parquet:将 DataFrame `df` 写入名为 `example.parquet` 的 Parquet 文件。

  5. 从 Parquet 文件读取:从 Parquet 文件读取数据(example.parquet)回到 DataFrame(df_read).

  6. 从 HTML 生成 PDF:使用 IronPDF 初始化一个 ChromePdfRenderer 实例。

  7. HTML 字符串:构建 HTML 字符串(`内容`)包括一个标题(`

    `)和段落(`

    `)显示原始DataFrame(df)从Parquet文件读取的数据框(df_read).

  8. `pdf = renderer.RenderHtmlAsPdf(内容)`:渲染HTML内容(`内容`)作为 PDF 文档使用 IronPDF。

  9. \PDF.SaveAs("Demo-FastParquet.pdf")`:将生成的 PDF 文档保存为 \ Demo-FastParquet.pdf\

    代码演示了 FastParquet 的示例代码,然后将数据处理功能与 PDF 生成无缝集成,使其在根据存储在 parquet 文件中的数据创建报告或文档时非常有用。

输出

fastparquet Python(适用于开发者的工作原理):图 5 - 控制台输出显示原始数据框和从 Parquet 文件读取的数据框的数据。

输出 PDF

fastparquet Python(开发人员操作方式):图6 - 使用IronPDF库生成的输出PDF

IronPDF 许可证

IronPDFpage.

在使用前将许可密钥放在脚本的开头IronPDF 软件包:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

结论

fastparquet是一个功能强大且高效的库,用于在 Python 中处理 parquet 文件。 它与 Pandas 和 Dask 的集成使其成为在基于 Python 的大数据工作流程中处理大型数据集的最佳选择。 IronPDF是一个强大的 Python 库,可帮助直接从 Python 应用程序创建、操作和渲染 PDF 文档。 它简化了将 HTML 内容转换为 PDF 文档、创建交互式表单以及执行各种 PDF 操作(如合并文件或添加水印)等任务。 IronPDF该工具与现有的 Python 框架和环境无缝集成,为开发人员提供了动态生成和自定义 PDF 文档的多功能解决方案。 与fastparquetIronPDF数据一起,可以无缝操作parquet文件格式和生成PDF。

IronPDF该工具提供了全面的文档和代码示例,可帮助开发人员充分利用其功能。 欲了解更多信息,请参阅文献资料代码示例页码

< 前一页
Flask Python(它是如何为开发人员工作的)
下一步 >
Keras Python(开发者如何工作)