在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
fastparquet 是一个 Python 库,旨在处理常用于大数据工作流的 Parquet 文件格式。 它可以与其他基于 Python 的数据处理工具(如 Dask 和 Pandas)很好地集成。 让我们探索一下它的功能,并看看一些代码示例。 在本文的后面部分,我们还将了解来自Iron Software的PDF生成库IronPDF。
fastparquet 高效并支持多种 Parquet 功能。 其主要功能包括
轻松读取和写入 Parquet 文件和其他数据文件。
与 Pandas DataFrames 和 Dask 无缝协作,实现并行处理。
支持数据文件中的各种压缩算法,如 gzip、snappy、brotli、lz4 和 zstandard。
使用 parquet 列式文件格式和指向文件的元数据文件,对大型数据集或数据文件的存储和检索进行了优化。
您可以使用 pip 安装 fastparquet:
pip install fastparquet
pip install fastparquet
或者使用 conda:
conda install -c conda-forge fastparquet
py
下面是一个简单的例子,让您开始使用 fastparquet。
您可以将 Pandas DataFrame 写入 Parquet 文件:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
py
您可以将 Parquet 文件读入 Pandas DataFrame:
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
py
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
py
fastparquet Python 可以很好地与Dask集成,以便并行处理大型数据集:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
py
在编写 Parquet 文件时,您可以指定不同的压缩算法:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
py
IronPDF 是一个强大的 Python 库,用于从 HTML、CSS、图像和 JavaScript 生成、修改和数字签名 PDF 文档。 它在保持最低内存占用的同时,还具有卓越的性能。 以下是其主要特点:
使用 IronPDF 将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。 例如,使用 Chrome PDF 渲染器轻松将网页渲染为 PDF。
兼容 Windows、Mac、Linux 和各种云平台上的 Python 3+。 IronPDF 也可用于 .NET、Java、Python 和 Node.js 环境。
使用 IronPDF 修改文档属性,通过密码保护和权限增强安全性,并将数字签名集成到您的 PDF 中。
使用自定义的页眉、页脚、页码和可调整的页边距来定制PDF。 它支持响应式布局,并适应自定义纸张尺寸。
符合 PDF/A 和 PDF/UA 等 PDF 标准。 它可以处理 UTF-8 字符编码,并有效管理图片、CSS 样式表和字体等资产。
IronPDF 依赖于 .NET 6.0 作为其底层技术。 因此,请确保您的系统上已安装 .NET 6.0 运行时。
Python 3.0+:确保已安装 Python 3 或更高版本。
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
py
下面的代码示例演示了在 Python 中如何一起使用 fastparquet 和 IronPDF:
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
py
本代码片段演示了如何利用几个 Python 库来处理数据并从 HTML 内容生成 PDF 文档。
导入和设置:用于数据操作的fastparquet导入和IronPDF导入语句,分别用于读取和写入Parquet文件以及生成PDF。
设置许可证密钥:为 IronPDF 设置许可证密钥,启用其功能。
创建示例 DataFrame:定义一个包含个人信息(姓名、年龄、城市)的示例 DataFrame(`df`)。
将 DataFrame 写入 Parquet:将 DataFrame `df` 写入名为 `example.parquet` 的 Parquet 文件。
从 Parquet 文件读取:从 Parquet 文件(example.parquet
)中读回数据到数据框(df_read
)。
从HTML生成PDF:使用IronPDF初始化一个ChromePdfRenderer实例。
HTML 字符串:构建一个包含标题(`
`)的 HTML 字符串(`content`),用于显示原始数据框(`df`)和从 Parquet 文件读取的数据框(`df_read`)。
`pdf = renderer.RenderHtmlAsPdf(content)`:使用 IronPDF 将 HTML 内容 (`content`) 渲染为 PDF 文档。
`pdf.SaveAs("Demo-FastParquet.pdf")`:将生成的 PDF 文档保存为 `Demo-FastParquet.pdf`。
代码演示了 FastParquet 的示例代码,然后将数据处理功能与 PDF 生成无缝集成,使其在根据存储在 parquet 文件中的数据创建报告或文档时非常有用。
IronPDF 页面。
在使用IronPDF package之前,请将许可证密钥放在脚本的开头:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
py
fastparquet 是一个用于在 Python 中处理 parquet 文件的强大且高效的库。 它与 Pandas 和 Dask 的集成使其成为在基于 Python 的大数据工作流程中处理大型数据集的最佳选择。 IronPDF 是一个强大的 Python 库,可以直接从 Python 应用程序中创建、操作和渲染 PDF 文档。 它简化了将 HTML 内容转换为 PDF 文档、创建交互式表单以及执行各种 PDF 操作(如合并文件或添加水印)等任务。 IronPDF 无缝集成到现有的 Python 框架和环境中,为开发人员提供了一个用于动态生成和自定义 PDF 文档的多功能解决方案。 结合fastparquet和IronPDF数据,能够无缝地处理parquet文件格式和生成PDF。