在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
fastparquet是一个 Python 库,旨在处理大数据工作流中常用的 Parquet 文件格式。 它可以与其他基于 Python 的数据处理工具(如 Dask 和 Pandas)很好地集成。 让我们探索一下它的功能,并看看一些代码示例。 在本文后面,我们还将了解到IronPDF的 PDF 生成库铁软件.
fastparquetParquet®是一款高效的软件,支持广泛的 Parquet 功能。 其主要功能包括
轻松读取和写入 Parquet 文件和其他数据文件。
与 Pandas DataFrames 和 Dask 无缝协作,实现并行处理。
支持数据文件中的各种压缩算法,如 gzip、snappy、brotli、lz4 和 zstandard。
使用 parquet 列式文件格式和指向文件的元数据文件,对大型数据集或数据文件的存储和检索进行了优化。
您可以安装fastparquet使用 pip:
pip install fastparquet
或者使用 conda:
conda install -c conda-forge fastparquet
下面是一个简单的例子,让您开始使用 fastparquet。
您可以将 Pandas DataFrame 写入 Parquet 文件:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
您可以将 Parquet 文件读入 Pandas DataFrame:
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
fastparquet python 与以下工具集成良好Dask用于并行处理大规模数据集:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
在编写 Parquet 文件时,您可以指定不同的压缩算法:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
IronPDF是一个强大的 Python 库,用于生成、修改和数字签名源自 HTML、CSS、图像和 JavaScript 的 PDF 文档。 它在保持最低内存占用的同时,还具有卓越的性能。 以下是其主要特点:
使用 IronPDF 将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。 例如,毫不费力地将网页渲染成PDF使用 Chrome PDF 渲染器。
兼容 Windows、Mac、Linux 和各种云平台上的 Python 3+。 IronPDF 也可用于 .NET、Java、Python 和 Node.js 环境。
修改文档属性,使用密码保护和权限,并集成数字签名使用IronPDF将其添加到您的PDF中。
定制 PDF页眉、页脚, 页码此外,译文还必须具有可调整的页边距。 它支持响应式布局,并适应自定义纸张尺寸。
符合 PDF/A 和 PDF/UA 等 PDF 标准。 它可以处理 UTF-8 字符编码,并有效管理图片、CSS 样式表和字体等资产。
IronPDF该手册以 .NET 6.0 为基础技术。 因此,请确保.NET 6.0 运行时已安装在您的系统上。
Python 3.0+:确保已安装 Python 3 或更高版本。
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
下面的代码示例演示了在 Python 中如何一起使用 fastparquet 和 IronPDF:
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
本代码片段演示了如何利用几个 Python 库来处理数据并从 HTML 内容生成 PDF 文档。
导入和设置:fastparquet 导入和 IronPDF 导入语句,分别用于数据操作、读写 Parquet 文件和生成 PDF。
设置许可证密钥:设置 IronPDF 的许可证密钥,启用其功能。
创建示例数据帧:定义示例数据帧(df
)包含关于个人的信息(姓名, 年龄, 城市).
将 DataFrame 写入 Parquet:将 DataFrame `df` 写入名为 `example.parquet` 的 Parquet 文件。
从 Parquet 文件读取:从 Parquet 文件读取数据(example.parquet
)回到 DataFrame(df_read
).
从 HTML 生成 PDF:使用 IronPDF 初始化一个 ChromePdfRenderer 实例。
HTML 字符串:构建 HTML 字符串(`内容`)包括一个标题(`
`)显示原始DataFrame(df
)从Parquet文件读取的数据框(df_read
).
`pdf = renderer.RenderHtmlAsPdf(内容)`:渲染HTML内容(`内容`)作为 PDF 文档使用 IronPDF。
\PDF.SaveAs("Demo-FastParquet.pdf")`:将生成的 PDF 文档保存为 \ Demo-FastParquet.pdf\
。
代码演示了 FastParquet 的示例代码,然后将数据处理功能与 PDF 生成无缝集成,使其在根据存储在 parquet 文件中的数据创建报告或文档时非常有用。
IronPDFpage.
在使用前将许可密钥放在脚本的开头IronPDF 软件包:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
fastparquet是一个功能强大且高效的库,用于在 Python 中处理 parquet 文件。 它与 Pandas 和 Dask 的集成使其成为在基于 Python 的大数据工作流程中处理大型数据集的最佳选择。 IronPDF是一个强大的 Python 库,可帮助直接从 Python 应用程序创建、操作和渲染 PDF 文档。 它简化了将 HTML 内容转换为 PDF 文档、创建交互式表单以及执行各种 PDF 操作(如合并文件或添加水印)等任务。 IronPDF该工具与现有的 Python 框架和环境无缝集成,为开发人员提供了动态生成和自定义 PDF 文档的多功能解决方案。 与fastparquet和IronPDF数据一起,可以无缝操作parquet文件格式和生成PDF。
IronPDF该工具提供了全面的文档和代码示例,可帮助开发人员充分利用其功能。 欲了解更多信息,请参阅文献资料和代码示例页码