在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
fastparquet 是一个专为处理Parquet文件格式而设计的Python库,Parquet文件格式常用于大数据工作流。它能够很好地与其他基于Python的数据处理工具(如Dask和Pandas)集成。让我们来探讨一下它的功能并看看一些代码示例。在本文的后面部分,我们还将学习关于 IronPDF的 PDF 生成库 IronSoftware.
fastparquet 高效且支持多种 Parquet 功能。其一些主要特点包括:
轻松读取和写入Parquet文件及其他数据文件。
无缝处理 Pandas DataFrame 和用于并行处理的 Dask。
支持各种压缩算法,如gzip、snappy、brotli、lz4和zstandard的文件。
优化用于通过使用Parquet列式文件格式和指向文件的元数据文件进行大型数据集或数据文件的存储和检索。
你可以安装 fastparquet 使用 pip:
pip install fastparquet
或者使用 conda:
conda install -c conda-forge fastparquet
这里有一个简单的示例,帮助您快速上手使用fastparquet。
您可以将Pandas DataFrame写入Parquet文件:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
您可以将Parquet文件读取到Pandas DataFrame中:
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
fastparquet Python很好地集成了 Dask 用于并行处理大规模数据集:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
您在编写Parquet文件时可以指定不同的压缩算法:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
IronPDF 是一款强大的Python库,专门用于生成、修改和数字签名从HTML、CSS、图像和JavaScript派生的PDF文档。它在保持最小内存占用的同时提供出色的性能。以下是其主要功能:
使用 IronPDF 将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。例如,轻松地 将网页渲染成PDF 使用 Chrome PDF 渲染器。
兼容Python 3+,支持Windows、Mac、Linux和各种云平台。IronPDF也可用于.NET、Java、Python和Node.js环境。
修改文档属性,通过增强安全性 密码保护和权限,并集成 数字签名 使用IronPDF将其添加到您的PDF中。
使用自定义配置调整PDF 页眉、页脚, 页码,可调节边距。它支持响应式布局并适应自定义纸张尺寸。
符合PDF/A和PDF/UA等PDF标准。它处理UTF-8字符编码,并有效管理图像、CSS样式表和字体等资产。
IronPDF 基于 .NET 6.0 作为其底层技术。因此,请确保 .NET 6.0 运行时 已安装在您的系统上。
Python 3.0+:请确保安装了版本为3或以上的Python。
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
以下代码示例演示了在Python中将fastparquet和IronPDF一起使用:
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
这个代码示例演示了如何使用几个 Python 库来处理数据并从 HTML 内容生成 PDF 文档。
导入和设置: fastparquet 导入和 IronPDF 导入语句分别用于数据处理、读取和写入 Parquet 文件以及生成 PDF。!1. 设置许可证密钥:设置IronPDF的许可证密钥以启用其功能。!-- -->
df
) 包含关于个人的信息 (姓名, 年龄, 城市).<!1. 将 DataFrame 写入 Parquet: 将 DataFrame `df` 写入名为 `example.parquet` 的 Parquet 文件。!-- -->
example.parquet
) 回到 DataFrame (df_read
).从HTML生成PDF:使用IronPDF初始化一个ChromePdfRenderer实例。
HTML字符串:构建一个HTML字符串 (`内容`) 包括一个标题 (`
`) 显示原始DataFrame (df
) 从Parquet文件读取的数据框 (df_read
).
`pdf = renderer.RenderHtmlAsPdf(内容)`:渲染HTML内容 (`内容`) 作为PDF文档,使用IronPDF。
代码展示了FastParquet的示例代码,并且它无缝集成了数据处理能力和PDF生成,使其在基于parquet文件存储的数据制作报告或文档方面非常有用。
IronPDF 页面。
将许可证密钥放在脚本的开头,然后再使用。 IronPDF 软件包:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
fastparquet 是一个用于处理 Python 中 parquet 文件的强大而高效的库。它与 Pandas 和 Dask 的集成使其成为在基于 Python 的大数据工作流中处理大型数据集的绝佳选择。 IronPDF 是一个强大的Python库,可以直接从Python应用程序创建、操作和渲染PDF文档。它简化了将HTML内容转换为PDF文档、创建交互式表单以及执行各种PDF操作(如合并文件或添加水印)的任务。 IronPDF 与现有的Python框架和环境无缝集成,为开发人员提供了动态生成和定制PDF文档的多功能解决方案。结合fastparquet和IronPDF,可以无缝地进行parquet文件格式的操作和PDF生成。
IronPDF 提供全面的文档和代码示例,帮助开发人员充分利用其功能。欲了解更多信息,请参阅 文献资料 和 代码示例 页码