在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
PyArrow 是一个强大的库,它为 Apache Arrow 框架提供了一个 Python 接口。 Apache Arrow 是一个跨语言的内存数据开发平台。 它指定了一种标准化的、与语言无关的列式内存格式,用于组织平面和层次结构数据,以便在现代硬件上高效地进行分析操作。PyArrow 基本上是作为一个 python 包实现的 Apache Arrow Python 绑定。 PyArrow 能够在不同的数据处理系统和编程语言之间实现高效的数据交换和互操作性。 在本文后面,我们还将了解由Iron Software开发的 PDF 生成库IronPDF。
柱状内存格式:
PyArrow 使用列式内存格式,对于内存中的分析操作非常高效。 这种格式可以更好地利用 CPU 缓存和矢量化操作,是数据处理任务的理想选择。 PyArrow 具有列式性质,可以高效读写 parquet 文件结构。
互操作性:PyArrow 的主要优势之一是其能够在不同的编程语言和系统之间进行数据交换,而不需要序列化或反序列化。 这在数据科学和机器学习等使用多种语言的环境中尤其有用。
与Pandas集成:PyArrow可以用作Pandas的后端,允许高效的数据操作和存储。 从 Pandas 2.0 开始,可以将数据存储在 Arrow 数组而不是 NumPy 数组中,这样可以提高性能,尤其是在处理字符串数据时。
支持多种数据类型:PyArrow 支持多种数据类型,包括基本类型(整数、浮点数)、复杂类型(结构、列表)和嵌套类型。这使得它在处理不同种类的数据时非常灵活。
pip install pyarrow
pip install pyarrow
或
conda install pyarrow -c conda-forge
py
我们使用Visual Studio Code作为代码编辑器。 首先创建一个新文件 pyarrowDemo.py。
下面是一个关于如何使用PyArrow创建表并执行一些基本操作的简单示例:
import pyarrow as pa
import pyarrow.dataset as pt
# Create a PyArrow table
data = [
pa.array([1, 2, 3]),
pa.array(['a', 'b', 'c']),
pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])
# Display the table
print(table)
py
这段Python代码使用PyArrow从三个数组(pa.array
)创建一个表(pa.Table
)。 首先,翻译人员需要将 "col1"、"col2 "和 "col3 "这三个列的数据输入表格,然后打印表格,显示名为 "col1"、"col2 "和 "col3 "的列,每个列包含相应的整数、字符串和浮点数数据。
PyArrow 可以与 Pandas 无缝集成,以提升性能,特别是在处理大型数据集时。 下面是将 Pandas DataFrame 转换为 PyArrow Table 的示例:
import pandas as pd
import pyarrow as pa
# Create a Pandas DataFrame
df = pd.DataFrame({
'col1': [1, 2, 3],
'col2': ['a', 'b', 'c'],
'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
py
该Python代码将Pandas DataFrame转换为PyArrow表(`pa.Table`),然后打印该表。 该 DataFrame 包含三个列(`col1`、`col2`、`col3`),分别是整数、字符串和浮点数数据。
PyArrow 支持读写各种文件格式,如 Parquet 和 Feather。 这些格式经过性能优化,广泛应用于数据处理管道。
PyArrow 支持内存映射文件访问,可以高效读写大型数据集,而无需将整个数据集加载到内存中。
PyArrow 提供用于进程间通信的工具,实现不同进程之间的高效数据共享。
IronPDF 是一个用于 Python 的库,方便处理 PDF 文件,使用户可以通过编程创建、编辑和操作 PDF 文档。 它提供了功能,例如从HTML生成PDF,向现有PDF添加文本、图像和形状,以及从PDF文件中提取文本和图像。 以下是一些主要特点
IronPdf 可以轻松地将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。 利用 Chrome PDF 渲染器将网页直接 渲染 成 PDF 格式。
IronPDF 兼容 Python 3+,可在 Windows、Mac、Linux 和云平台上无缝运行。 它也支持 .NET、Java、Python 和 Node.js。 环境。
通过设置属性、添加安全功能(如密码和权限),以及应用数字签名来增强PDF文档。
使用 IronPDF,您可以通过自定义页眉、页脚、页码和可调节的边距来定制 PDF。 它支持响应式布局,并允许设置自定义纸张尺寸。
IronPDF 符合 PDF 标准,包括 PDF/A 和 PDF/UA。 支持UTF-8字符编码并无缝处理诸如图像、CSS样式和字体等资源。
IronPDF 使用 .NET 6.0 作为其底层技术。 那么,您已经在系统上安装了.NET 6.0 runtime。
Python 3.0+:您需要安装 Python 3 或更高版本。
pip:安装Python软件包安装程序pip以进行IronPDF软件包安装。
安装必要的库:
pip install pyarrow
pip install ironpdf
pip install pyarrow
pip install ironpdf
然后添加以下代码,以演示IronPDF和pyarrow Python软件包的用法
import pandas as pd
import pyarrow as pa
from ironpdf import *
# Apply your license key
License.LicenseKey = "license"
# Create a Pandas DataFrame
df = pd.DataFrame({
'col1': [1, 2, 3],
'col2': ['a', 'b', 'c'],
'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"
for row in table:
# Access specific values in a row
value_in_column1 = row[0]
value_in_column2 = row[1]
value_in_column3 = row[2]
content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("DemoPyarrow.pdf")
py
该脚本演示了集成 Pandas、PyArrow 和 IronPDF 库,从存储在 Pandas DataFrame 中的数据创建 PDF 文档:
Pandas DataFrame 创建:
转换为 PyArrow 表:
使用 IronPDF 生成 PDF:
在使用IronPDF包之前,请将许可证密钥放在脚本的开头:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
py
PyArrow 是一个多功能且强大的库,可增强 Python 在数据处理任务中的能力。 它的高效内存格式、互操作性功能以及与 Pandas 的集成使其成为数据科学家和工程师的必备工具。 无论您是处理大型数据集、执行复杂的数据操控,还是构建数据处理管道,PyArrow 都提供了所需的性能和灵活性,以有效地处理这些任务。 另一方面,IronPDF 是一个强大的 Python 库,可以简化从 Python 应用程序直接创建、操作和渲染 PDF 文档的过程。 它与现有的 Python 框架无缝集成,允许开发人员动态生成和定制 PDF。 结合 PyArrow 和 IronPDF Python 包,用户可以轻松处理数据结构并存档数据。
IronPDF 还提供了详细的文档来帮助开发人员入门,并附有许多代码示例以展示其强大的功能。 欲了解更多详情,请访问文档和代码示例页面。