PYTHON帮助

pyarrow(开发者如何使用)

介绍

PyArrow 是一个强大的库,它为 Apache Arrow 框架提供了一个 Python 接口。 Apache Arrow 是一个跨语言的内存数据开发平台。 它指定了一种标准化的、与语言无关的列式内存格式,用于组织平面和层次结构数据,以便在现代硬件上高效地进行分析操作。PyArrow 基本上是作为一个 python 包实现的 Apache Arrow Python 绑定。 PyArrow 能够在不同的数据处理系统和编程语言之间实现高效的数据交换和互操作性。 在本文后面,我们还将了解由Iron Software开发的 PDF 生成库IronPDF

PyArrow 的主要功能

  1. 柱状内存格式

    PyArrow 使用列式内存格式,对于内存中的分析操作非常高效。 这种格式可以更好地利用 CPU 缓存和矢量化操作,是数据处理任务的理想选择。 PyArrow 具有列式性质,可以高效读写 parquet 文件结构。

  1. 互操作性:PyArrow 的主要优势之一是其能够在不同的编程语言和系统之间进行数据交换,而不需要序列化或反序列化。 这在数据科学和机器学习等使用多种语言的环境中尤其有用。

  2. 与Pandas集成:PyArrow可以用作Pandas的后端,允许高效的数据操作和存储。 从 Pandas 2.0 开始,可以将数据存储在 Arrow 数组而不是 NumPy 数组中,这样可以提高性能,尤其是在处理字符串数据时。

  3. 支持多种数据类型:PyArrow 支持多种数据类型,包括基本类型(整数、浮点数)、复杂类型(结构、列表)和嵌套类型。这使得它在处理不同种类的数据时非常灵活。

  4. 零拷贝读取:PyArrow 支持零拷贝读取,这意味着可以从 Arrow 内存格式中读取数据而无需复制。 这样可以减少内存开销,提高性能。

安装

要安装PyArrow,您可以使用pipconda

pip install pyarrow
pip install pyarrow
SHELL

conda install pyarrow -c conda-forge
py
PYTHON

基本用法

我们使用Visual Studio Code作为代码编辑器。 首先创建一个新文件 pyarrowDemo.py。

下面是一个关于如何使用PyArrow创建表并执行一些基本操作的简单示例:

import pyarrow as pa
import pyarrow.dataset as pt
# Create a PyArrow table
data = [
    pa.array([1, 2, 3]),
    pa.array(['a', 'b', 'c']),
    pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])
# Display the table
print(table)
py
PYTHON

代码解释

这段Python代码使用PyArrow从三个数组(pa.array)创建一个表(pa.Table)。 首先,翻译人员需要将 "col1"、"col2 "和 "col3 "这三个列的数据输入表格,然后打印表格,显示名为 "col1"、"col2 "和 "col3 "的列,每个列包含相应的整数、字符串和浮点数数据。

输出

pyarrow(开发者的工作原理):图 1 - 控制台输出显示 PyArrow 表对象及其内容。

与 Pandas 集成

PyArrow 可以与 Pandas 无缝集成,以提升性能,特别是在处理大型数据集时。 下面是将 Pandas DataFrame 转换为 PyArrow Table 的示例:

import pandas as pd
import pyarrow as pa
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
py
PYTHON

代码解释

该Python代码将Pandas DataFrame转换为PyArrow表(`pa.Table`),然后打印该表。 该 DataFrame 包含三个列(`col1`、`col2`、`col3`),分别是整数、字符串和浮点数数据。

输出

pyarrow(开发人员如何使用):图2 - 控制台输出显示通过将熊猫数据框转换为PyArrow表而生成的PyArrow表对象。

高级功能

1.文件格式

PyArrow 支持读写各种文件格式,如 Parquet 和 Feather。 这些格式经过性能优化,广泛应用于数据处理管道。

2.内存映射

PyArrow 支持内存映射文件访问,可以高效读写大型数据集,而无需将整个数据集加载到内存中。

3.进程间通信

PyArrow 提供用于进程间通信的工具,实现不同进程之间的高效数据共享。

介绍IronPDF

pyarrow(如何帮助开发者):图3 - IronPDF for Python: The Python PDF Library

IronPDF 是一个用于 Python 的库,方便处理 PDF 文件,使用户可以通过编程创建、编辑和操作 PDF 文档。 它提供了功能,例如从HTML生成PDF,向现有PDF添加文本、图像和形状,以及从PDF文件中提取文本和图像。 以下是一些主要特点

从HTML生成PDF文件

IronPdf 可以轻松地将 HTML 文件、HTML 字符串和 URL 转换为 PDF 文档。 利用 Chrome PDF 渲染器将网页直接 渲染 成 PDF 格式。

跨平台兼容性

IronPDF 兼容 Python 3+,可在 Windows、Mac、Linux 和云平台上无缝运行。 它也支持 .NETJavaPythonNode.js。 环境。

编辑和签名功能

通过设置属性、添加安全功能(如密码和权限),以及应用数字签名来增强PDF文档。

自定义页面模板和设置

使用 IronPDF,您可以通过自定义页眉、页脚页码和可调节的边距来定制 PDF。 它支持响应式布局,并允许设置自定义纸张尺寸。

标准合规性

IronPDF 符合 PDF 标准,包括 PDF/A 和 PDF/UA。 支持UTF-8字符编码并无缝处理诸如图像、CSS样式和字体等资源。

使用IronPDF和PyArrow生成PDF文档

IronPDF 前提条件

  1. IronPDF 使用 .NET 6.0 作为其底层技术。 那么,您已经在系统上安装了.NET 6.0 runtime

  2. Python 3.0+:您需要安装 Python 3 或更高版本。

  3. pip:安装Python软件包安装程序pip以进行IronPDF软件包安装。

    安装必要的库:

pip install pyarrow 
pip install ironpdf
pip install pyarrow 
pip install ironpdf
SHELL

然后添加以下代码,以演示IronPDF和pyarrow Python软件包的用法

import pandas as pd
import pyarrow as pa
from ironpdf import * 
# Apply your license key
License.LicenseKey = "license"
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"
for row in table:
    # Access specific values in a row
    value_in_column1 = row[0]
    value_in_column2 = row[1]
    value_in_column3 = row[2]
    content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"    
pdf = renderer.RenderHtmlAsPdf(content)    
    # Export to a file or Stream
pdf.SaveAs("DemoPyarrow.pdf")
py
PYTHON

代码解释

该脚本演示了集成 Pandas、PyArrow 和 IronPDF 库,从存储在 Pandas DataFrame 中的数据创建 PDF 文档:

  1. Pandas DataFrame 创建:

    • 创建一个 Pandas DataFrame(df),包含三个列(col1、col2、col3),其中包含数值和字符串数据。
  2. 转换为 PyArrow 表:

    • 使用 pa.Table.from_pandas() 方法将 Pandas DataFrame (“df”)转换为 PyArrow 表(“table”)。 这种转换有助于高效的数据处理以及与基于 Arrow 的应用程序的互操作性。
  3. 使用 IronPDF 生成 PDF:

    • 使用 IronPDF 的ChromePdfRenderer 并调用其 RenderHtmlAsPdf 方法从 HTML 字符串(内容)生成 PDF 文档(DemoPyarrow.pdf),其中包括从 PyArrow 表格(table)提取的标题和数据。

输出

pyarrow(开发者的工作原理):图4 - 控制台输出显示通过将panda dataframe转换为PyArrow表生成的PyArrow表对象。

输出 PDF

pyarrow(开发者如何使用):图5 - 使用IronPDF for Python库生成的输出PDF,展示来自PyArrow表的逐行数据。

IronPDF 许可证

IronPDF Python

在使用IronPDF包之前,请将许可证密钥放在脚本的开头:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
py
PYTHON

结论

PyArrow 是一个多功能且强大的库,可增强 Python 在数据处理任务中的能力。 它的高效内存格式、互操作性功能以及与 Pandas 的集成使其成为数据科学家和工程师的必备工具。 无论您是处理大型数据集、执行复杂的数据操控,还是构建数据处理管道,PyArrow 都提供了所需的性能和灵活性,以有效地处理这些任务。 另一方面,IronPDF 是一个强大的 Python 库,可以简化从 Python 应用程序直接创建、操作和渲染 PDF 文档的过程。 它与现有的 Python 框架无缝集成,允许开发人员动态生成和定制 PDF。 结合 PyArrowIronPDF Python 包,用户可以轻松处理数据结构并存档数据。

IronPDF 还提供了详细的文档来帮助开发人员入门,并附有许多代码示例以展示其强大的功能。 欲了解更多详情,请访问文档代码示例页面。

查克尼特·宾
软件工程师
Chaknith 负责 IronXL 和 IronBarcode 的工作。他在 C# 和 .NET 方面拥有深厚的专业知识,帮助改进软件并支持客户。他从用户互动中获得的洞察力,有助于提升产品、文档和整体体验。
< 前一页
crc32c Python(开发者如何使用)
下一步 >
加密 Python(开发者如何使用)

准备开始了吗? 版本: 2025.5 刚刚发布

查看许可证 >