푸터 콘텐츠로 바로가기
PYTHON 도움말

pyarrow (개발자를 위한 작동 방식)

PyArrow 는 Apache Arrow 프레임워크에 대한 Python 인터페이스를 제공하는 강력한 라이브러리입니다. Apache Arrow는 인메모리 데이터를 위한 크로스 프로그래밍 언어 개발 플랫폼입니다. 이는 최신 하드웨어에서 효율적인 분석 작업을 위해 구성된 평면 및 계층적 데이터에 대한 표준화된 언어 독립적인 컬럼형 메모리 형식을 명시합니다. PyArrow 는 기본적으로 Apache Arrow Python 바인딩을 Python 패키지로 구현한 것입니다. PyArrow는 다양한 데이터 처리 시스템과 프로그래밍 언어 간의 효율적인 데이터 교환 및 상호 운용성을 가능하게 합니다. 이 글 후반부에서는 Iron Software 에서 개발한 PDF 생성 라이브러리인 IronPDF 에 대해서도 알아보겠습니다.

PyArrow의 주요 기능

  1. 컬럼형 메모리 형식:

    PyArrow는 컬럼형 메모리 형식을 사용하므로 메모리 내 분석 작업에 매우 효율적입니다. 이 형식은 CPU 캐시 활용도를 높이고 벡터화된 연산을 가능하게 하여 데이터 처리 작업에 이상적입니다. PyArrow는 컬럼형 구조 덕분에 Parquet 파일 구조를 효율적으로 읽고 쓸 수 있습니다.

  2. 상호 운용성: PyArrow의 주요 장점 중 하나는 직렬화 또는 역직렬화 없이도 서로 다른 프로그래밍 언어 및 시스템 간의 데이터 교환을 용이하게 한다는 점입니다. 이는 데이터 과학 및 머신 러닝과 같이 여러 언어가 사용되는 환경에서 특히 유용합니다.
  3. Pandas와의 통합: PyArrow는 Pandas의 백엔드로 사용할 수 있어 효율적인 데이터 조작 및 저장이 가능합니다. Pandas 2.0부터는 NumPy 배열 대신 Arrow 배열에 데이터를 저장할 수 있게 되어, 특히 문자열 데이터를 처리할 때 성능 향상을 기대할 수 있습니다.
  4. 다양한 데이터 유형 지원: PyArrow는 기본 데이터 유형(정수, 부동 소수점), 복합 데이터 유형(구조체, 리스트) 및 중첩 데이터 유형을 포함한 광범위한 데이터 유형을 지원합니다. 따라서 다양한 종류의 데이터를 처리하는 데 다재다능합니다.
  5. 제로 카피 읽기: PyArrow는 제로 카피 읽기를 지원합니다. 즉, 데이터를 복사하지 않고 Arrow 메모리 형식에서 읽을 수 있습니다. 이렇게 하면 메모리 오버헤드가 줄어들고 성능이 향상됩니다.

설치

PyArrow를 설치하려면 pip 또는 conda를 사용할 수 있습니다.

pip install pyarrow
pip install pyarrow
SHELL

또는

conda install pyarrow -c conda-f또는ge
conda install pyarrow -c conda-f또는ge
SHELL

기본 사용법

저희는 코드 편집기로 Visual Studio Code를 사용하고 있습니다. 새 파일 pyarrowDemo.py을(를) 생성하여 시작합니다.

다음은 PyArrow를 사용하여 테이블을 생성하고 몇 가지 기본 작업을 수행하는 간단한 예입니다.

imp또는t pyarrow as pa
imp또는t pyarrow.dataset as pt

# Create a PyArrow table
data = [
    pa.array([1, 2, 3]),
    pa.array(['a', 'b', 'c']),
    pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])

# Display the table
print(table)
imp또는t pyarrow as pa
imp또는t pyarrow.dataset as pt

# Create a PyArrow table
data = [
    pa.array([1, 2, 3]),
    pa.array(['a', 'b', 'c']),
    pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])

# Display the table
print(table)
PYTHON

코드 설명

Python 코드는 세 개의 배열에서 PyArrow를 사용하여 테이블(pa.Table)을 생성합니다 (pa.array). 그런 다음 'col1', 'col2', 'col3'이라는 이름의 열을 표시하고, 각 열에는 정수, 문자열, 부동 소수점 데이터가 포함됩니다.

출력

pyarrow (개발자를 위한 작동 방식): 그림 1 - PyArrow 테이블 객체와 그 내용을 표시하는 콘솔 출력.

Pandas와의 통합

PyArrow는 Pandas 와 원활하게 통합되어 특히 대규모 데이터 세트를 처리할 때 성능을 향상시킬 수 있습니다. 다음은 Pandas DataFrame을 PyArrow 테이블로 변환하는 예입니다.

imp또는t pandas as pd
imp또는t pyarrow as pa

# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})

# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)

# Display the table
print(table)
imp또는t pandas as pd
imp또는t pyarrow as pa

# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})

# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)

# Display the table
print(table)
PYTHON

코드 설명

Python 코드는 Pandas DataFrame을 PyArrow 테이블(pa.Table)로 변환한 후 테이블을 출력합니다. DataFrame은 정수, 문자열, 부동소수점 데이터를 가진 세 개의 열로 구성되어 있습니다 (col1, col2, col3).

출력

pyarrow (개발자를 위한 작동 방식): 그림 2 - Pandas DataFrame을 PyArrow 테이블로 변환하여 생성된 PyArrow 테이블 객체를 표시하는 콘솔 출력.

고급 기능

1. 파일 형식

PyArrow는 Parquet 및 Feather와 같은 다양한 파일 형식의 읽기 및 쓰기를 지원합니다. 이러한 형식은 성능에 최적화되어 있으며 데이터 처리 파이프라인에서 널리 사용됩니다.

2. 메모리 매핑

PyArrow는 메모리 매핑 파일 접근 방식을 지원하므로 전체 데이터셋을 메모리에 로드하지 않고도 대규모 데이터셋을 효율적으로 읽고 쓸 수 있습니다.

3. 프로세스 간 통신

PyArrow는 프로세스 간 통신을 위한 도구를 제공하여 서로 다른 프로세스 간의 효율적인 데이터 공유를 가능하게 합니다.

IronPDF 소개합니다

pyarrow (개발자를 위한 작동 방식): 그림 3 - IronPDF f또는 Python: Python PDF 라이브러리

IronPDF 는 PDF 파일 작업을 용이하게 해주는 Python 라이브러리로, PDF 문서를 프로그래밍 방식으로 생성, 편집 및 조작하는 등의 작업을 가능하게 합니다. 이 프로그램은 HTML에서 PDF를 생성하거나 , 기존 PDF에 텍스트, 이미지 및 도형을 추가하거나, PDF 파일에서 텍스트와 이미지를 추출하는 등의 기능을 제공합니다. 주요 특징은 다음과 같습니다.

HTML에서 PDF 생성

IronPDF HTML 파일, HTML 문자열 및 URL을 PDF 문서로 쉽게 변환할 수 있습니다. Chrome PDF 렌더러를 활용하여 웹페이지를 PDF 형식으로 직접 렌더링하세요 .

크로스 플랫폼 호환성

IronPDF 는 Python 3 이상과 호환되며 Windows, Mac, Linux 및 클라우드 플랫폼에서 원활하게 작동합니다. 또한 .NET , Java , PythonNode.js 에서도 지원됩니다.

편집 및 서명 기능

속성 설정, 암호 및 권한 과 같은 보안 기능 추가, 디지털 서명 적용 등을 통해 PDF 문서를 향상시키세요.

사용자 지정 페이지 템플릿 및 설정

IronPDF 사용하면 머리글, 바닥글 , 페이지 번호 및 여백을 사용자 지정하여 PDF를 맞춤 설정할 수 있습니다. 반응형 레이아웃을 지원하며 사용자 지정 용지 크기 설정을 허용합니다.

표준 준수

IronPDF PDF/A 및 PDF/UA를 포함한 PDF 표준을 준수합니다. 이 라이브러리는 UTF-8 문자 인코딩을 지원하며 이미지, CSS 스타일, 글꼴과 같은 자산을 원활하게 처리합니다.

IronPDF 와 PyArrow를 사용하여 PDF 문서를 생성하세요

IronPDF 필수 조건

  1. IronPDF 기반 기술로 .NET 6.0을 사용합니다. 따라서 시스템에 .NET 6.0 런타임이 설치되어 있어야 합니다.
  2. Python 3.0 이상: Python 버전 3 이상이 설치되어 있어야 합니다.
  3. pip: IronPDF Install-Package를 위해 Python Install-Package 프로그램인 pip를 설치합니다.

필요한 라이브러리를 설치하세요:

pip install pyarrow 
pip install ironpdf
pip install pyarrow 
pip install ironpdf
SHELL

다음으로 아래 코드를 추가하여 IronPDF 및 PyArrow Python 패키지의 사용법을 보여주세요.

imp또는t pandas as pd
imp또는t pyarrow as pa
from ironpdf imp또는t * 

# Apply your license key
License.LicenseKey = "license"

# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})

# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)

# Display the table
print(table)

#create a PDF renderer
renderer = ChromePdfRenderer()

# Create a PDF from an HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"

# Iterate over table rows
f또는 row in table:
    # Access specific values in a row
    value_in_column1 = row[0]
    value_in_column2 = row[1]
    value_in_column3 = row[2]
    # Append row data to content
    content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"    

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Exp또는t to a file 또는 stream
pdf.SaveAs("DemoPyarrow.pdf")
imp또는t pandas as pd
imp또는t pyarrow as pa
from ironpdf imp또는t * 

# Apply your license key
License.LicenseKey = "license"

# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})

# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)

# Display the table
print(table)

#create a PDF renderer
renderer = ChromePdfRenderer()

# Create a PDF from an HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"

# Iterate over table rows
f또는 row in table:
    # Access specific values in a row
    value_in_column1 = row[0]
    value_in_column2 = row[1]
    value_in_column3 = row[2]
    # Append row data to content
    content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"    

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Exp또는t to a file 또는 stream
pdf.SaveAs("DemoPyarrow.pdf")
PYTHON

코드 설명

이 스크립트는 Pandas, PyArrow 및 IronPDF 라이브러리를 통합하여 Pandas DataFrame에 저장된 데이터를 기반으로 PDF 문서를 생성하는 방법을 보여줍니다.

  1. 판다스 데이터프레임 생성:

    • 세 개의 열 (col1, col2, col3)에 숫자 및 문자열 데이터를 포함하여 Pandas DataFrame을 생성합니다 (df).
  2. PyArrow 테이블로 변환:

    • pa.Table.from_pandas() 메소드를 사용하여 Pandas DataFrame (df)을 PyArrow Table (table)로 변환합니다. 이 변환을 통해 효율적인 데이터 처리와 Arrow 기반 애플리케이션과의 상호 운용성이 향상됩니다.
  3. IronPDF 이용한 PDF 생성:

    • IronPDF의 ChromePdfRenderer를 사용하여 RenderHtmlAsPdf 메소드를 호출하여 헤더와 PyArrow Table (table)에서 추출한 데이터를 포함한 HTML 문자열 (content)에서 PDF 문서 (DemoPyarrow.pdf)를 생성합니다.

출력

pyarrow (개발자를 위한 작동 방식): 그림 4 - Pandas DataFrame을 PyArrow 테이블로 변환하여 생성된 PyArrow 테이블 객체를 표시하는 콘솔 출력.

출력 PDF

pyarrow (개발자를 위한 작동 방식): 그림 5 - IronPDF f또는 Python 라이브러리를 사용하여 생성된 출력 PDF이며, PyArrow 테이블의 행별 데이터를 표시합니다.

IronPDF 라이선스

Python용 IronPDF .

IronPDF 패키지를 사용하기 전에 스크립트 시작 부분에 라이선스 키를 배치하십시오.

from ironpdf imp또는t * 
# Apply your license key
License.LicenseKey = "key"
from ironpdf imp또는t * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

결론

PyArrow 는 데이터 처리 작업을 위해 Python의 기능을 향상시키는 다재다능하고 강력한 라이브러리입니다. 효율적인 메모리 형식, 상호 운용성 기능, 그리고 Pandas와의 통합 덕분에 이 도구는 데이터 과학자와 엔지니어에게 필수적인 도구입니다. 대규모 데이터 세트를 다루거나, 복잡한 데이터 조작을 수행하거나, 데이터 처리 파이프라인을 구축하는 등 어떤 작업을 하든 PyArrow는 이러한 작업을 효과적으로 처리하는 데 필요한 성능과 유연성을 제공합니다. 반면에 IronPDF 는 Python 애플리케이션에서 직접 PDF 문서를 생성, 조작 및 렌더링하는 작업을 간소화하는 강력한 Python 라이브러리입니다. 이 도구는 기존 Python 프레임워크와 완벽하게 통합되어 개발자가 PDF를 동적으로 생성하고 사용자 지정할 수 있도록 합니다. PyArrowIronPDF Python 패키지를 함께 사용하면 사용자는 데이터 구조를 쉽게 처리하고 데이터를 보관할 수 있습니다.

IronPDF 개발자가 쉽게 시작할 수 있도록 포괄적인 문서를 제공하며, 강력한 기능을 보여주는 다양한 코드 예제도 함께 제공합니다. 더 자세한 내용은 문서코드 예제 페이지를 참조하십시오.

커티스 차우
기술 문서 작성자

커티스 차우는 칼턴 대학교에서 컴퓨터 과학 학사 학위를 취득했으며, Node.js, TypeScript, JavaScript, React를 전문으로 하는 프론트엔드 개발자입니다. 직관적이고 미적으로 뛰어난 사용자 인터페이스를 만드는 데 열정을 가진 그는 최신 프레임워크를 활용하고, 잘 구성되고 시각적으로 매력적인 매뉴얼을 제작하는 것을 즐깁니다.

커티스는 개발 분야 외에도 사물 인터넷(IoT)에 깊은 관심을 가지고 있으며, 하드웨어와 소프트웨어를 통합하는 혁신적인 방법을 연구합니다. 여가 시간에는 게임을 즐기거나 디스코드 봇을 만들면서 기술에 대한 애정과 창의성을 결합합니다.

아이언 서포트 팀

저희는 주 5일, 24시간 온라인으로 운영합니다.
채팅
이메일
전화해