Altbilgi içeriğine atla
PYTHON YARDıM

fastparquet Python (Geliştiriciler İçin Nasıl Çalışir)

fastparquet, büyük veri iş akışlarında yaygın olarak kullanılan Parquet dosya formatını işlemek için tasarlanmış bir Python kütüphanesidir. Diğer Python tabanlı veri işleme araçları olan Dask ve Pandas ile iyi entegre olur. Özelliklerini keşfedelim ve bazı kod örneklerine bakalım. Bu makalenin ilerleyen kısımlarında, IronPDF adlı bir PDF oluşturma kütüphanesini de ele alacağız.

fastparquet'in Genel Görünümü

fastparquet etkili ve çok çeşitli Parquet özelliklerini destekler. Bazı kilit özellikleri şunlardır:

Parquet Dosyalarını Okuma ve Yazma

Parquet dosyalarını ve diğer veri dosyalarını kolayca okuyup yazın.

Pandas ve Dask ile Entegrasyon

Pandas DataFrames ve paralel işleme için Dask ile sorunsuz çalışın.

Sıkıştırma Desteği

Veri dosyalarında gzip, snappy, brotli, lz4 ve zstandard gibi çeşitli sıkıştırma algoritmalarını destekler.

Etkili Depolama

Parquet sütunsal dosya formatı ve dosyaya işaret eden meta veri dosyası kullanarak büyük veri setlerinin veya veri dosyalarının hem depolanması hem de geri alınması için optimize edilir.

Kurulum

fastparquet'i pip kullanarak yükleyebilirsiniz:

pip install fastparquet
pip install fastparquet
SHELL

Ya da conda kullanarak:

conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
SHELL

Temel Kullanım

fastparquet ile başlamanız için basit bir örnek.

Parquet Dosyası Yazma

Bir Pandas DataFrame'i bir Parquet dosyasına yazabilirsiniz:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

Çıktı

fastparquet Python (Geliştiriciler için Nasıl Çalışır): Şekil 1 - Konsol çıktısı

Parquet Dosyasını Okuma

Bir Parquet dosyasını bir Pandas DataFrame'e okuyabilirsiniz:

import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
PYTHON

Çıktı

fastparquet Python (Geliştiriciler için Nasıl Çalışır): Şekil 2 - Konsol çıktısı

Parquet Dosyası Meta Verilerini Gösterme

import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

Çıktı

fastparquet Python (Geliştiriciler için Nasıl Çalışır): Şekil 3 - Konsol çıktısı

İleri Düzey Özellikler

Paralel İşleme için Dask Kullanma

fastparquet, paralel olarak büyük veri setlerini işlemek için Dask ile iyi entegre olur:

import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
PYTHON

Sıkıştırmayı Özelleştirme

Parquet dosyalarını yazarken farklı sıkıştırma algoritmaları belirtebilirsiniz:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

IronPDF'i Tanıtma

fastparquet Python (Geliştiriciler için Nasıl Çalışır): Şekil 4 - IronPDF for Python: Python PDF Kütüphanesi

IronPDF, HTML, CSS, resimler ve JavaScript'ten türetilmiş PDF belgelerini oluşturmak, değiştirmek ve dijital olarak imzalamak için tasarlanmış sağlam bir Python kütüphanesidir. Performansta mükemmel olup, minimum bellek kullanımını sürdürür. İşte başlıca özellikleri:

1. HTML'den PDF'e Dönüştürme

IronPDF ile HTML dosyalarını, HTML dizgilerini ve URL'leri PDF belgelerine dönüştürün. Örneğin, Chrome PDF işleyicisini kullanarak web sayfalarını PDF'lere dönüştürün.

2. Platformlar Arası Destek

Windows, Mac, Linux ve çeşitli Bulut Platformlarında Python 3+ ile uyumludur. IronPDF, .NET, Java, Python ve Node.js ortamları için de mevcuttur.

3. Düzenleme ve İmzalama

Belge özelliklerini değiştirme, parola koruması ve izinlerle güvenliği artırma, ve IronPDF kullanarak PDF'lerinize dijital imzalar entegre etme.

4. Sayfa Şablonları ve Ayarları

Özelleştirilmiş başlıklar, altbilgiler, sayfa numaraları ve ayarlanabilir kenar boşlukları ile PDF'leri kişiselleştirin. Duyarlı düzenleri destekler ve özel kağıt boyutlarını barındırır.

5. Standart Uyum

PDF/A ve PDF/UA gibi PDF standartlarına uyumludur. UTF-8 karakter kodlamasını yönetir ve resimler, CSS stil sayfaları ve yazı tipleri gibi varlıkları etkili bir şekilde yönetir.

IronPDF ve fastparquet kullanarak PDF Belgeleri Oluşturma

IronPDF for Python Gereksinimleri

  1. IronPDF temel teknolojisi olarak .NET 6.0'a dayanır. Bu nedenle, sisteminizde .NET 6.0 çalıştırma ortamı kurulu olduğundan emin olun.
  2. Python 3.0+: Python sürüm 3 veya daha yenisinin kurulu olduğundan emin olun.
  3. pip: IronPDF paketini yüklemek için Python paket yükleyici pip'i yükleyin.

Kurulum

# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
SHELL

Kod örneği

Aşağıdaki kod örneği, Python'da fastparquet ve IronPDF bir arada kullanımını göstermektedir:

import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

Kod Açıklaması

Bu kod parçası, verileri işlemek ve HTML içeriğinden bir PDF belgesi oluşturmak için çeşitli Python kütüphanelerinin nasıl kullanılacağını göstermektedir.

  1. İçe Aktarımlar ve Kurulum: Veri işleme, Parquet dosyalarını okuma ve yazma ve PDF oluşturma için gerekli kütüphaneleri içe aktarın.

  2. Lisans Anahtarının Ayarlanması: IronPDF'in tam özelliklerini etkinleştirmek için lisans anahtarını ayarlayın.

  3. Örnek Bir DataFrame Oluşturma: Bireylerle ilgili bilgileri (isim, yaş, şehir) içeren örnek bir DataFrame (df) tanımlayın.

  4. DataFrame'i Parquet Dosyasına Yazma: DataFrame'i df olarak adlandırılan bir Parquet dosyasına yazın.

  5. Parquet Dosyasından Okuma: Parquet dosyasındaki (example.parquet) verileri yeniden bir DataFrame'e (df_read) okuyun.

  6. HTML'den PDF Oluşturma:
    • IronPDF kullanarak bir ChromePdfRenderer örneği başlatın.
    • Orijinal DataFrame (df) ve Parquet dosyasından okunan DataFrame'i (df_read) gösteren bir başlık (<h1>) ve paragraflar (<p>) içeren bir HTML dizesi (content) oluşturun.
    • HTML içeriğini IronPDF kullanarak bir PDF belgesi olarak işleyin.
    • Oluşturulan PDF belgesini Demo-FastParquet.pdf olarak kaydedin.

Kod, FastParquet için bir örnek kod sunar, veri işleme yeteneklerini PDF oluşturma ile entegre eder, böylece Parquet dosyalarında depolanan verilere dayalı raporlar veya belgeler oluşturmayı kullanışlı hale getirir.

ÇIKTI

fastparquet Python (Geliştiriciler için Nasıl Çalışır): Şekil 5 - Orijinal DataFrame ve Parquet dosyasından okunan DataFrame'den veri gösteren konsol çıktısı.

PDF ÇIKTI

fastparquet Python (Geliştiriciler için Nasıl Çalışır): Şekil 6 - IronPDF kutuphanesi kullanılarak oluşturulan PDF çıktısı

IronPDF Lisansı

Lisans bilgileri icin, IronPDF lisans sayfasini ziyaret edin.

Lisans Anahtarını, IronPDF paketi kullanmadan önce scriptin başına yerleştirin:

from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
PYTHON

Sonuç

fastparquet, Python'da parquet dosyalari ile calismak icin guclu ve etkili bir kutuphanedir. Pandas ve Dask ile entegre olarak Python tabanli buyuk veri is akisi icin buyuk veri setleriyle calismayi kolaylastirir. IronPDF, PDF dokümanlarini Python uygulamalarindan dogrudan oluşturmak, manipule etmek ve render etmek icin geliştirilmis guvenilir bir Python kutuphanesidir. HTML icerigini PDF dokümanlarina dönüştürme, interaktif formlar oluşturma ve dosya birlestirme ya da filigran ekleme gibi çeşitli PDF manipulesini kolaylastirir. IronPDF, mevcut Python cerceveleri ve ortamlarina sorunsuz entegre olur ve geliştiricilere dinamik olarak PDF dokümanlari oluşturup ozellestirmek icin esnek bir cozum sunar. fastparquet ile birlikte IronPDF, parquet dosya formatlarinda sorunsuz veri manipulesi ve PDF oluşturmayi saglar.

IronPDF, özelliklerini en iyi sekilde kullanmaniz icin kapsamli dokümantasyon ve kod örnekleri sunar. Daha fazla bilgi icin, lütfen dokümantasyon ve kod ornegi sayfalarina bakin.

Curtis Chau
Teknik Yazar

Curtis Chau, Bilgisayar Bilimleri alanında lisans derecesine sahiptir (Carleton Üniversitesi) ve Node.js, TypeScript, JavaScript ve React konularında uzmanlaşmış ön uç geliştirme üzerine uzmanlaşmıştır. Kullanıcı dostu ve estetik açıdan hoş arayüzler tasarlamaya tutkuyla bağlı olan Curtis, modern çerç...

Daha Fazlasını Oku

Iron Destek Ekibi

Haftanın 5 günü, 24 saat çevrimiçiyiz.
Sohbet
E-posta
Beni Ara