Zum Fußzeileninhalt springen
PYTHON-HILFE

fastparquet python (Wie es für Entwickler funktioniert)

[1] fastparquet ist eine Python-Bibliothek, die entwickelt wurde, um mit dem Parquet-Dateiformat umzugehen, das häufig in Big-Data-Workflows verwendet wird. [2] Es integriert sich gut mit anderen Python-basierten Datenverarbeitungstools wie Dask und Pandas. [3] Lassen Sie uns seine Funktionen erkunden und einige Codebeispiele ansehen. Später in diesem Artikel erfahren wir auch mehr über IronPDF, eine PDF-Generierungsbibliothek von Iron Software.

[4] ## Überblick über fastparquet

[5] fastparquet ist effizient und unterstützt eine breite Palette von Parquet-Funktionen. Einige seiner wichtigsten Funktionen sind:

[6] ### Lesen und Schreiben von Parquet-Dateien

[7] Einfaches Lesen von und Schreiben zu Parquet-Dateien und anderen Datendateien.

[8] ### Integration mit Pandas und Dask

[9] Nahtlose Arbeit mit Pandas DataFrames und Dask für parallele Verarbeitung.

[10] ### Unterstützung für Komprimierung

[11] Unterstützt verschiedene Kompressionsalgorithmen wie gzip, snappy, brotli, lz4 und zstandard in Datendateien.

[12] ### Effiziente Speicherung

[13] Optimiert für sowohl Speicherung als auch Abruf großer Datensätze oder Datendateien mithilfe des Parquet-säulenbasierten Dateiformats und Metadatendateien, die auf die Datei verweisen.

Installation

[14] Sie können fastparquet mit pip installieren:

pip install fastparquet
pip install fastparquet
SHELL

[15] Oder mit conda:

conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
SHELL

Grundlagen

[16] Hier ist ein einfaches Beispiel, um Ihnen den Einstieg mit fastparquet zu erleichtern.

[17] #### Schreiben einer Parquet-Datei

[18] Sie können ein Pandas DataFrame in eine Parquet-Datei schreiben:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

Ausgabe

[19] fastparquet Python: Abbildung 1 - Konsolenausgabe

[20] #### Lesen einer Parquet-Datei

[21] Sie können eine Parquet-Datei in ein Pandas DataFrame einlesen:

import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
PYTHON

Ausgabe

[22] fastparquet Python: Abbildung 2 - Konsolenausgabe

[23] ### Anzeigen von Parquet-Dateimetadata

import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

Ausgabe

[24] fastparquet Python: Abbildung 3 - Konsolenausgabe

Erweiterte Funktionen

[25] #### Verwendung von Dask für parallele Verarbeitung

[26] fastparquet integriert sich gut mit Dask für die Bearbeitung großer Datensätze in Parallelverarbeitung:

import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
PYTHON

[27] #### Anpassen der Komprimierung

[28] Sie können beim Schreiben von Parquet-Dateien verschiedene Kompressionsalgorithmen angeben:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

Einführung in IronPDF

[29] fastparquet Python: Abbildung 4 - IronPDF for Python: Die Python PDF-Bibliothek

[30] IronPDF ist eine robuste Python-Bibliothek, die für das Erstellen, Ändern und digitale Signieren von PDF-Dokumenten entwickelt wurde, die von HTML, CSS, Bildern und JavaScript abgeleitet sind. [31] Es überzeugt durch Leistung und behält gleichzeitig einen minimalen Speicherbedarf bei. [32] Hier sind seine Hauptfunktionen:

1. HTML-zu-PDF-Umwandlung

[33] Konvertieren Sie HTML-Dateien, HTML-Strings und URLs in PDF-Dokumente mit IronPDF. [34] Zum Beispiel mühelos Webseiten in PDFs rendern mit dem Chrome PDF-Renderer.

[35] #### 2. Plattformübergreifende Unterstützung

[36] Kompatibel mit Python 3+ unter Windows, Mac, Linux und verschiedenen Cloud-Plattformen. IronPDF ist auch für .NET-, Java-, Python- und Node.js-Umgebungen zugänglich.

[37] #### 3. Bearbeiten und Signieren

[38] Ändern Sie die Dokumenteigenschaften, erhöhen Sie die Sicherheit mit Passwortschutz und Berechtigungen und integrieren Sie digitale Signaturen in Ihre PDFs mit IronPDF.

[39] #### 4. Seitenschablonen und Einstellungen

[40] Passen Sie PDFs mit benutzerdefinierten Kopfzeilen, Fußzeilen, Seitenzahlen und anpassbaren Rändern an. [41] Es unterstützt responsive Layouts und bietet die Möglichkeit, benutzerdefinierte Papiergrößen anzupassen.

[42] #### 5. Einhaltung von Standards

[43] Es erfüllt PDF-Standards wie PDF/A und PDF/UA. [44] Es verarbeitet UTF-8-Zeichencodierung und verwaltet effektiv Assets wie Bilder, CSS-Stilblätter und Schriftarten.

[45] ## PDF-Dokumente mit IronPDF und fastparquet erstellen

[46] #### IronPDF für Python Voraussetzungen

[47] 1. IronPDF stützt sich auf .NET 6.0 als seine zugrunde liegende Technologie. [48] Stellen Sie daher sicher, dass .NET 6.0 Runtime auf Ihrem System installiert ist. [49] 2. Python 3.0+: Stellen Sie sicher, dass Sie Python Version 3 oder höher installiert haben. [50] 3. pip: Installieren Sie den Python-Paketmanager pip für die Installation des IronPDF-Pakets.

Installation

# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
SHELL

[51] #### Beispielcode

[52] Das folgende Codebeispiel zeigt die Verwendung von fastparquet und IronPDF zusammen in Python:

import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

Code-Erklärung

[53] Dieser Codeausschnitt zeigt, wie Sie mehrere Python-Bibliotheken verwenden, um Daten zu manipulieren und ein PDF-Dokument aus HTML-Inhalten zu erstellen.

[54] 1. Importe und Setup: Notwendige Bibliotheken für die Datenmanipulation, das Lesen und Schreiben von Parquet-Dateien sowie die PDF-Erzeugung importieren.

[55] 2. Lizenzschlüssel setzen: Den Lizenzschlüssel für IronPDF einstellen, um alle Funktionen freizuschalten.

[56] 3. Erstellen eines Beispiel-DataFrames: Ein Beispiel-DataFrame (df) definieren, das Informationen über Personen (Name, Alter, Stadt) enthält.

[57] 4. Schreiben des DataFrames in Parquet: Das DataFrame df in eine Parquet-Datei namens example.parquet schreiben.

[58] 5. Lesen aus der Parquet-Datei: Daten aus der Parquet-Datei (example.parquet) zurück in ein DataFrame (df_read) einlesen.

[59] 6. PDF aus HTML generieren: [60] - Eine ChromePdfRenderer-Instanz mit IronPDF initialisieren. [61] - Einen HTML-String (content) erstellen, der eine Überschrift (<h1>) und Absätze (<p>) enthält, die das ursprüngliche DataFrame (df) und das DataFrame, das aus der Parquet-Datei gelesen wurde (df_read), anzeigen. [62] - Den HTML-Inhalt als PDF-Dokument mit IronPDF rendern. [63] - Das generierte PDF-Dokument als Demo-FastParquet.pdf speichern.

[64] Der Code zeigt ein Beispiel für die Verwendung von FastParquet, indem Datenverarbeitungsfunktionen mit der PDF-Erzeugung integriert werden, was es nützlich macht, Berichte oder Dokumente basierend auf Daten zu erstellen, die in Parquet-Dateien gespeichert sind.

AUSGABE

[65] fastparquet Python: Abbildung 5 - Konsolenausgabe, die Daten des ursprünglichen DataFrames und des aus der Parquet-Datei gelesenen DataFrames anzeigt.

AUSGABE-PDF

[66] fastparquet Python: Abbildung 6 - Ausgabepdf, generiert mit der IronPDF-Bibliothek

IronPDF-Lizenz

[67] Für Lizenzinformationen besuchen Sie die IronPDF-Lizenzierungsseite.

Setzen Sie den Lizenzschlüssel am Anfang des Skripts, bevor Sie das IronPDF-Paket verwenden:

from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
PYTHON

Abschluss

[68] fastparquet ist eine leistungsstarke und effiziente Bibliothek zum Arbeiten mit Parquet-Dateien in Python. [69] Die Integration mit Pandas und Dask macht es zu einer hervorragenden Wahl für die Handhabung großer Datensätze in einem Python-basierten Big-Data-Workflow. [70] IronPDF ist eine robuste Python-Bibliothek, die die Erstellung, Bearbeitung und Wiedergabe von PDF-Dokumenten direkt aus Python-Anwendungen ermöglicht. [71] Es vereinfacht Aufgaben wie das Konvertieren von HTML-Inhalten in PDF-Dokumente, das Erstellen interaktiver Formulare und das Durchführen verschiedener PDF-Manipulationen wie das Zusammenführen von Dateien oder das Hinzufügen von Wasserzeichen. [72] IronPDF integriert sich nahtlos mit bestehenden Python-Frameworks und -Umgebungen und bietet Entwicklern eine vielseitige Lösung zur dynamischen Erstellung und Anpassung von PDF-Dokumenten. [73] Zusammen mit fastparquet ermöglicht IronPDF nahtlose Datenverarbeitung im Parquet-Dateiformat und die PDF-Erzeugung.

[74] IronPDF bietet umfassende Dokumentation und Codebeispiele, um Entwicklern dabei zu helfen, das Beste aus seinen Funktionen herauszuholen. [75] Für weitere Informationen lesen Sie bitte die Dokumentation und die Codebeispiel-Seiten.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen