PYTHON HILFE

fastparquet Python (Wie es für Entwickler funktioniert)

Einführung

fastparquet ist eine Python-Bibliothek, die dafür ausgelegt ist, das Parquet-Dateiformat zu unterstützen, welches häufig in Big Data-Workflows verwendet wird. Es lässt sich gut mit anderen Python-basierten Datenverarbeitungstools wie Dask und Pandas integrieren. Schauen wir uns die Funktionen an und sehen wir uns einige Codebeispiele an. Später in diesem Artikel werden wir auch über IronPDF lernen, eine PDF-Generierungsbibliothek von Iron Software.

Überblick über fastparquet

fastparquet ist effizient und unterstützt eine breite Palette von Parquet-Funktionen. Einige der wichtigsten Merkmale sind:

Lesen und Schreiben von Parkettdateien

Einfaches Lesen von und Schreiben in Parkettdateien und anderen Datendateien.

Integration mit Pandas und Dask

Nahtlose Zusammenarbeit mit Pandas DataFrames und Dask für parallele Verarbeitung.

Unterstützung der Kompression

Unterstützt verschiedene Kompressionsalgorithmen wie gzip, snappy, brotli, lz4 und zstandard in Datendateien.

Effiziente Speicherung

Optimiert für die Speicherung und den Abruf großer Datensätze oder Datendateien unter Verwendung des kolumnaren Parquet-Dateiformats und einer auf die Datei verweisenden Metadaten-Datei.

Einrichtung

Sie können fastparquet mit pip installieren:

pip install fastparquet
pip install fastparquet
SHELL

Oder mit conda:

conda install -c conda-forge fastparquet
py
PYTHON

Grundlegende Verwendung

Hier ist ein einfaches Beispiel, um Ihnen den Einstieg in fastparquet zu erleichtern.

Schreiben einer Parkettdatei

Sie können einen Pandas DataFrame in eine Parquet-Datei schreiben:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
py
PYTHON

Ausgabe

fastparquet Python (Wie es für Entwickler funktioniert): Abbildung 1 - Konsolenausgabe

Lesen einer Parkettdatei

Sie können eine Parquet-Datei in einen Pandas DataFrame einlesen:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
py
PYTHON

Ausgabe

fastparquet Python (Wie es für Entwickler funktioniert): Abbildung 2 - Konsolenausgabe

Anzeige der Metadaten von Parkettdateien

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
py
PYTHON

Ausgabe

fastparquet Python (Wie es für Entwickler funktioniert): Abbildung 3 - Konsolenausgabe

Erweiterte Funktionen

Dask für die Parallelverarbeitung verwenden

fastparquet Python integriert sich gut mit Dask für die parallele Verarbeitung großer Datensätze:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
py
PYTHON

Komprimierung anpassen

Sie können beim Schreiben von Parkettdateien verschiedene Komprimierungsalgorithmen angeben:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
py
PYTHON

Einführung in IronPDF

fastparquet Python (So funktioniert es für Entwickler): Abbildung 4 - IronPDF for Python: Die Python PDF-Bibliothek

IronPDF ist eine leistungsstarke Python-Bibliothek, die entwickelt wurde, um PDF-Dokumente aus HTML, CSS, Bildern und JavaScript zu erzeugen, zu verändern und digital zu signieren. Es zeichnet sich durch hohe Leistung bei minimalem Speicherbedarf aus. Hier sind seine wichtigsten Merkmale:

1. Konvertierung von HTML in PDF

Konvertieren Sie mit IronPDF HTML-Dateien, HTML-Strings und URLs in PDF-Dokumente. Zum Beispiel mühelos Webseiten in PDFs umwandeln mit dem Chrome PDF Renderer.

2. Plattformübergreifende Unterstützung

Kompatibel mit Python 3+ unter Windows, Mac, Linux und verschiedenen Cloud-Plattformen. IronPDF ist auch für .NET-, Java-, Python- und Node.js-Umgebungen verfügbar.

3. Bearbeitung und Unterzeichnung

Ändern Sie Dokumenteigenschaften, verbessern Sie die Sicherheit mit Passwortschutz und Berechtigungen und integrieren Sie digitale Signaturen in Ihre PDFs mit IronPDF.

4. Seitenvorlagen und Einstellungen

Passen Sie PDFs mit individuellen Kopfzeilen, Fußzeilen, Seitenzahlen und anpassbaren Rändern an. Es unterstützt responsive Layouts und passt sich benutzerdefinierten Papierformaten an.

5. Einhaltung von Normen

Entspricht den PDF-Standards wie PDF/A und PDF/UA. Es beherrscht die UTF-8-Zeichenkodierung und verwaltet Assets wie Bilder, CSS-Stylesheets und Schriftarten effektiv.

Erzeugen von PDF-Dokumenten mit IronPDF und fastparquet

Voraussetzungen für IronPDF for Python

  1. IronPDF basiert auf .NET 6.0 als zugrunde liegende Technologie. Stellen Sie daher sicher, dass die .NET 6.0-Laufzeit auf Ihrem System installiert ist.

  2. Python 3.0+: Stellen Sie sicher, dass Sie Python Version 3 oder höher installiert haben.

  3. pip: Installieren Sie den Python-Paket-Installer pip zur Installation des IronPDF-Pakets.

Einrichtung

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
py
PYTHON

Code-Beispiel

Das folgende Codebeispiel demonstriert die Verwendung von fastparquet und IronPDF zusammen in Python:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
py
PYTHON

Code Erläuterung

Dieses Codeschnipsel demonstriert, wie mehrere Python-Bibliotheken verwendet werden können, um Daten zu manipulieren und ein PDF-Dokument aus HTML-Inhalten zu erzeugen.

  1. Importe und Einrichtung: fastparquet-Import und IronPDF-Importanweisungen für die Datenmanipulation, zum Lesen und Schreiben von Parquet-Dateien und zur PDF-Erstellung.

  2. Lizenzschlüssel einstellen: Stellen Sie den Lizenzschlüssel für IronPDF ein, um dessen Funktionen zu aktivieren.

  3. Erstellen eines Beispieldatenrahmens: Definieren Sie einen Beispieldatenrahmen (df), der Informationen über Personen (Name, Alter, Stadt) enthält.

  4. Schreiben von DataFrame in Parquet: Schreiben Sie den DataFrame `df` in eine Parquet-Datei mit dem Namen `example.parquet`.

  5. Lesen aus Parquet-Datei: Lesen Sie Daten aus der Parquet-Datei (example.parquet) zurück in ein DataFrame (df_read).

  6. PDF aus HTML generieren: Initialisieren Sie eine ChromePdfRenderer-Instanz mit IronPDF.

  7. HTML-String: Erstellen Sie einen HTML-String (`content`), der eine Überschrift (`

    `) und Absätze (`

    `) enthält, die das ursprüngliche DataFrame (`df`) und das aus der Parquet-Datei gelesene DataFrame (`df_read`) anzeigen.

  8. `pdf = renderer.RenderHtmlAsPdf(content)`: Rendert den HTML-Inhalt (`content`) als PDF-Dokument mit IronPDF.

  9. `pdf.SaveAs("Demo-FastParquet.pdf")`: Speichert das erzeugte PDF-Dokument als `Demo-FastParquet.pdf`.

    Code demonstriert einen Beispielcode für FastParquet, und dann integriert es nahtlos Datenverarbeitungsfunktionen mit PDF-Generierung, so dass es nützlich für die Erstellung von Berichten oder Dokumenten auf der Grundlage von Daten in Parkett-Dateien gespeichert.

OUTPUT

fastparquet Python (Wie es für Entwickler funktioniert): Abbildung 5 - Konsolenausgabe, die Daten aus dem ursprünglichen Dataframe und dem aus der Parquet-Datei gelesenen Dataframe anzeigt.

OUTPUT PDF

fastparquet Python (Wie es für Entwickler funktioniert): Abbildung 6 - Ausgabepdf, erstellt mit der IronPDF-Bibliothek

IronPDF-Lizenz

IronPDF-Seite.

Platzieren Sie den Lizenzschlüssel am Anfang des Skripts, bevor Sie das IronPDF-Paket verwenden:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
py
PYTHON

Schlussfolgerung

fastparquet ist eine leistungsstarke und effiziente Bibliothek zum Arbeiten mit Parquet-Dateien in Python. Seine Integration mit Pandas und Dask macht es zu einer guten Wahl für die Verarbeitung großer Datenmengen in einem Python-basierten Big-Data-Workflow. IronPDF ist eine robuste Python-Bibliothek, die die Erstellung, Bearbeitung und Darstellung von PDF-Dokumenten direkt aus Python-Anwendungen ermöglicht. Es vereinfacht Aufgaben wie die Umwandlung von HTML-Inhalten in PDF-Dokumente, die Erstellung interaktiver Formulare und die Durchführung verschiedener PDF-Manipulationen wie das Zusammenführen von Dateien oder das Hinzufügen von Wasserzeichen. IronPDF integriert sich nahtlos in vorhandene Python-Frameworks und -Umgebungen und bietet Entwicklern eine vielseitige Lösung zum dynamischen Erstellen und Anpassen von PDF-Dokumenten. Zusammen mit fastparquet- und IronPDF-Daten können Bearbeitung im Parquet-Dateiformat und PDF-Erstellung nahtlos erfolgen.

IronPDF bietet eine umfassende Dokumentation und Codebeispiele, um Entwicklern zu helfen, das Beste aus seinen Funktionen herauszuholen. Weitere Informationen finden Sie auf den Seiten der Dokumentation und der Codebeispiele.

Chaknith Bin
Software-Ingenieur
Chaknith arbeitet an IronXL und IronBarcode. Er hat tiefgehende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Erkenntnisse aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentation und einem insgesamt besseren Erlebnis bei.
< PREVIOUS
Flask Python (Wie es für Entwickler funktioniert)
NÄCHSTES >
Keras Python (Wie es für Entwickler funktioniert)

Sind Sie bereit, loszulegen? Version: 2025.5 gerade veröffentlicht

Lizenzen anzeigen >