Logo el.boatexistence.com

Έχει σχήμα το αρχείο παρκέ;

Πίνακας περιεχομένων:

Έχει σχήμα το αρχείο παρκέ;
Έχει σχήμα το αρχείο παρκέ;

Βίντεο: Έχει σχήμα το αρχείο παρκέ;

Βίντεο: Έχει σχήμα το αρχείο παρκέ;
Βίντεο: Μ. Μπούντενχολζερ: «Ο Γιάννης είναι τα πάντα, η Εθνική έχει καλό προπονητή» | 17/8/22 | ΕΡΤ 2024, Ενδέχεται
Anonim

Το αρχείο Parquet είναι ένα αρχείο hdfs που πρέπει να περιλαμβάνει τα μεταδεδομένα για το αρχείο. Αυτό επιτρέπει τον διαχωρισμό στηλών σε πολλά αρχεία, καθώς και την ύπαρξη ενός μόνο αρχείου μεταδεδομένων που αναφέρεται σε πολλά αρχεία παρκέ. Τα μεταδεδομένα περιλαμβάνουν το σχήμα για τα δεδομένα που είναι αποθηκευμένα στο αρχείο.

Πώς μπορώ να δημιουργήσω ένα σχήμα για ένα αρχείο παρκέ;

Για να δημιουργήσετε το σχήμα των δεδομένων δείγματος παρκέ, κάντε τα εξής:

  1. Συνδεθείτε στο πλαίσιο Haddop/Hive.
  2. Δημιουργεί το σχήμα στο stdout ως εξής: -------------- [~] parquet-tools schema abc.parquet. μήνυμα hive_schema { …
  3. Αντιγράψτε αυτό το σχήμα σε ένα αρχείο με. παρκέ/. παρ. επέκταση.

Υποστηρίζει το παρκέ την εξέλιξη του σχήματος;

Σχήμα συγχώνευσης

Όπως το Protocol Buffer, το Avro και το Thrift, το Parquet υποστηρίζει επίσης την εξέλιξη σχήματος Οι χρήστες μπορούν να ξεκινήσουν με ένα απλό σχήμα και σταδιακά να προσθέτουν περισσότερες στήλες σε το σχήμα όπως απαιτείται. Με αυτόν τον τρόπο, οι χρήστες ενδέχεται να καταλήξουν με πολλά αρχεία Parquet με διαφορετικά αλλά αμοιβαία συμβατά σχήματα.

Τα αρχεία παρκέ έχουν τύπους δεδομένων;

Οι τύποι δεδομένων αρχείων Parquet αντιστοιχίζονται σε τύπους δεδομένων μετασχηματισμού που χρησιμοποιεί η Υπηρεσία ενοποίησης δεδομένων για τη μετακίνηση δεδομένων σε πλατφόρμες. Το σχήμα Parquet που καθορίζετε για την ανάγνωση ή τη σύνταξη ενός αρχείου Parquet πρέπει να είναι σε μικρότερα πεζά.

Ποια είναι η δομή του αρχείου παρκέ;

Τα αρχεία παρκέ αποτελούνται από ομάδες σειρών, κεφαλίδα και υποσέλιδο Κάθε ομάδα σειρών περιέχει δεδομένα από τις ίδιες στήλες. Οι ίδιες στήλες αποθηκεύονται μαζί σε κάθε ομάδα σειρών: Αυτή η δομή είναι καλά βελτιστοποιημένη τόσο για γρήγορη απόδοση ερωτήματος, όσο και για χαμηλές εισόδους/εξόδους (ελαχιστοποίηση του όγκου των δεδομένων που σαρώνονται).

Συνιστάται: