Format Apache Parquet

Établi à partir de 2014 par la fondation Apache (création par Twitter et Cloudera en 2013), le format Apache Parquet (extension .parquet) est un format standardisé libre de stockage en colonne ayant pour caractéristiques principales :

  • stockage binaire efficace des données dans un format colonne typé,
  • compression des données par colonne,
  • lecture rapide de grandes quantités de données,
  • disponible dans l’écosystème Hadoop,
  • indépendant de la plateforme, portable.

Le format Apache Parquet présente plusieurs avantages par rapport au CSV :

  • plus compact, différentes compressions sont disponibles,
  • plus rapide, notamment sans avoir à parcourir le fichier entier.

Les fichiers sont indépendants de la plate-forme et peuvent être utilisées par une variété de bibliothèques et d’outils libres (DBeaver, DuckDB, Pandas, PyArrow, Apache Spark…).

Ce format a été ajouté à SICLIMA pour faciliter l’utilisation des données climatiques dans des logiciels d’analyse. Il a été configuré ainsi (notamment en suivant les recommandations OGC GeoParquet) :

  • taille des groupes de lignes : 1 Go,
  • taille des pages de données : 8 Ko,
  • compression : Zstd,
  • niveau de compression : 15.

Le fichier est trié par numéro de maille.

Les fichiers Apache Parquet fournis par SICLIMA sont créés grâce à la bibliothèque Java de Apache Parquet.