Idée reçue répandue dans l’écosystème Data Lake : les jointures SQL seraient trop coûteuses en CPU, justifiant l’usage de tables “One Big Table” (OBT) pré-jointes. Cet article met en place un benchmark comparatif entre un modèle dimensionnel classique (sales + product) et une table OBT aplatie sur 1 milliard de lignes, en utilisant DuckDB. Les résultats remettent en cause l’hypothèse selon laquelle sacrifier de l’espace disque permet d’économiser du CPU au moment de la lecture.
Commentaires
Vous devez
vous inscrire
ou
vous connecter
pour poster un commentaire