Hadoop est devenu une référence dans l’univers du BigData, et MapReduce, un nouveau paradigme pour exploiter les données. Implémenter directement les traitements de données avec MapReduce donne certainement le plus de flexibilité, mais cela revient à utiliser de l’assembleur. Le manque d’abstraction et la verbosité induite nuisent à la productivité.

Il existe des alternatives, plus haut niveau. Pig et Hive en sont les plus connues. Déterminer la plus pertinente est un exercice difficile car la réponse dépend grandement de votre contexte. Le but de cet article est de vous présenter Cascalog, sans doute l’alternative la plus concise. Basée sur Clojure, cette solution vous laisse dans un environnement familier : la JVM.

Commentaires

Vous devez vous inscrire ou vous connecter pour poster un commentaire