Introduction
Le cœur de Hadoop comprend deux composants :
-
Le système de gestion de fichiers distribué, HDFS.
-
Le framework logiciel MapReduce.
Outre ces deux composants, l’écosystème
de Hadoop comprend de nombreux autres outils tels que Pig, Hive,
HBase, Flume, Oozie, Sqoop, etc. (cf. chapitre L’écosystème
de Hadoop).
L’écosystème de Hadoop
(source : Apache Software Foundation)
Un ensemble de machines fonctionnant avec
HDFS et MapReduce (avec HDFS et YARN dans la version 2 de Hadoop)
s’appelle un cluster Hadoop. Chaque machine s’appelle un nœud.
Un cluster peut avoir de un à plusieurs milliers de nœuds.
Plus il y a de nœuds, plus les performances du cluster
sont bonnes.
Hadoop a été conçu
pour satisfaire aux objectifs suivants :
-
Un cluster Hadoop doit pouvoir stocker et traiter des volumes de données très importants, dans des délais et à un coût acceptables.
-
Si un nœud d’un cluster Hadoop tombe en panne :
-
Cela ne doit jamais entraîner de perte de données.
-
Sa charge de travail doit être répartie automatiquement entre les nœuds restants.
-
S’il est en train d’exécuter une tâche pour un job, la panne ne doit pas affecter le bon déroulement du job.
-
Après qu’un nœud défaillant a été réparé, il doit pouvoir réintégrer le cluster sans qu’il soit besoin de redémarrer ce dernier.
-
L’ajout de nœuds dans un cluster doit se traduire par une amélioration proportionnelle de ses performances.
Aucun commentaire :
Enregistrer un commentaire