12 février 2014

Le cœur de Hadoop

Introduction

Le cœur de Hadoop comprend deux composants :
  • Le système de gestion de fichiers distribué, HDFS.
  • Le framework logiciel MapReduce.
Outre ces deux composants, l’écosystème de Hadoop comprend de nombreux autres outils tels que Pig, Hive, HBase, Flume, Oozie, Sqoop, etc. (cf. chapitre L’écosystème de Hadoop).
images/03EP03.png
L’écosystème de Hadoop (source : Apache Software Foundation)
Un ensemble de machines fonctionnant avec HDFS et MapReduce (avec HDFS et YARN dans la version 2 de Hadoop) s’appelle un cluster Hadoop. Chaque machine s’appelle un nœud. Un cluster peut avoir de un à plusieurs milliers de nœuds. Plus il y a de nœuds, plus les performances du cluster sont bonnes.
Hadoop a été conçu pour satisfaire aux objectifs suivants :
  • Un cluster Hadoop doit pouvoir stocker et traiter des volumes de données très importants, dans des délais et à un coût acceptables.
  • Si un nœud d’un cluster Hadoop tombe en panne :
  • Cela ne doit jamais entraîner de perte de données.
  • Sa charge de travail doit être répartie automatiquement entre les nœuds restants.
  • S’il est en train d’exécuter une tâche pour un job, la panne ne doit pas affecter le bon déroulement du job.
  • Après qu’un nœud défaillant a été réparé, il doit pouvoir réintégrer le cluster sans qu’il soit besoin de redémarrer ce dernier.
  • L’ajout de nœuds dans un cluster doit se traduire par une amélioration proportionnelle de ses performances.

Aucun commentaire :

Enregistrer un commentaire