Introduction

Le cœur de Hadoop comprend deux composants :

Le système de gestion de fichiers distribué, HDFS.
Le framework logiciel MapReduce.

Outre ces deux composants, l’écosystème de Hadoop comprend de nombreux autres outils tels que Pig, Hive, HBase, Flume, Oozie, Sqoop, etc. (cf. chapitre L’écosystème de Hadoop).

L’écosystème de Hadoop (source : Apache Software Foundation)

Un ensemble de machines fonctionnant avec HDFS et MapReduce (avec HDFS et YARN dans la version 2 de Hadoop) s’appelle un cluster Hadoop. Chaque machine s’appelle un nœud. Un cluster peut avoir de un à plusieurs milliers de nœuds. Plus il y a de nœuds, plus les performances du cluster sont bonnes.

Hadoop a été conçu pour satisfaire aux objectifs suivants :

Un cluster Hadoop doit pouvoir stocker et traiter des volumes de données très importants, dans des délais et à un coût acceptables.
Si un nœud d’un cluster Hadoop tombe en panne :

Cela ne doit jamais entraîner de perte de données.
Sa charge de travail doit être répartie automatiquement entre les nœuds restants.
S’il est en train d’exécuter une tâche pour un job, la panne ne doit pas affecter le bon déroulement du job.

Après qu’un nœud défaillant a été réparé, il doit pouvoir réintégrer le cluster sans qu’il soit besoin de redémarrer ce dernier.
L’ajout de nœuds dans un cluster doit se traduire par une amélioration proportionnelle de ses performances.

Stocker et traiter des volumes de données très importants

Un cluster Hadoop est constitué de plusieurs dizaines, centaines ou milliers de nœuds (cf. chapitre Introduction). C’est l’addition des capacités de stockage et de traitement de chacun de ces nœuds qui permet d’offrir un espace de stockage et une puissance de calcul pouvant traiter des volumes de données de plusieurs To ou Po.

Pour améliorer les performances d’un cluster en lecture/écriture, le système de gestion de fichiers de Hadoop, HDFS, écrit et lit les fichiers par blocs de 64 Mo par défaut (ce paramètre peut être modifié : la valeur recommandée en 2013 est de 128 Mo au moins). Le fait de travailler sur des blocs aussi importants permet de maximiser les taux de transfert des données, en limitant le temps de recherche au niveau des disques durs (seek time).

Le plus souvent, le dernier bloc d’un fichier a une taille inférieure à la taille définie (64 Mo dans le schéma ci-dessus) : comme Hadoop s’appuie sur le système de gestion de fichiers natif, par exemple ext3, l’espace perdu sera approximativement de la taille d’un bloc dans le système natif, 4 ou 8 Ko dans le cas de ext3.

Pour limiter les coûts, Hadoop a été conçu pour pouvoir fonctionner avec du matériel de milieu de gamme (commodity hardware en anglais - cf. chapitre Aspects matériels).

Garantir la redondance des données

Comme un matériel de milieu de gamme a couramment une durée de vie de trois à cinq ans, la défaillance d’un nœud au sein d’un cluster Hadoop en comportant plusieurs centaines n’est pas un événement rare. Hadoop, ou plus précisément HDFS, intègre une fonction de réplication automatique des données pour limiter les conséquences d’un tel événement.

Lors de leur chargement dans un cluster Hadoop, les données sont stockées en trois exemplaires par défaut (ce paramètre, le facteur de réplication, peut être modifié), sur des nœuds différents. Cette réplication des données répond en fait à deux objectifs :

En cas de panne d’un nœud, quelle qu’en soit la raison, matérielle ou logicielle, deux copies des données, stockées sur d’autres nœuds, restent disponibles.
Lors de l’exécution d’un job Hadoop, chaque tâche peut être exécutée sur n’importe quel nœud, surtout s’il stocke une copie des données nécessaires à la tâche. En conséquence, plus il y a de copies des données et plus il y a de nœuds susceptibles d’exécuter la tâche (c’est-à-dire d’être disponibles) dans des conditions optimales à un moment donné.

La réplication systématique des données, qui est parfois perçue comme un gaspillage d’espace disque, est rendue possible par la baisse du coût de stockage sur disque dur, qui est passé de 150 $ par Go environ en 1997, à 1,05 $ par Go en 2004 et à 0,07 $ par Go en 2009. La réplication des données est un élément capital pour le bon fonctionnement de Hadoop (ce point est développé plus bas). Elle permet, en outre, dans une certaine mesure, de limiter les besoins en sauvegardes.

Faire face à la panne d’un nœud

1. Réaffecter les tâches

Lors de l’exécution d’un job Hadoop, le deamon JobTracker répartit les tâches entre les nœuds de telle sorte que le nœud qui exécute la tâche héberge aussi les données nécessaires à l’exécution de cette tâche. C’est ce que l’on appelle la "Data Locality" (proximité des données) dans le langage Hadoop. Cette approche est le contraire de celle qui prévaut traditionnellement en informatique.

Le choix d’envoyer les programmes (quelques Mo) vers les données (plusieurs To), plutôt que l’inverse, constitue une des grandes originalités de Hadoop. Cela permet de limiter le volume des données circulant dans le cluster et d’économiser à la fois de la bande passante et du temps.

Le JobTracker est capable de détecter la panne d’un nœud et de réassigner automatiquement les tâches concernées à d’autres nœuds. Ce processus se fait de manière transparente pour l’utilisateur.

2. Garantir la bonne fin des jobs en cours

Si une tâche d’un job en cours ne se termine pas normalement, soit parce que le nœud sur lequel elle s’exécute tombe en panne, soit pour une autre raison, Hadoop est capable :

De détecter l’incident.
De déterminer avec précision la tâche concernée (code et données).
De relancer la tâche sur un autre nœud et, si le nœud choisi ne dispose pas des données nécessaires à la bonne exécution de la tâche, d’aller chercher une des deux autres copies des données présentes dans le cluster grâce à la réplication automatique.

3. Le retour à la normale

Hadoop dispose de fonctions natives permettant d’ajouter des nœuds à un cluster Hadoop en fonctionnement, sans arrêter ou relancer celui-ci. Cette opération est généralement menée à bien par l’administrateur Hadoop.

L’opération inverse, c’est-à-dire supprimer des nœuds d’un cluster Hadoop en fonctionnement, est possible dans les mêmes conditions.

La connaissance, c'est partager le savoir qui nous fait grandir.

12 février 2014

Le cœur de Hadoop