Ajout d'un datanode à un cluster Hadoop sur une machine différente.
Ce cluster est composé d'un namenode et de trois datanode sur la premiere machine que l'on appelera VM1et d'un datanode sur la deuxieme machine que l'on nommera VM2.
Nous travaillerons donc seulement sur la VM2 dans cette documentation.
-
Git
-
Docker Engine
-
Docker Compose
-
Cluster Hadoop sur la
VM1
Cloner le repository.
git clone https://github.com/baha1218/HadoopDatanode.gitRendez-vous dans le dossier HadoopDatanode/
cd HadoopDatanode/Vous devez maintenant déclararer l'ip de VM1 qui porte votre namenode. Dans mon cas il s'agit de 10.107.0.6.
Éditez les fichiers core-site.xml et yarn-site.xml grace aux commandes suivantes :
nano config/core-site.xml
nano config/yarn-site.xml
nano config/spark/spark-defaults.confBuildez l'image du datastore.
docker build -t hadoop-spark .Lancez le conteneur. Utilisez docker-compose si vous n'etes pas sur red hat.
docker compose -f "docker-compose.yml" up -d --buildVérifiez le bon fonctionnement du cluster sur votre navigateur en tapant l'ip de votre machine http://<ip>:9870 ou votre localhost http://127.0.0.1:9870 sur le port 9870.
