Question Le disque Hadoop échoue, que faites-vous?


J'aimerais connaître vos stratégies sur la marche à suivre en cas de défaillance d'un disque du serveur Hadoop.

Disons que j'ai plusieurs (> 15) serveurs Hadoop et 1 nom-clé, et qu'un sur 6 disques sur esclaves cesse de fonctionner, les disques sont connectés via SAS. Je ne me soucie pas de récupérer les données de ce disque, mais plutôt de stratégies générales pour maintenir le cluster en fonctionnement.

Que faire?


6
2018-06-25 20:23


origine


Faites-vous référence à une défaillance de disque entraînant une dégradation de RAID ou n'utilisez-vous pas des disques redondants? - Kyle Smith
@ Kyle Smith: je n'utilise pas de disques redondants (aucun type de RAID) - wlk
J'ai ajouté une prime, une même transaction, un hadoop, un groupe de nœuds, chaque nœud ayant plusieurs disques, monté en tant que / data / [a, b, c, d, e, f], je perd un disque, cela signifie que je perds le nœud jusqu'à ce que cela soit corrigé. Cela ne devrait certainement pas arriver, mais je ne suis pas encore un expert en hadoop. - Ronald Pottol
@ Ronald Pottol Avez-vous remarqué ma réponse à votre problème? - Rob Olmos
Oui, je voulais juste vérifier d’abord avec mes développeurs. - Ronald Pottol


Réponses:


Nous avons déployé un hadoop. Vous pouvez spécifier des numéros de réplication pour les fichiers. Combien de fois un fichier est répliqué. Hadoop a un seul point d'échec sur le namenode. Si vous craignez que les disques ne sortent, augmentez la réplication à 3 ou plus.

Ensuite, si un disque va mal, c'est très simple. Jetez-le et reformatez-le. Hadoop s'ajustera automatiquement. En fait, dès qu’un disque est hors d’usage, il commence à rééquilibrer les fichiers pour conserver les numéros de réplication.

Je ne sais pas pourquoi vous avez une telle prime. Vous avez dit que vous n'aimiez pas récupérer les données. Hadoop n'a qu'un seul point d'échec sur le nœud de nom. Tous les autres nœuds sont consommables.


3
2017-09-01 00:05



Eh bien, je suis un gars différent (une personne a demandé, et une personne complètement indépendante a mis en place la prime plusieurs mois plus tard, car ils ont le même problème). Je sais que les données sont répliquées 3 fois, donc rien n'est perdu, mais perdre un disque semble être bien pire qu'il ne devrait l'être pour nous. Nouvelle équipe ayant hérité d'un système mal documenté. Nos nœuds ont tendance à devenir fous (charge de plus de 200) quand ils perdent un disque, ce qui semble déraisonnable. J'espère qu'une meilleure configuration résoudra ce problème. - Ronald Pottol
Êtes-vous intéressé à garder un nœud en vie après la détérioration d'un disque? Je conviens que le nœud devrait normalement mourir au lieu de devenir fou avec une charge supérieure à 200. Donc, s'agit-il seulement d'un bogue Hadoop qui explique pourquoi un nœud ne meurt pas lorsqu'un disque est hors d'usage? L'architecture de Hadoop est simple: si un nœud meurt, supprimez-le. Ajoutez-en un autre plus tard si vous le souhaitez ou remettez-le quand il est corrigé. - Amala
Oui, après tout, ils ont quelque chose comme 6 disques pour hadoop, chacun sur son propre système de fichiers. Perdre un disque signifie donc que certaines données doivent être répliquées à partir des deux autres copies, mais aucune raison pour le nœud et l'autre. disques de données à déconnecter. - Ronald Pottol
Un datanode ne devrait pas mourir avec la perte d'un seul lecteur. Je soupçonne que quelqu'un a fait une bêtise sur votre machine, comme faire rayer les disques. Hadoop est beaucoup mieux si vous montez tous les disques indépendamment, sans aucun RAID. Dans cette situation, la perte d'un lecteur entraîne la réplication, mais ne supprime pas le code de données. - Ted Dunning
Non, pas de raid (eh bien, le système d'exploitation est sur le raid, mais pas les données hadoop). - Ronald Pottol


Vous avez mentionné que ce système était hérité (peut-être pas à jour) et que la charge augmentait, indiquant une possible boucle infinie. Ce rapport de bogue décrit-il votre situation?

https://issues.apache.org/jira/browse/HDFS-466

Si tel est le cas, cela a été signalé comme étant corrigé dans la dernière version HDFS 0.21.0 (récemment publiée la semaine dernière):

http://hadoop.apache.org/hdfs/docs/current/releasenotes.html

Déni de responsabilité: À ma grande déception, je n'ai toujours pas eu besoin d'utiliser Hadoop / HDFS :)


3
2017-09-03 07:49



Ce bogue fait référence aux bibliothèques C, pas aux bibliothèques Java normales, je pense. - Ted Dunning