Question 3Ware 9650SE RAID-6, deux disques dégradés, un ECC, reconstruit bloqué


Ce matin, je suis arrivé au bureau pour découvrir que deux des disques d'un contrôleur RAID-6, 3ware 9650SE étaient marqués comme étant dégradés et qu'il reconstruisait le module RAID. Après avoir atteint environ 4%, des erreurs ECC se sont produites sur un troisième disque (c'est peut-être ce qui s'est passé lorsque j'ai tenté d'accéder au système de fichiers sur ce RAID et que le contrôleur a généré des erreurs d'E / S). Maintenant je suis dans cet état:

> /c2/u1 show

Unit     UnitType  Status         %RCmpl  %V/I/M  Port  Stripe  Size(GB)
------------------------------------------------------------------------
u1       RAID-6    REBUILDING     4%(A)   -       -     64K     7450.5    
u1-0     DISK      OK             -       -       p5    -       931.312   
u1-1     DISK      OK             -       -       p2    -       931.312   
u1-2     DISK      OK             -       -       p1    -       931.312   
u1-3     DISK      OK             -       -       p4    -       931.312   
u1-4     DISK      OK             -       -       p11   -       931.312   
u1-5     DISK      DEGRADED       -       -       p6    -       931.312   
u1-6     DISK      OK             -       -       p7    -       931.312   
u1-7     DISK      DEGRADED       -       -       p3    -       931.312   
u1-8     DISK      WARNING        -       -       p9    -       931.312   
u1-9     DISK      OK             -       -       p10   -       931.312   
u1/v0    Volume    -              -       -       -     -       7450.5    

En examinant les données SMART sur les trois lecteurs en question, les deux qui sont DEGRADED sont en bon état (PASSED sans erreurs Current_Pending_Sector ou Offline_Uncorrectable), mais le lecteur répertorié comme AVERTISSEMENT comporte 24 secteurs non corrigibles.

Et, la "reconstruction" est bloquée à 4% depuis dix heures maintenant.

Alors:

Comment puis-je le faire pour commencer à reconstruire? Ce contrôleur particulier ne semble pas supporter /c2/u1 resume rebuild, et la seule commande de reconstruction qui semble être une option est celle qui veut savoir quel disque ajouter (/c2/u1 start rebuild disk=<p:-p...> [ignoreECC] selon l'aide). J'ai deux disques de secours sur le serveur et je suis heureux de les utiliser, mais je ne comprends pas ce que cela ferait avec ces informations dans l'état actuel des données.

Puis-je retirer le lecteur qui est en panne de façon manifeste (le lecteur WARNING) lorsque j'ai deux lecteurs DEGRADED dans un RAID-6? Il me semble que le meilleur scénario serait que je tire le lecteur WARNING et lui dise d'utiliser l'un de mes disques de secours lors de la reconstruction. Mais est-ce que je ne vais pas tuer la chose en tirant un "bon" disque dans un RAID-6 avec deux disques DEGRADED?

Enfin, dans d'autres publications, j'ai constaté qu'un mauvais bogue de ce contrôleur faisait en sorte que les bons disques étaient signalés comme mauvais et que la mise à niveau du microprogramme pouvait aider. Faire clignoter le micrologiciel est-il une opération risquée étant donné la situation? Est-il susceptible d’aider ou de nuire au RAID reconstruisant mais bloqué à 4%? Est-ce que je vis ce bug en action?

Des conseils en dehors du spirituel seraient très appréciés. Merci.


5
2018-06-20 01:10


origine


Sans dire ce qui est évident, c’est précisément à cela que servent les sauvegardes. Vous pouvez essayer de lire toutes les données critiques que vous n'avez peut-être pas sauvegardées en premier. Le RAID n'est pas une sauvegarde, c'est une défaillance du contrôleur ou du système d'exploitation hôte pouvez sortir une matrice RAID. - David Schwartz
David, en effet vous avez raison. Nous en avons des copies de sauvegarde, mais une grande partie des données sont accessibles au public et nous avons décidé de ne pas les sauvegarder. Peut-être que la mauvaise décision, mais je suis là: récupérer les données, ou passer des semaines à les télécharger à nouveau en arrière-plan. J'espère que quelqu'un a une expérience de 3ware pour m'aider à identifier le prochain plan d'action le plus sûr. - cswingle
Eh bien, vous avez raison de dire que la matrice échouera si vous retirez le lecteur dont l'état est WARNING, alors ne faites pas cela ... vous ne savez pas exactement ce que vous devriez faire. Pouvez-vous accéder au volume et essayer de copier / sauvegarder vos données? C'est probablement ce que je ferais. Priez que je récupère les données avant que le tableau ne tombe en panne, et une fois que cela se produit, pas grave si le tableau tombe en panne. - HopelessN00b
HopelessN00b: Il a été monté lorsque j'ai démarré tout ce processus, mais des erreurs d'E / S ont été générées presque immédiatement lorsque j'ai essayé d'accéder aux bases de données PostgreSQL. J'ai ensuite essayé un xfs_repair, qui a échoué. Aujourd'hui, j'ai pu le monter et je copie soigneusement les éléments les plus importants. Jusqu'ici tout va bien. Une fois que j'ai tout ce que je peux, je me sentirai plus à l'aise pour explorer les tw_cli options. - cswingle


Réponses:


J'ai réussi à reconstruire le RAID en émettant la commande suivante dans tw_cli sans tirer aucun disque ou redémarrer le système:

/c2/u1 set ignoreECC=on

La reconstruction n'a pas eu lieu immédiatement, mais à 2 heures du matin le lendemain de mon changement, la reconstruction a commencé et environ 6 heures plus tard, elle était terminée. Le lecteur avec des erreurs ECC avait 24 secteurs défectueux qui ont maintenant été remplacés et réaffectés par le lecteur (selon les données SMART). Le système de fichiers semble intact, mais je ne serai pas surpris si je rencontre des erreurs lorsque je reçois des données quelconques sur ces secteurs.

Dans tous les cas, je suis bien mieux que je l'étais auparavant et serai probablement capable de récupérer la majorité des données. Une fois que j'ai obtenu ce que je peux, je vais extraire le disque qui tombe en panne et le reconstruire sur un disque de secours.


4
2018-06-21 16:45