Question Est-il préférable d’acheter des disques RAID individuellement ou en vrac?


Cela peut sembler une question étrange, mais cela a généré une discussion animée avec certains de mes collègues. Considérez une matrice RAID de taille moyenne composée de huit ou douze disques. Lors de l’achat du lot initial de disques ou de l’achat de disques de remplacement pour agrandir la matrice ou actualiser le matériel, il existe deux approches générales:

  1. Achetez tous les lecteurs en une seule commande auprès d'un fournisseur et recevez une grande boîte contenant tous les disques.
  2. Commandez un disque chacun auprès de divers fournisseurs et / ou étalez (sur une période de plusieurs jours ou plusieurs semaines) plusieurs commandes d’un disque chacun.

Il y a bien sûr un terrain d'entente, mais ce sont les principales mentalités opposées. Je suis vraiment curieux de savoir quelle approche est la plus sensée pour réduire le risque de défaillance catastrophique du réseau. (Définissons cela comme "25% des disques échouent dans une fenêtre de temps égale à la durée nécessaire à la reconversion du tableau une fois.") La logique étant que, si tous les disques venaient du même endroit, ils pourraient tous avoir le même défauts sous-jacents en attente de grève. La même bombe à retardement avec le même compte à rebours initial, si vous voulez.

J'ai rassemblé quelques-uns des avantages et inconvénients les plus courants pour chaque approche, mais certains d'entre eux se présentent comme des conjectures et des instincts instincts plutôt que comme des données factuelles fiables.

Acheter tout à la fois, les pros

  • Moins de temps passé en phase de recherche / commande.
  • Minimise les coûts d'expédition si le vendeur les facture.
  • Les disques sont quasiment garantis d'avoir la même version de firmware et les mêmes "défauts" dans leurs caractéristiques de fonctionnement (température, vibrations, etc.)
  • Les augmentations de prix et les ruptures de stock risquent de bloquer le projet à mi-parcours.
  • Chaque disque suivant est disponible au moment où il doit être installé.
  • Les numéros de série sont tous connus dès le départ, les disques peuvent être installés dans le boîtier par ordre croissant de numéro de série. Cela semble trop difficile, mais certaines personnes semblent l'apprécier. (Je suppose que leur interface de gestion trie les disques par numéro de série plutôt que par ordre de port matériel ...?)

Acheter tout à la fois, contre

  • Tous les disques (probablement) provenaient de la même usine, construite au même moment, des mêmes matériaux. Ils étaient stockés dans le même environnement et soumis aux mêmes abus potentiels lors du transit. Tout défaut ou dommage présent dans l’un est probablement présent dans l’ensemble.
  • Si les lecteurs sont remplacés individuellement dans une grappe existante et que chaque nouveau disque doit être mis à jour individuellement, il peut s'écouler des semaines avant que le dernier disque de la commande soit installé et reconnu défectueux. La fenêtre de retour / remplacement avec le fournisseur peut expirer pendant cette période.
  • Impossible de tirer profit des baisses de prix imminentes pouvant survenir au cours du projet.

Acheter individuellement, pros

  • Si un disque tombe en panne, il partage très peu d'historique de fabrication / transit avec aucun des autres disques. Si la défaillance a été causée par quelque chose en cours de fabrication ou de transit, la cause première ne s'est probablement produite sur aucun autre disque.
  • Si un disque est mort à l'arrivée ou tombe en panne pendant les premières heures d'utilisation, il sera détecté peu de temps après l'arrivée de l'envoi et le processus de retour risque de se dérouler plus facilement.

Acheter individuellement, contre

  • Il faut beaucoup de temps pour trouver suffisamment de vendeurs à des prix acceptables. Le suivi des commandes, les échecs de livraison, les retours d’articles endommagés et d’autres problèmes peuvent prendre beaucoup de temps à résoudre.
  • Frais d'expédition potentiellement plus élevés.
  • Il existe une possibilité très réelle qu'un nouveau disque soit requis mais qu'aucun ne soit disponible, bloquant le projet.
  • Avantage imaginé. Quels que soient le fournisseur ou la date d’achat, tous les disques proviennent du même endroit et sont vraiment les mêmes. Les défauts de fabrication auraient été détectés par le contrôle de la qualité et les disques de qualité inférieure n'auraient pas été vendus. Les dommages dus au transport devraient être si importants (et clairement visibles à l'œil nu) que les lecteurs endommagés seraient évidents au déballage.

Si nous calculons simplement le nombre de points, "acheter en gros" gagne assez clairement. Mais certains des avantages sont faibles et certains des inconvénients sont forts. Beaucoup de points de balle indiquent simplement l'inverse logique de certains des autres. Certaines de ces choses peuvent être des superstitions absurdes. Mais si la superstition parvient mieux à maintenir l'intégrité du réseau, je suppose que je serais prêt à l'accepter.

Quel groupe est le plus sensible ici?

METTRE À JOUR: J'ai des données pertinentes pour cette discussion. La dernière matrice que j'ai personnellement construite (il y a environ quatre ans) avait huit disques. J'ai commandé auprès d'un seul fournisseur, mais j'ai divisé l'achat en deux commandes de quatre disques chacune, espacées d'environ un mois. Un disque de la matrice est tombé en panne dans les premières heures d’exécution. C'était à partir du premier lot, et la fenêtre de retour pour cette commande s'était fermée dans le temps nécessaire pour tout remonter.

Quatre ans plus tard, les sept disques d'origine plus un remplacement fonctionnent toujours sans erreur. (touchons du bois.)


93
2017-08-23 16:01


origine


+1 de moi pour la question, parce que je voulais le savoir moi-même depuis quelque temps. j'ai absolument Nous avons vu le phénomène des disques durs des gros serveurs de fichiers arriver à la fin de la courbe de la baignoire à peu près au même moment, mais souvent, le nombre de fournisseurs approuvés pour de tels serveurs est assez petit, aussi l’approche "acheter beaucoup de places" est assez difficile. Je suis impatient de voir les réponses avec données réelles en eux. - MadHatter
Ré. votre mise à jour: Ceci est un point de données unique. Répétez cette opération pour des milliers de disques pour obtenir une métrique utile. Ceci est difficile à faire, en particulier avec les cycles de disques de produits plus courts, ce qui entraîne un manque de ce type de données. - Sven♦
Il me semble que je me souviens d’avoir convenu d’avoir déjà meilleur entrainement les questions étaient sur le sujet, à condition qu'elles ne généraient pas simplement un tas d'anecdata. J'espère que cette question pourra apporter d'excellentes réponses et je pense que nous devrions lui donner une chance. - MadHatter
@Sven merci, vous êtes un homme; voici en espérant. Et à tous les répondants potentiels: des données, pas des anecdotes, s'il vous plaît. - MadHatter
Je gère beaucoup de machines avec des raids. Tous les disques échouent éventuellement il vous suffit donc de disposer de suffisamment de pièces de rechange pour pouvoir les échanger dès la notification la plus proche, probablement avant le départ plutôt que d’attendre un échec complet. - Criggie


Réponses:


En pratique, les personnes qui achètent auprès de fournisseurs d’entreprise (HPE, Dell, etc.) ne t'inquiète pas pour ça.

Les disques provenant de ces fournisseurs sont déjà répartis entre plusieurs fabricants sous le même numéro de pièce.

Un disque HP appartenant à une SKU particulière peut être HGST, Seagate ou Western Digital.

Même numéro de référence HP, variation de fabricant, numéro de lot et micrologiciel enter image description here

Vous ne devriez cependant pas essayer de déjouer la probabilité d'échec du lot. Vous pouvez essayer si cela vous donne la tranquillité d'esprit, mais cela ne vaut peut-être pas la peine.

Les bonnes pratiques telles que la mise en cluster, la réplication et les sauvegardes solides constituent la véritable protection contre les échecs de traitement par lots. Ajouter des pièces de rechange chaudes et froides. Surveillez vos systèmes de près. Tirez parti des systèmes de fichiers intelligents tels que ZFS :)

Et rappelez-vous, les pannes de disque dur ne sont pas toujours mécaniques ...


56
2017-08-23 16:29



Le stockage / expédition est toujours en jeu. Si quelqu'un dans une réserve HP ou FedEx laisse tomber une boîte pleine de disques, cela peut affecter l'intégralité du lot reçu. - smitelli
@smitelli Ok. Sauvegardes, RAID, réplication, DR, pièces de rechange. La probabilité que tous vos disques tombent en panne en même temps est suffisamment petite pour que ce ne soit pas un problème que la plupart devraient se préparer à affronter. - ewwhite
Quelque chose à savoir: j'ai acheté 5 lecteurs d'archive de grande qualité pour une boîte de disque SW en une seule commande chez amazon. Le premier a échoué après 48 mois. La seconde, 53 mois. Les troisième et quatrième ont échoué en deux semaines à 55 mois et le dernier à 57 mois. Heureusement, j'utilisais la redondance à 3 voies mais quand même… ce n'est pas ce à quoi je m'attendais. Je ne sais pas si les publications en série étaient séquentielles mais les lecteurs eux-mêmes étaient essentiellement identiques. - MooseBoys
@ewwhite Oui, mais Si vous commandez 10 unités identiques en une fois, elles sont moins susceptibles de provenir de plusieurs fournisseurs que si vous les commandez 1 fois par mois. C'est ce que je veux dire. - Kaithar
Cette réponse semble un peu partiale et ne semble pas expliquer pourquoi c'est peut-être vrai ... avez-vous parlé à toutes les personnes qui commandaient chez Dell? Qu'est-ce qui est "intelligent" à propos de l'échec de lot échec? Est-ce réellement bien que les gens font ce que vous supposez qu'ils font? - AnoE


Par respect pour la réponse de ewwhite, certains administrateurs système commandent par lots. Je ne commanderais jamais moi-même des lecteurs sur une base individuelle, mais au dernier endroit où j'ai travaillé dans une telle capacité, je devais commander des lecteurs par lots. Pour une machine à douze disques, la SOP a dicté que les disques soient divisés en trois lots, ce qui donne à la machine un profil de redondance à trois niveaux.

Cependant, d'autres petites entreprises que j'ai consultées ont suivi des protocoles différents, certains non concernés par le lot et d'autres divisant des lots en deux ou quatre matrices. La réponse courte est faites ce qui vous semble approprié pour le niveau de service que vous devez atteindre.

Note latérale: Le dernier endroit où j'ai travaillé était certainement la bonne chose à faire. La machine de stockage d'applications a décidé d'échouer sur un lot entier de lecteurs et nous avons découvert que ce lot particulier présentait tous le même défaut. Si nous n'avions pas suivi un protocole de traitement par lots, nous aurions subi une perte de données catastrophique.


43
2017-08-23 17:44



J'envisagerais de faire cette note latérale à l'avant! - Oddthinking


Réponse honnête de quelqu'un qui a passé beaucoup de temps à gérer des matrices d'assaut en train de mourir et des disques difficiles: N'ayez pas tous vos disques du même lot si vous pouvez les éviter.

Mon expérience s’applique uniquement aux disques en rotation, les disques SSD ont leurs propres problèmes et avantages à prendre en compte lors d’une commande groupée.

La meilleure façon de gérer les choses dépend principalement de la taille de la baie de disques avec laquelle vous travaillez. Si vous travaillez avec quelque chose comme 6 baies de disques avec une redondance à 2 disques, vous pouvez probablement acheter en toute sécurité des disques similaires de 3 fabricants et diviser la baie de disques. comme ça.

Si vous utilisez un disque étrange ou que vous utilisez des baies qui ne peuvent pas être partitionnées facilement, vous pouvez essayer d'autres méthodes, telles que l'achat du même disque auprès de différents fournisseurs, ou, si vous achetez en gros, vous pouvez regarder à travers. et essayez de séparer les disques en fonction de la probabilité d'être fabriqués ensemble.

Si vous utilisez un assez petit tableau avec la technologie sous-jacente appropriée, il peut même valoir la peine de le construire progressivement à partir de disques hétérogènes. Commencez avec le nombre minimum de disques que vous pouvez obtenir et achetez le prochain stock un mois ou deux plus tard, ou lorsque vous remplissez le système. Cela vous permet également de vous familiariser avec tous les problèmes que pourraient présenter les modèles que vous avez choisis.

La raison derrière ce conseil est une combinaison de deux bizarreries de lecteurs.

  1. MTBF est remarquablement cassé lorsque vous avez beaucoup de disques ayant des origines similaires. En statistique, nous appellerions cela un biais d’échantillonnage; en raison de la similitude de vos échantillons, les effets de calcul de la moyenne auront tendance à être moins utiles. S'il y a une anomalie dans le lot ou même dans la conception elle-même, et que cela se produit plus souvent que vous ne le pensiez, les lecteurs de ce lot échoueront plus rapidement que ne le laisserait MTBF.

    Si les lecteurs sont dispersés, vous pourriez obtenir [50%, 90%, 120%, 200%] de MTBF, mais si tous les lecteurs proviennent de ce lot de 50%, vous avez un désordre sur les mains.

  2. Le réassemblage de la matrice RAID tue les disques. Pas vraiment. Si vous rencontrez une défaillance de lecteur et que la matrice est reconstruite, les autres lecteurs seront surchargés de charge pendant la numérisation des données. Si votre lecteur est sur le point de tomber en panne, la reconstruction risque de l'emporter ou peut-être déjà un emplacement de panne dont vous n'étiez pas au courant, car cette section n'avait pas été lue récemment.

    Si vous avez plusieurs lecteurs du même lot, les chances de ce type d'échec en cascade sont beaucoup plus grandes que celles si elles sont différentes. Vous pouvez atténuer ce problème en effectuant des analyses régulières de la patrouille, du nettoyage, de la résurrection, quelle que soit la pratique recommandée pour le type de baie que vous utilisez, mais l'inconvénient est qu'elle aura un impact sur les performances et peut prendre des heures.

Pour un certain contexte sur la variabilité considérable de la longévité des disques, Backblaze fait un rapport régulier sur les pannes de disque ... Je ne suis affilié à la société, mais ils devraient savoir de quoi ils parlent en matière de fiabilité de disque. . Un exemple est https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... votre échantillon sera probablement plus petit, donc les données périphériques peuvent gâcher votre propre expérience, c'est quand même une bonne référence.


37
2017-08-23 20:52



cela devrait être la réponse retenue. les disques avec des disques similaires (provenant du même firmware / lot, ou achetés ensemble et mal gérés à un moment donné) présentent un risque beaucoup plus élevé de défaillance catastrophique - Olivier Dulac
@OlivierDulac et si le disque a un échec de conception catastrophique, la vie devient vraiment pénible. Les disques de la série WD Raptor 2.5 "WGB Raptor de 300 Go / 600 Go / 900 Go ont / ont eu un taux de défaillance qui doit être connu pour être crédible. - Kaithar
Référencement de Backblaze ... excellent. - O. Jones


J'ai dû prendre en compte cette question pour un client il y a quelques années. J'ai une combinaison d'expérience pratique et de recherche pour étayer la recommandation de recourir à plusieurs sources.

Mettre de côté vos avantages et inconvénients pour le moment, ainsi que excellente réponse d'ewwhite, la prudence suggère que si vous achetez les disques vous-même, vous les multisourcez. Un rapide coup d’œil à la discussion sur les faiblesses RAID de Wikipedia révèle deux références intéressantes.

La première référence est le papier ACM RAID: stockage secondaire fiable et hautes performances (Chen, Lee, Gibson, Katz et Patterson. ACM Computing Surveys. 26: 145-185). Dans la section 3.4.4, les auteurs soulignent que les défaillances matérielles ne sont pas toujours des événements statistiquement indépendants et en donnent les raisons. Au moment où j'écris cette réponse, le document est disponible en ligne; pp 19-22 discutent de la fiabilité (http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889).

La deuxième référence est Les pannes de disque dans le monde réel: que signifie pour vous un MTTF de 1 000 000 heures? (Schroeder, Gibson. 5ème Conférence USENIX sur les technologies de fichiers et de stockage.) Les auteurs présentent des données statistiques permettant de confirmer l’assertion selon laquelle les pannes de disque peuvent être groupées à un rythme plus rapide que prévu pour les événements indépendants. Au moment où j'écris cette réponse, ce document est également disponible en ligne (https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html).

Dell a explicitement recommandé la mise à niveau de RAID 5 en 2012 en raison de défaillances de disque corrélées dans des environnements de disque de grande taille; Il est prévu que RAID 6 deviendra peu fiable pour des raisons similaires vers 2019 (un article de ZDNet intitulé "why-raid-6-stops-working-in-2019": http://www.zdnet.com/article/why-raid-6-stops-working-in-2019/). L’un des éléments clés de ces deux facteurs est la taille du disque et les temps de reconstruction, des tailles de disque plus petites et multisourcing avait été recommandé en tant que solution pour le problème RAID 5.

Alors oui, multi-sources les lecteurs si vous le pouvez; si vous achetez chez un fournisseur tel que décrit dans la réponse de ewwhite cela peut se produire pour vous de manière transparente. Cependant ... mon client a acheté 16 disques durs de 2 To auprès d'un fournisseur d'entreprise. Ils venaient juste d’être du même fabricant et semblaient être fabriqués au même moment. Deux des disques ont échoué dans les deux semaines suivant la configuration des baies RAID01. Alors vérifiez les lecteurs lorsque vous les obtenez. (Vous les vérifiez déjà quand même, non?)


9
2017-08-25 20:29



Je ne comprends vraiment pas leur argument en faveur de la disparition de RAID6 en raison de l'augmentation de la capacité de stockage. Toute grappe RAID dépend d’une bonne maintenance pour fonctionner correctement. Nous avons de très grandes baies de disques exécutant RAID6 et nous n’avons jamais rencontré d’URC lors d’une reconstruction qui a entraîné une perte de données. Il suffit de faire des vérifications de volume planifiées, comme le recommande chaque entreprise MFG, et tout ira bien. - Brian D.


Un autre inconvénient potentiel de la commande individuelle de disques est l’emballage et la manipulation.

Les disques durs ne sont presque jamais fournis dans des emballages de vente au détail. Si vous les achetez un par un, ils seront presque certainement réemballés par le vendeur. J'ai trouvé ce reconditionnement à très variable. Parfois, vous obtenez une belle boîte avec beaucoup de rembourrage, mais d'autres fois, vous n'obtenez pratiquement aucun rembourrage.

Une boîte plus petite est également plus vulnérable aux attaques de transporteurs sans dommages extérieurs évidents.


4
2017-08-23 20:44





Si vous essayez d'atténuer le scénario "lot incorrect", ce qui signifie que chaque lecteur d'un lot d'achat particulier peut / va échouer presque au même moment, il est également important de prendre en compte la taille de la matrice et le niveau de RAID utilisé.

Si vous envisagez de faire plusieurs commandes, aucune norme définie n'est applicable à tous les niveaux. Les personnes qui recommandent de 2 à 4 niveaux d’achat devraient se demander si, si un niveau complet de lecteurs échoue, le module sera-t-il toujours en ligne? Ainsi, pour des niveaux de RAID redondants tels que 1/5/10/50, vous devrez acheter des lecteurs 1 à la fois. Pour RAID6, vous pouvez en acheter 2 à la fois.

Je recommanderais, peu importe la façon dont vous achetez les disques, de sauvegarder régulièrement et d'acheter des disques de rechange chaud / froid adéquats pour votre taille de baie et votre type de RAID.


2
2017-08-28 19:01





J'achète toujours utilisé / en vrac. Les commandes que je dépose sont presque toujours identiques, et leur utilisation atténue au moins les inquiétudes relatives à un "lot incorrect". Il y a tellement de matériel de vente sur le feu qui flotte sur le Web que j'ai du mal à justifier l'achat de nouveaux lecteurs (ou autre chose d'ailleurs) à moins que ce ne soit pour du matériel essentiel à la mission (et tout notre matériel de sauvegarde est toujours remis à neuf!)

+ PRO: Des prix en ligne concurrentiels et le flot continu de matériel provenant d'environnements commerciaux en mutation signifient qu'il ne faut pratiquement aucun effort pour obtenir une réduction de 50 à 80% sur la vente au détail en fonction de l'environnement de travail.

+ PRO: Prix prix bas permet au budget de faire des achats excessifs et de conserver un stock solide de matériel de remplacement.

+ PRO: Relations avec le vendeur J'ai une poignée de vendeurs en ligne à qui j'obtiens de légers rabais sur le rabais déjà considérable pour le matériel de rénovation / usagé. Normalement, cela ne va pas arriver avec Monoprice, sauf si vous achetez en grande quantité ou avez un SLA avec eux. En outre, en particulier avec les disques durs, assurez-vous de les tester immédiatement. Je n'ai jamais eu de problème avec un vendeur qui ne rembourse pas ou ne remplace pas le matériel DOA (à moins que ce ne soit une arnaque que je n'ai pas attrapée).

-CON: Garantie, problèmes de légitimité La garantie est basée sur la date de fabrication de l’appareil, vous devrez également surveiller de près les bêtises en ligne qui essaient de vous vendre des marques, des clones, etc.

-CON: Essai Nécessité de prendre en compte les frais généraux liés aux tests. Quoi qu'il en soit, vous devriez également tester du nouveau matériel, vous ne devez donc pas savoir si cela s'applique.

-CON: durée de vie difficile à juger; légèrement plus susceptible aux pannes de disque.

Remarque: s'il s'agit d'une version cliente et qu'ils ne font pas explicitement référence à une demande, toujours par shiny / new!


2
2017-09-01 06:17



Totalement. J'achète beaucoup de disques HP non loués et réusinés pour les raisons suivantes: bon marché. En outre, la garantie du serveur HP a tendance à couvrir tout ce qui est à l'intérieur le châssis, donc tant que c'est une pièce valide, c'est bien. - ewwhite


Il est possible d'obtenir plus de fiabilité en utilisant des disques durs provenant de lots différents et idéalement de fabricants. Sinon, ils risquent d'échouer trop tôt. L'excellente réponse de @Eliodorus explique cela assez.

Bien sûr, peu importe qui mélange les lecteurs. Si votre fournisseur confirme qu'il le fait déjà pour vous, inutile de vous en soucier. Cependant, il ne semble pas raisonnable de faire de la médecine légale sur un fournisseur même différent et de conclure que quelqu'un le fait pour vous si on ne vous le dit pas directement. Les fournisseurs ne sont généralement pas fainéants pour annoncer les différentes mesures qu'ils prennent pour accroître la fiabilité de leurs lecteurs.


1
2017-08-28 14:18





En fait, cela dépend de la Réseau redondant de disques peu coûteux (Raid) niveau. Dans Raid deux, trois, quatre, cinq et six, il est utile d’avoir des disques de plusieurs lots différents, mais ce n’est pas décisif: l’un perd déjà intrinsèquement la fiabilité et les performances lors de l’utilisation de ces niveaux.

Maintenant, pour le choix généralement sensé, qui consiste à utiliser le Raid 1 (mise en miroir) ou 1 + 0 (striping sur les miroirs), il est en effet utile de disposer de disques différents sur des côtés différents de chaque miroir (chaque matrice du Raid 1), de manière à: pas le miroir échouer lors d'une récupération. De plus, il devrait y avoir des disques de secours pour minimiser la fenêtre de récupération.

Pour plus d’informations, consultez le site Web de Battle Against Any Raid ‘F’2 (Baarf), un jeu informatif et frivole, réalisé par le prestigieux Réseau de table en chêne des administrateurs de bases de données. Wikipédia résume également bien le problème.


1
2017-08-23 19:14



Cela semble être juste opinion. Si vous avez des sources, citez-les et créez un lien. - MadHatter
En fait, j'ai mentionné une source. Et je dirais que c’est beaucoup plus une logique (nature de refléter contre le striping et le checksum) que l’opinion. - lfd
Une source à laquelle vous n'avez ni lié ni cité; S'attendre à ce que d'autres personnes consultent Google pour votre site Web source afin de rechercher l'ensemble des données à l'appui ne constitue pas une réponse convaincante. Pour ce qui est de c'est une question de logique, dans le précis Je pense que nous avons été assez clair que handwavy c'est logique les réponses à cette question particulière ne seraient pas bien considérées. - MadHatter
baarf.dk/BAARF/RAID5_versus_RAID10.txt - bishop
@ lfd, le lien vers le site Web, tout en utilisant la "logique" pour expliquer sa position, ne fournit pas de données (que j'ai pu voir d'un coup d'œil). Le problème avec la "logique", c'est que c'est simplement un autre nom pour la théorie dans ce contexte. Et le problème avec les théories non testées est, espérons-le, clair. Notez que les théories non testées et confirmées par des experts ont toujours le même problème que les théories non testées en général. - user2460798