Question Quelque chose brûle dans la salle des serveurs. Comment puis-je identifier rapidement ce que c'est?


L'autre jour, nous remarquons une terrible odeur de brûlé sortant de la salle des serveurs. En résumé, il s’agissait en fin de compte d’un des modules de batterie qui brûlaient dans l’ASI, mais il a fallu attendre quelques heures avant que nous puissions le comprendre. La raison principale pour laquelle nous avons pu le comprendre est que l'écran de l'onduleur a finalement montré que le module devait être remplacé.

Le problème était là: toute la pièce était remplie d’odeur. Faire un test de reniflement était très difficile parce que l'odeur avait tout infiltré (pour ne pas dire que cela nous avait étourdi). Nous avons presque par erreur arrêté notre serveur de base de données de production, car c'est là que l'odeur était la plus forte. Les signes vitaux semblaient bien fonctionner (la température du processeur montrait 60 ° C et la vitesse du ventilateur était satisfaisante), mais nous n'étions pas sûrs. Il se trouve que le module de batterie qui a brûlé avait à peu près la même hauteur que le serveur sur le rack, à seulement 3 pieds de distance. Si cela avait été une véritable urgence, nous aurions lamentablement échoué.

De manière réaliste, les chances que le matériel du serveur se consume soient plutôt rares et la plupart du temps, nous nous intéresserons à l'onduleur. Mais avec plusieurs racks avec plusieurs équipements, cela peut rapidement devenir un jeu de devinettes. Comment déterminer rapidement et avec précision quel équipement est en train de brûler? Je me rends compte que cette question dépend fortement des variables d'environnement telles que la taille de la pièce, la ventilation, l'emplacement, etc., mais toute contribution serait appréciée.


448
2018-04-04 14:22


origine


@DeerHunter Eh bien, merci Dieu, c'était la fin de la journée et il y avait très peu de monde dans le bâtiment. Je vous remercie pour vos critiques constructives et je veillerai à informer ma superviseure des conséquences de sa vie en décidant de maintenir le système en place. - Chad Harrison
@hydroparadise - quelqu'un doit avoir le courage de le dire "ARRÊTEZ Nous ne faisons pas cela comme il se doit ". Si votre superviseur ne comprend pas les règles de sécurité, vous ne pouvez pas grand-chose à faire à part croître un peu la colonne vertébrale et ne pas céder à l'envie de prendre des raccourcis. - Deer Hunter
@DeerHunter: Quelle serait la réponse appropriée lorsque vous sentez quelque chose qui brûle? Il n'y a pas de fumée visible, juste une odeur de brûlé. Eteignez-vous tout le centre de données, purgez-vous pendant quelques heures, puis allumez les serveurs un à un jusqu'au retour de l'odeur? Un petit centre de données à 25 racks pourrait avoir 1 000 serveurs à contrôler, ce qui représente beaucoup de temps d'arrêt pour une "odeur" - le PO ne signalait pas de fumée ou d'incendie visible. - Johnny
@Johnny - Citation de l'OP: "toute la pièce était remplie d'une odeur. Faire un test de reniflement était très difficile car l'odeur avait infiltré tout (sans compter que cela nous avait étourdi)" Répondant à votre question - oui, vous devez ventiler la pièce et dépanner systématiquement. Tout le reste est irresponsable. - Deer Hunter
Alors, ceux qui critiquent le traitement de l'odeur par le PO suggèrent-ils qu'il n'y a pas de différence d'urgence entre une odeur et un feu / fumée? Si vous sentez quelque chose de brûlé dans votre maison mais ne voyez pas de fumée et n'entendez pas d'alarme, vous précipitez-vous ainsi que votre famille hors de la maison et appelez le 911? - trpt4him


Réponses:


Le consensus général semble être que la réponse à votre question se compose de deux parties:

Comment pouvons-nous trouver la source de l'odeur de brûlé drôle?

Vous avez le "Comment" assez bien défini:

  • Le "test de reniflement"
  • Rechercher de la fumée / de la brume visible
  • Parcourez la pièce avec une caméra thermique (IR) pour trouver les points chauds
  • Vérifiez la surveillance et les panneaux de l'appareil pour les alertes

Vous pouvez améliorer vos chances de trouver rapidement le problème de plusieurs manières. Une surveillance améliorée est souvent la solution la plus simple. Quelques questions à poser:

  • Recevez-vous des alertes de température et d'autres alertes de santé de votre équipement?
  • Est-ce que vos systèmes UPS signalent des erreurs à votre système de surveillance?
  • Recevez-vous des alarmes de consommation de courant de votre équipement de distribution électrique?
  • Les détecteurs de fumée de la pièce sont-ils en rapport avec le système de surveillance? (et peuvent-ils?)

Quand devrions-nous résoudre les problèmes plutôt que d'appuyer sur le Big Red Switch?

C'est une question plus intéressante.
Appuyer rapidement sur le commutateur rouge peut coûter très cher à votre entreprise: les rejets d'agents propres peuvent représenter des dizaines de milliers de dollars, ainsi que les coûts de panne / récupération après une mise hors tension d'urgence (EPO, "chuter la salle") ) peut être dévastateur.
Vous ne voulez pas laisser tomber un centre de données, car un condensateur d’une source d’alimentation est tombé et a fait sentir la pièce.

Inversement, un incendie dans une salle de serveurs peut coûter à votre entreprise ses données / équipements, et plus important encore, la vie de vos collaborateurs.
Dépanner "cette odeur de brûlé amusante" ne devrait jamais primer sur la sécurité, il est donc important d’avoir des règles claires sur la résolution des problèmes de "pré-incendie".

Les directives qui suivent sont mes limites personnelles que j'applique en l'absence (ou en plus) de toute autre procédure / règle clairement définie - ils m'ont bien servi et peuvent vous aider, mais ils pourraient tout aussi bien me faire tuer ou virer demain, alors appliquez-les à votre à vos propres riques.

  1. Si vous voyez de la fumée ou du feu, laissez tomber la pièce
    Cela devrait aller de soi, mais disons-le quand même: s'il y a un feu actif (ou de la fumée indiquant qu'il y en aura bientôt), vous évacuez la pièce, coupez le courant et libérez le système d'extinction d'incendie.
    Des exceptions peuvent exister (faire preuve de bon sens), mais c'est presque toujours l'action correcte.

  2. Si vous procédez au dépannage, faites toujours appel à au moins une autre personne.
    C'est pour deux raisons. Premièrement, vous ne voulez pas vous promener dans un centre de données et, tout à coup, faire monter un rack dans la rangée où vous vous dirigez et personne ne sait que vous y êtes. Deuxièmement, l’autre personne vérifie votre état physique en matière de dépannage plutôt que de quitter la salle. Si vous appelez pour appuyer sur le Big Red Switch, vous avez l’avantage d’avoir une seconde personne qui souscrit à la décision (aide à éviter les aspects limitant la carrière d’une telle décision si quelqu'un la questionne plus tard).

  3. Prenez des mesures de sécurité prudentes lors du dépannage
    Assurez-vous de toujours avoir un chemin d'échappement (une extrémité de ligne ouverte et un chemin libre vers une sortie).
    Gardez une personne en poste à la sortie de feu EPO / anti-incendie.
    Emportez avec vous un extincteur (halon ou autre agent propre, s'il vous plaît).
    Rappelez-vous la règle n ° 1 ci-dessus.
    En cas de doute, quitte la pièce. Faites attention à votre respiration: utilisez un respirateur ou un masque à oxygène. Cela pourrait sauver votre santé en cas d'incendie chimique.

  4. Fixer une limite et s'y tenir
    Plus précisément, définir deux limites:

    • État ("Combien vais-je laisser cela devenir pire?"), Et
    • Temps ("Combien de temps vais-je continuer à essayer de trouver le problème avant qu'il ne soit trop risqué?").

    Les limites que vous définissez peuvent également être utilisées pour permettre à votre équipe de commencer un arrêt ordonné de la zone affectée. FAIRE ne forcez pas beaucoup de machines actives et votre temps de récupération sera beaucoup plus court, mais rappelez-vous que si la fermeture ordonnée prend trop de temps, vous devrez peut-être laisser quelques systèmes tomber en panne au nom de la sécurité.

  5. Faites confiance à votre intestin
    Si la sécurité vous préoccupe à tout moment, appelez le service de dépannage et quittez la pièce.
    Vous pouvez ou non laisser tomber la pièce en fonction de vos instincts, mais il est prudent de vous regrouper à l'extérieur de la pièce en toute sécurité (relative).

S'il n'y a pas de danger imminent, vous pouvez choisir de faire appel au service d'incendie local avant de prendre des mesures radicales, telles que la libération d'EPO ou la libération d'agents propres. (Ils vous diront peut-être de le faire quand même: leur mandat est de protéger les personnes, puis les biens, mais ils sont évidemment les experts en matière de lutte contre les incendies, vous devriez donc faire ce qu'ils disent!)

Nous en avons déjà parlé dans nos commentaires, mais nous pouvons également résumer notre question dans une réponse: @DeerHunter, @Chris, @Sirex et bien d'autres ont contribué à la discussion.


380
2018-04-04 14:29



Université, je suis allé installer un nouveau centre de données. Ils ont mis en place un système hautement sophistiqué EPO / Fire Suppression. Le matériel qu’il protégeait se chiffrait à des millions de dollars et était également utilisé pour des millions de dollars de recherche pour la partie médicale de l’école. Évidemment, si cela était nécessaire, le bouton rouge serait touché, mais cela étant dit, si le bouton rouge était frappé, juste en le réinitialisant était près de 200 000 dollars américains. Dollars contribuables vous pouvez certainement parier que si le commutateur était touché alors qu'il n'était pas nécessaire, le type qui l'a touché n'aurait plus de travail. - Ryan
+1 pour le système de copain. Je pense que le fait qu’il existe des pays en développement qui utilisent l’OEB pour supprimer également la suppression des incendies est un peu taré. Il existe de nombreuses situations dans lesquelles vous souhaiteriez effectuer une EPO sans vouloir jeter de l'halotron sur le type à électrocuter. Une EPO est un accord sérieux, mais ce n'est pas un "tout détruire dans le système de type DC", ou du moins ne devrait pas l'être. Les membres du CC devraient espérer comprendre le gros bouton rouge et le système de suppression des incendies assez bien pour peser l’effet de l’appui sur le bouton. Un OEB peut en réalité Arrêtez un feu et sauver le DC, par exemple. - chris
Une remarque importante que je n'ai pas vue mentionnée est que la plupart du temps, lorsque quelque chose ne fonctionne pas, une odeur de brûlé se dégage. s'éteindre avant que l'odeur ne soit détectée et sans rien brûler en dehors de l'équipement défaillant. Parfois, une pièce d'équipement continue à couver tant qu'elle est alimentée, mais si on voit de la fumée, il devrait être possible d'identifier l'équipement, de couper l'alimentation juste pour elle et de voir si la fumée disparaît rapidement ou s'aggrave. - supercat
@ryan: Si appuyer sur le gros bouton rouge coûte autant d'argent au contribuable, la personne responsable a, espérons-le, élaboré un plan pour résoudre les incidents mineurs avec le service d'incendie local, qui ne comporte pas de mise en danger des employés. - Christoph
@ryan Cela me rappelle un reportage télévisé sur le CERN que j'ai vu récemment: l'équipe de la caméra et la journaliste ont été prises au dépourvu du système et, un instant, l'un des gars de la caméra presque enfoncé un bouton d'arrêt d'urgence rouge avec son sac à dos - ce qui donnait une crise cardiaque au membre du personnel qui pensait aux coûts de redémarrage ... - Hagen von Eitzen


Une caméra à imagerie thermique peut faire le travail et vous permettre d’identifier la surchauffe. Un appareil comme celui-ci vous permettrait d'identifier également l'origine d'un incendie ou d'une combustion dans une pièce remplie de fumée.


182
2018-04-05 04:59



Les caméras thermiques sont de moins en moins chères de nos jours, et si vous utilisez une grande salle de serveurs, elles sont un outil qui en vaut la peine. - rackandboneman
Un T.I.C. n'est pas si cher et est très utile dans un centre de données ou une grande salle de serveur. Non seulement en cas de problèmes tels que des câbles ou des équipements surchauffés, mais également en tant que détection préventive ou précoce d'un problème, optimisation de la réfrigération, circulation d'air, etc. - ddalcero
Un pistolet à température laser, comme celui-là, est une alternative bon marché - MichaelHouse
Les électriciens @mfinni ont aussi souvent des caméras thermiques. (Une vérification par imagerie thermique de nos panneaux de distribution d'énergie chaque année, ou après tout travail de câblage important, était standard lorsque je travaillais pour une société d'hébergement). - voretaq7
Une caméra thermique a de très grandes limitations: 1. Le champ de vision peut empêcher l’utilisation 2. Votre environnement peut être très dense. [Les grands incendies seront détectés, mais pas les plus petits] 3. Une moyenne des températures sera nécessaire pour déterminer un seuil - monksy


Tu ne fais rien de tout ça cela a été dit. Vous quittez l'environnement dangereux, car tout ce qui est pompé dans toute la pièce est dangereux pour la santé et peut gâcher vos poumons. Si vous ne trouvez aucune odeur de brûlé dans la pièce, appelez le (911 | 112 | 999 | le numéro d'urgence qui correspond à votre juridiction) et laissez le service des incendies (compagnie | département | brigade) régler le problème. êtes sur l'air en bouteille.

Les pièces de l'ordinateur contiennent toutes sortes de produits chimiques intéressants, y compris Mercure, cadmium, conduire, et beaucoup de plastiques dans les enveloppes. Notez que tous les liens que j'ai établis expliquent comment des expositions de faible niveau peuvent causer des dommages durables, voire la mort rapide. C’est un environnement qui peut être immédiatement dangereux pour la vie et la santé.

... alors vraiment, si quelque chose brûle, ne passez pas des heures à renifler les émanations. Si vous ne pouvez pas l'identifier et que vous agissez immédiatement pour le contenir, sortez.


137
2018-04-04 14:27



Il faut ajouter que si cela se produisait dans un "vrai" centre de données avec des détecteurs de fumée intégrés à la climatisation et à un système d'extinction installé, les alarmes incendie se seraient déclenchées et la pièce serait automatiquement scellée et inondée d'argon ou de CO2. on ne pouvait même pas penser à courir et renifler du matériel. - the-wabbit
@ syneticon-dj Cela dépend de la type de détecteurs installés. Les détecteurs d’ionisation ont peut-être déclenché la suppression des incendies, mais j’ai travaillé (et héberge actuellement du matériel dans) dans des endroits équipés de détecteurs de fumée optiques - ceux-ci ont besoin de fumée visible (ou au moins d’un bon voile) avant de se déclencher. - voretaq7
Je souhaite que je pourrais upvoter cela plus. au risque de susciter la controverse, trouver un pompier professionnel est le seul moyen d'avancer. - Iain
Oui, en tant qu'ancien pompier, je n'y resterais pas sans mon équipement. Même en cas d’incendie, nous sommes entraînés à rester emballés à cause des gaz toxiques. Si je voudrais appeler les pros, vous devriez aussi! - Jeff Ferland
@ Michael, les conceptions que j'ai vues ne reposaient pas sur des détecteurs de fumée au plafond, mais avaient des détecteurs photoélectriques dans le flux d'air de retour. La seule fois où j'ai pu le constater a été déclenchée au cours d'une routine de test où le système argonite a été détaché et une source de fumée a été placée dans l'un des placards. Cela a fonctionné comme je m'attendais à ce qu'il fonctionne. Heureusement, je n'ai jamais eu à faire face à de véritables incendies. - the-wabbit


Si vous avez eu une surveillance adéquate sur l'onduleur (généralement via SNMP), l'unité elle-même aurait dû sonner les cloches sur votre système de surveillance. Si ce n'est pas le cas, parlez-en à votre fournisseur. Cela a mal fonctionné ou votre système de surveillance n’est pas configuré correctement.

Si quelque chose d’actif est en train de brûler, il devrait se plaindre à ce sujet ou être simplement déconnecté du réseau, ce qui devrait également déclencher une alarme.

Si cela ressemble à un rail d'alimentation qui brûle de l'isolant et que ce n'est pas sur une PDU intelligente, nous revenons à votre question initiale, à savoir "comment puis-je trouver un objet en combustion?" Et je pense que la bonne réponse est "Hit the EPO et découvre-le. Tes serveurs de production ne sont probablement pas assez importants pour risquer des vies".


76
2018-04-05 10:49



Que signifie EPO? - Midhat
Mise hors tension d'urgence ... le gros bouton rouge qui coupe l'alimentation de la pièce. Principalement pour quand c'est en feu. - Grant
Un +1 emphatique, aurait voté +1 000. Appuyez sur le bouton, évacuez, attendez, arrangez les choses plus tard. Faire des affaires comme d'habitude avec le feu et la fumée présents (et essayer de tout réparer) est l'une des pires erreurs qu'un ingénieur puisse commettre. - Deer Hunter
@chris Je ne suis pas tout à fait d'accord avec le point de vue suivant: "EPO, Leave, Wait" - Activer la libération de l'OEB et / ou l'agent propre pour une salle remplie d'équipement de production peut très souvent être ce que nous aimons appeler un Mouvement de limitation de carrière. S'il n'y a pas de actif, visible le feu ou une traînée de fumée provenant de certains équipements effectuant une enquête initiale est généralement la bonne chose. Bien sûr, vous devez absolument être prêt à quitter la pièce en appuyant sur les boutons rouges appropriés à tout moment de votre enquête. - voretaq7
Il est probable que même un système de surveillance parfait ne l'aurait pas détecté jusqu'au moment où le panneau de l'onduleur a dit "Remplacer le module" - cela étant dit, vous voulez certainement que votre système de surveillance porte ces informations à votre attention. La prochaine fois qu'un module échouera à 19h30 le vendredi quand il n'y a personne, et l'alerte de surveillance vous incitera à revenir et à résoudre le problème avant qu'il ne devienne une urgence à part entière. Si vous pouvez relier la surveillance à votre système de protection de votre usine, vos capteurs de fumée et / ou de chaleur peuvent même vous avertir de la combustion d’isolant par des rails de commande, etc. - voretaq7


C’est l’une de ces situations où

XKCD Die Hard sysadmin

ne s'applique pas, vous devriez appeler un professionnel

Firefighter in protective gear

Tout le reste est tout simplement stupide.


43
2018-04-05 12:50



c'est clairement la meilleure réponse. :) - Citizen
@Navin No vous Les gars du service d'incendie ne font-ils pas cela? - Iain


En tant que technicien en électronique, j'ai déjà travaillé avec des "odeurs de brûlé" qui n'étaient pas des incendies. Ce n'est pas rare.

Je ne fermerais pas un centre de données pour une odeur. La fumée est une autre affaire, quelque chose brûle vraiment (généralement, mais un condensateur au tantale de la taille d'un pois peut également remplir de fumée une pièce). C'est incroyable de voir combien un composant frit dans une source d'alimentation peut sentir.

Un thermomètre TIC ou IR (un outil utile et beaucoup moins cher qu'un TIC) ne l'indiquerait pas nécessairement car le composant ne génère pas beaucoup de chaleur et se trouve à l'intérieur d'un boîtier. Mais vérifiez que les périphériques ne fonctionnent pas, utilisez vos outils de surveillance. Pour une odeur comme celle-ci, 95% du temps, ce sera une alimentation qui affectera les performances de tout l'appareil.


40



+1, les blocs d'alimentation soufflés sont courants. Dans la plupart des centres de données avec des débits d'air élevés, la fumée est rapidement évacuée et il est difficile de localiser la source de l'odeur. Cependant, dans une petite pièce, l'odeur peut être très mauvaise et peut se propager rapidement dans toute la pièce. - Stefan Lasiewski


J'aime les réponses IR ou de thermomètre, mais peut-être que ce qui aiderait aussi serait un véritable "détecteur d'odeurs". Après tout, ce qui a déclenché votre prudence, c’est l’odeur. La fumée, la chaleur, les infrarouges, etc. sont des substituts.

Quelque chose comme celui-ci: from Shinyei . Personnellement, je ne les ai jamais utilisées ou même vues dans un centre de données. Mais au moins théoriquement, ce devrait être un outil soigné. Si vous avez de l'argent à dépenser pour ce gadget, c'est.

http://www.sca-shinyei.com/odormeter ou http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Il vous donne une force olfactive ainsi que la classification. Il devrait donc être possible de cibler l'odeur. Le diable est dans les détails bien sûr. Quelle en est la sensibilité, masquant les odeurs de fond parasites, etc.

Un avantage par rapport aux mesures purement thermiques est que les odeurs se produisent souvent à un point ou à un seuil beaucoup plus tôt. Ou si le composant surchauffé est caché par un corps / un câblage dissimulé, etc., il est plus facile de détecter les molécules qui s'échappent qu'un point chaud en visibilité directe.

Une autre situation est une odeur non liée à la chaleur. Nous avons déjà eu une fuite de circuit de refroidissement et les odeurs de liquide de refroidissement étaient également particulières. Je n'entrerai même pas dans le cas maintenant ancien d'un rongeur mort dans les conduits. :)

J'ai été surpris de la sensibilité de ces capteurs. Apparemment, H2S / mercaptans, etc. (les coupables habituels) sont détectables à des niveaux inférieurs au ppm.

enter image description here


19