Question Comment surveillez-vous un serveur de surveillance?


Nous utilisons donc Groundworks (avec Nagios) sur CentOS pour surveiller nos différents serveurs et processus. Je l’ai configuré pour envoyer automatiquement des courriels et des SMS lorsque les choses atteignent un état AVERTISSEMENT ou CRITIQUE. Normalement cela fonctionne parfaitement. Cependant, deux fois, nous avons eu des problèmes avec Postfix sur ce serveur où Postfix a décidé de ne plus envoyer de courrier électronique. La période la plus récente a duré 4 jours, car aucun d’entre nous n’avait remarqué.

Cela m'amène à une question importante: comment suis-je censé surveiller mon serveur de surveillance?


14
2017-12-05 21:22


origine


Quis custodiet ipsos custodes? - James L
Il h. Juvénal. Joliment joué. - organicveggie
Qui surveille les gardiens? :RÉ - Florent Courtay
@organicveggie, un serveur de surveillance est aussi un serveur ... Quels problèmes rencontriez-vous en utilisant un serveur de surveillance pour surveiller un serveur de surveillance? - Pacerier


Réponses:


Avec un deuxième serveur de surveillance, bien sûr. La seconde peut être beaucoup plus simple, car il suffit de surveiller la première. Et cela devrait bien sûr être surveillé par le système de surveillance principal.

Si votre groupe fait partie d'une grande entreprise dotée d'infrastructures informatiques distinctes, vous pourrez peut-être prendre des dispositions pour que le service de surveillance d'un autre groupe surveille la vôtre.

Vous pouvez également vous assurer que le serveur envoie un message "c'est ok" tous les jours et prenez l'habitude de le rechercher. (Ce n'est efficace que si vous n'êtes pas déjà submergé de messages de routine, bien sûr.)


12
2017-12-05 21:40





D'autres personnes suggèrent d'envoyer des messages réguliers pour dire que tout va bien, mais personnellement, je ne suis pas d'accord avec cela. La surveillance doit être silencieuse, sauf en cas de problème, et ne doit jamais compter sur un utilisateur remarquant que quelque chose ne va pas, comme "Oh, je n'ai pas reçu ce courrier électronique quotidien en quelques jours". Surtout si plusieurs personnes répondent aux alertes, chacune peut penser que l'autre a déjà supprimé le message quotidien «Je vais bien».

Nous avons un service externe (il y en a des centaines, mais nous utilisons vermoulu) pour faire des vérifications HTTP de notre serveur de surveillance pour s’assurer qu’elle est opérationnelle et peut atteindre Internet. C'est notre principale préoccupation pour le surveiller. Ensuite, notre serveur Nagios surveille tous nos serveurs Nagios clients.

Mais, vous soulevez un bon point. Nous devrions probablement ajouter une URL HTTP qui vérifie la file d'attente postfix et si elle affiche un nombre inhabituel de messages, ce qui signifie probablement qu'elle a tout dans la file d'attente, puis déclenchez une alerte. Une autre option consisterait à utiliser différentes méthodes pour les alertes, par exemple un agent de remise de SMS non SMTP ainsi que le protocole SMTP que nous utilisons actuellement.

Dans notre cas cependant, je ne me souviens pas que le serveur de messagerie soit mort. Bien sûr, tout ce que le serveur de messagerie est utilisé pour envoyer des alertes Nagios, la configuration est donc très simple et ne change presque jamais.


14
2017-12-05 22:41



Les messages OK normaux ne sont pas très utiles: vous ne pouvez pas conditionner de manière fiable une personne à effectuer une action en l'absence de stimulus. - Tim Williscroft
@ Tim: Désolé, mais "absence de stimulus" ne décrit pas la situation dans laquelle un courrier électronique anticipé n'est pas reçu. Dans un tel cas, je pense que je serais "stimulé" pour rechercher pourquoi le message n'est pas arrivé. Mais peut-être que c'est juste moi. :) - Steven Monday
Je pense que j'écris en utilisant des termes psychologiques qui ne veulent pas dire ce que vous pensez qu'ils veulent dire. La psychologie comportementale et la psychologie de l'aviation ont beaucoup à dire aux ingénieurs système. La zone a été fortement développée pendant la Seconde Guerre mondiale pour permettre à des équipages âgés de 18 à 20 ans de piloter des avions à la fine pointe de la technologie sans s’écraser, tout en gardant l’attention laissée pour leurs véritables tâches militaires. C'est pourquoi les avions ont une lumière de mise en garde principale et non une lumière "tout va bien". TLDR (je ne pense pas que ce mot signifie ce que vous pensez que cela signifie) - Tim Williscroft
Je suis très convaincu que les systèmes ne devraient pas faire de bruit sauf s’il ya quelque chose qui mérite l’attention d’un humain. Nous avons une attention limitée, et les ordinateurs peuvent facilement nous submerger avec de petites erreurs telles que "Je suis en vie!". De plus, les événements qui n'indiquent pas de problèmes font penser aux gens qu'ils ignorent. Je travaille très dur pour m'assurer que quand quelque chose arrive à un humain, c'est quelque chose qu'il a vraiment besoin de voir. Je travaille avec quelqu'un qui reçoit toutes sortes de journaux qu'il examine tous les jours. Bien sûr, il est tellement occupé qu'il ne peut pas sortir déjeuner ... - Sean Reifschneider
Je conviens que les services ne devraient pas envoyer trop de messages ou que les gens les ignorent rapidement. Toutefois, si le système de surveillance est configuré correctement, vous ne devriez pas recevoir beaucoup de messages. Bien entendu, nous avons pour politique de reconnaître les alertes de Groundworks / Nagios, ce qui arrête efficacement les messages pendant un certain temps. S'il s'agit d'une panne à long terme, nous désactivons la surveillance du système ou du service. En conséquence, un message quotidien "I'm Alive" est en fait assez raisonnable. - organicveggie


De toute évidence, votre postfix doit également être surveillé, mais c’est un autre sujet;)

j'utilise Nagios checker plugin pour Firefox, il est toujours en cours d'exécution dans une barre d'état sur n'importe quel ordinateur que j'utilise régulièrement.

De plus, j’ai un script personnalisé sur l’hôte externe qui envoie une requête ping à l’hôte nagios et envoie un SMS si sa réponse n’a pas été transmise.

Jusqu'ici (5 ans et plus), tout a bien fonctionné (cogner au bois).


5
2017-12-05 21:37





Pour la surveillance du serveur de surveillance (nagios dans notre cas), le plan gratuit ou de base de Pingdom ou alertfox fonctionne très bien.


2
2017-12-10 22:33



Bonnes suggestions Mais dans ce cas, notre serveur de surveillance n’est pas accessible en dehors du pare-feu. Donc, Pingdom et Alertfox ne fonctionnent pas vraiment pour nous. - organicveggie


Première chose: laissez-le envoyer des messages "Je suis en vie" une ou deux fois par jour. Deuxièmement, j’utilise une vieille machine spécialement conçue à cet effet, qui possède un autre modem GSM, un petit onduleur, etc., ainsi qu’une connexion (directe) dédiée au serveur de surveillance principal. Celui-ci aide également avec le point trois: Assurez-vous de vérifier régulièrement l'état de vos systèmes de surveillance. Le petit système de surveillance auxiliaire affiche tout le temps la page d'état du système principal de mon bureau.


1
2017-12-05 21:38





Si votre serveur de surveillance est accessible depuis Internet, vous devez le faire surveiller par un fournisseur externe (par exemple, websitepulse et autres).


1
2017-12-22 11:51