Question Dépannage des redémarrages du serveur Linux?


J'ai un serveur Linux que je viens de configurer, Debian Squeeze, 2.6.32-5-amd64, et la semaine dernière, il a été redémarré trois fois, deux fois en un jour. Je ne suis au courant d'aucune panne de courant (et cela fonctionne sur un onduleur), et il n'y a pas d'erreurs dans syslog, à part quelques-unes attendues au démarrage concernant l'effacement des entrées dans le journal ext4 en raison de l'arrêt malpropre.

Quelles mesures puis-je prendre pour déterminer la cause des redémarrages? Y a-t-il un moyen de le bloquer au lieu de le redémarrer, pour que je puisse copier des traces de pile ou quelque chose de l'écran? Un moyen d'augmenter le nombre de messages de débogage ou de le transférer dans le disque, ou quelque chose du genre?


6
2018-06-02 04:57


origine




Réponses:


Cela peut être un problème matériel; les plus courants sont la RAM défaillante et la surchauffe. Vous pourriez installer mbmon surveiller la température de la carte mère et du processeur; et courirmemtest86+ vérifier votre mémoire RAM et votre cache CPU.


2
2018-06-02 09:23



mbmon donne "No Hardware Monitor found", mais après la mise à niveau de mon noyau, lm-sensors donne maintenant la température centrale du processeur, ce qui semble raisonnable (moyenne autour de 35 ° C, monte à 55 ° C si je lance un test de performance sur tous les cœurs). J'essaierai memtest quand je comprendrai comment l'exécuter sur un serveur distant. - davr
Vous ne pouvez pas l'exécuter directement sur un serveur distant, mais il existe un équivalent Linux que vous pouvez exécuter sans redémarrer (bien que ce ne soit pas aussi complet): memtester. - wazoox


Il y a une chance qu'il s'agisse d'une "panique du noyau" et qu'un message "oops" du noyau soit envoyé à la console avant le redémarrage. Le noyau peut être configuré pour redémarrer en mode "panique" ou pour rester allumé. Vérifier:

cat /proc/sys/kernel/panic

Si ce n'est pas zéro, essayez de mettre 0 là (vous pouvez le faire directement en écrivant dans le fichier, via /etc/sysctl.conf qui est généralement analysé au démarrage, ou en utilisant sysctl utilitaire), cela devrait arrêter le redémarrage. S'il est déjà égal à 0, les redémarrages ne sont pas causés par des paniques du noyau.


1
2018-06-02 06:35



C'est 0 ... alors doit être quelque chose d'autre alors. Merci pour le conseil. - davr


Vérifiez la sortie de last. Recherchez le redémarrage. Essayez de corréler cela avec qui a été connecté si quelqu'un et qui a les privilèges de superutilisateur. Si ce n'est pas un utilisateur, vous pouvez avoir des problèmes d'alimentation / de chauffage ou un type de panique du noyau causant des problèmes. Essayez de les exclure un à un.


0
2018-06-02 05:11



Personne d’autre que moi ne se connecte (double vérification de l’adresse IP de la dernière). C'est sur un UPS, donc je ne pense pas que ce soit un problème d'alimentation, sauf si le serveur est en panne. Je ne pense pas que ce soit des problèmes de chaleur, du moins le serveur n'est pas surchargé et la température actuelle est assez basse (CPU à 36 ° C), mais je vais commencer à enregistrer la température. - davr
Existe-t-il un moyen de transférer la panique du noyau sur le disque ou de la filtrer? Je crains que ce soit juste pour redémarrer et ne pas enregistrer les messages d'erreur n'importe où. Existe-t-il un "mode débogage" ou quelque chose que je peux activer? - davr
Une panique du noyau est très improbable - des problèmes matériels tels qu'une surchauffe du processeur ou des erreurs de mémoire sont beaucoup plus probables. - reinierpost
comment vérifier cela? J'ai le même problème mais je dois convaincre mon fournisseur que quelque chose est du matériel? Trop de redémarrage peut être un problème logiciel. - Sharen Eayrs