Administrer un VPS Classic – Quand les stats Jarmon ont disparu

 

Rappel : je suis sur un VPS Classic 1 (10 Go d'espace disque / 1Go de RAM) de chez OVH tournant sous Release 3 (CentOS 6.6 – Webmin).

Au bout de 13 jours, mon serveur redémarre de lui-même, et de manière tout à fait inopinée. Témoin de ce redémarrage, un mail de la part de Fail2ban qui me dit que le jail Dovecot a été arrêté, puis 6 min plus tard, un 2e qui m'annonce qu'il est reparti. Je ne suis pas vraiment habituée à ce genre de comportement, donc je vérifie que tout fonctionne (chargement des sites web, connexion FTP, SFTP, accès à Webmin, jauges, accès à phpMyAdmin…). Et c'est là que je constate que  je n'ai plus de stats Jarmon.

Parmi la panoplie de logiciels équipant le VPS Classic, il y a un service/daemon nommé Collectd. Il est chargé de monitorer  de nombreux processus (utilisation de la mémoire, du CPU, de la mémoire virtuelle, Apache, MySQL, etc, il y a plus de 90 plugins correspondant chacun à quelque chose à monitorer), qu'il stocke dans des fichiers RRD (Round-Robin database).

Ces fichiers sont stockés dans /var/lib/collectd/rrd/monnomdedomaine.com, à l'intérieur de répertoires portant le nom de l'activité à surveiller.

Ensuite, un logiciel en javascript nommé Jarmon se charge d'afficher de jolis graphes zoomables à partir de ces données.

On y accède via https://vpsXXXXX.ovh.net/collectd/ ou via https://monnomdedomaine.com/collectd/ avec le mot de passe root (ou via le lien Monitoring en haut à droite de la page d'accueil de Webmin).

Voici à quoi cela devrait normalement ressembler.

jarmon vue des 6 dernieres heures

Or, depuis le reboot, ces graphes sont totalement vides.

jarmon graphes vides

Après de nombreuses recherches sous Google, je tente diverses choses, en vain :

  • je redémarre le service collectd en ligne de commande : service collectd restart
  • je vérifie la présence du fichier de configuration de  collectd. Il s'appelle collectd.conf et il se trouve à la racine de /etc (et non pas dans le répertoire etc/collect.d comme expliqué partout). Il est bien présent, et pas vide du tout.
  • je vérifie dans /var/lib/collectd/rrd/monnomdedomaine.com/ que les fichiers RRD se mettent bien à jour en regardant si leur date/heure de modification change : c'est le cas

Chez OVH, ils sont perplexes. Je vais passer un mois sans stats, avant de trouver.

Je recherche le fichier de configuration de Jarmon : il se trouve dans /home/ovh/www/collectd/ et se nomme jarmon_config.js

Voici une partie de son contenu

(...) jarmon.CHART_RECIPES_COLLECTD = {
 'cpu' : {
 title: 'CPU Usage',
 data: [
 ['data/cpu-0/cpu-wait.rrd', 0, 'CPU-0 Wait', '%'],
 ['data/cpu-0/cpu-system.rrd', 0, 'CPU-0 System', '%'],
 ['data/cpu-0/cpu-user.rrd', 0, 'CPU-0 User', '%'],
 ],
 options: jQuery.extend(true, {}, jarmon.Chart.BASE_OPTIONS,
 jarmon.Chart.STACKED_OPTIONS)
 }, (...)

On voit que jarmon_config.js contient des liens vers les fameux fichiers RRD que Jarmon doit éplucher. Or ces liens commencent tous par data/. Qu'est ce que data ? C'est est un lien symbolique vers /var/lib/collectd/rrd/vpsXXXXX.ovh.net

Spécificité des systèmes Unix, un lien symbolique est un alias d'un fichier ou d'un répertoire.

Si je renomme ce lien data en data_old, j'ai désormais plein de 404 à la place de mes graphes. On dirait bien que je tiens quelque chose…

jarmon-graphes-404

Quand le serveur m'a été livré, son nom était vpsXXXXX.ovh.net. Mais désormais, pour que mes mails ne soient pas considérés comme spam, je l'ai renommé monnomdedomaine.com. Et c'est tout bêtement ce renommage qui a provoqué la disparition de mes stats. Mais comme je ne m'en suis aperçue que depuis le redémarrage spontané du serveur, j'avais pensé que c'était ce redémarrage qui était la cause.

En ligne de commande, je crée un nouveau lien symbolique data, qui pointe cette fois-ci vers /var/lib/collectd/rrd/monnomdedomaine.com

ln -s /var/lib/collectd/rrd/monnomdedomaine.com data

Je rafraîchis le contenu du répertoire /home/ovh/www/collectd/. Le lien symbolique data a été est créé.

serveur-contenu-repertoire-home-ovh-www-collectd

Et là, enfin, ça remarche ! Je récupère mes stats. Elles commencent exactement au jour où les autres stats se sont arrêtées.

 

Karine SANCHE

Partager cet article