Administrer un VPS Classic – Quand les stats Jarmon ont disparu

 

Rappel : je suis sur un VPS Classic 1 (10 Go d'espace disque / 1Go de RAM) de chez OVH tournant sous Release 3 (CentOS 6.6¬†‚Äď Webmin).

Au bout de 13 jours, mon serveur red√©marre de lui-m√™me, et de mani√®re tout √† fait inopin√©e. T√©moin de ce red√©marrage, un mail¬†de la part de¬†Fail2ban qui me dit que le jail¬†Dovecot a √©t√© arr√™t√©, puis 6 min plus tard, un 2e qui m'annonce qu'il est reparti. Je ne suis pas vraiment habitu√©e √† ce genre de comportement, donc je v√©rifie que tout fonctionne (chargement des sites web, connexion FTP, SFTP, acc√®s √† Webmin, jauges, acc√®s √† phpMyAdmin…). Et c'est l√† que je constate que ¬†je n'ai plus de stats Jarmon.

Parmi la panoplie de logiciels équipant le VPS Classic, il y a un service/daemon nommé Collectd. Il est chargé de monitorer  de nombreux processus (utilisation de la mémoire, du CPU, de la mémoire virtuelle, Apache, MySQL, etc, il y a plus de 90 plugins correspondant chacun à quelque chose à monitorer), qu'il stocke dans des fichiers RRD (Round-Robin database).

Ces fichiers sont stockés dans /var/lib/collectd/rrd/monnomdedomaine.com, à l'intérieur de répertoires portant le nom de l'activité à surveiller.

Ensuite, un logiciel en javascript nommé Jarmon se charge d'afficher de jolis graphes zoomables à partir de ces données.

On y accède via https://vpsXXXXX.ovh.net/collectd/ ou via https://monnomdedomaine.com/collectd/ avec le mot de passe root (ou via le lien Monitoring en haut à droite de la page d'accueil de Webmin).

Voici à quoi cela devrait normalement ressembler.

jarmon vue des 6 dernieres heures

Or, depuis le reboot, ces graphes sont totalement vides.

jarmon graphes vides

Après de nombreuses recherches sous Google, je tente diverses choses, en vain :

  • je red√©marre le service collectd en ligne de commande :¬†service collectd restart
  • je v√©rifie la pr√©sence du fichier de configuration de ¬†collectd. Il s'appelle¬†collectd.conf et il se trouve √† la racine de /etc (et non pas dans le r√©pertoire etc/collect.d comme expliqu√© partout). Il est bien pr√©sent, et pas vide du tout.
  • je v√©rifie dans /var/lib/collectd/rrd/monnomdedomaine.com/ que les fichiers RRD se mettent bien √† jour en regardant si leur date/heure de modification change : c'est le cas

Chez OVH, ils sont perplexes. Je vais passer un mois sans stats, avant de trouver.

Je recherche le fichier de configuration de Jarmon : il se trouve dans /home/ovh/www/collectd/ et se nomme jarmon_config.js

Voici une partie de son contenu

(...) jarmon.CHART_RECIPES_COLLECTD = {
 'cpu' : {
 title: 'CPU Usage',
 data: [
 ['data/cpu-0/cpu-wait.rrd', 0, 'CPU-0 Wait', '%'],
 ['data/cpu-0/cpu-system.rrd', 0, 'CPU-0 System', '%'],
 ['data/cpu-0/cpu-user.rrd', 0, 'CPU-0 User', '%'],
 ],
 options: jQuery.extend(true, {}, jarmon.Chart.BASE_OPTIONS,
 jarmon.Chart.STACKED_OPTIONS)
 }, (...)

On voit que jarmon_config.js contient des liens vers les fameux fichiers RRD que Jarmon doit éplucher. Or ces liens commencent tous par data/. Qu'est ce que data ? C'est est un lien symbolique vers /var/lib/collectd/rrd/vpsXXXXX.ovh.net

Spécificité des systèmes Unix, un lien symbolique est un alias d'un fichier ou d'un répertoire.

Si je renomme ce lien data en data_old, j'ai d√©sormais plein de 404 √† la place de mes graphes. On dirait bien que je tiens quelque chose…

jarmon-graphes-404

Quand le serveur m'a été livré, son nom était vpsXXXXX.ovh.net. Mais désormais, pour que mes mails ne soient pas considérés comme spam, je l'ai renommé monnomdedomaine.com. Et c'est tout bêtement ce renommage qui a provoqué la disparition de mes stats. Mais comme je ne m'en suis aperçue que depuis le redémarrage spontané du serveur, j'avais pensé que c'était ce redémarrage qui était la cause.

En ligne de commande, je crée un nouveau lien symbolique data, qui pointe cette fois-ci vers /var/lib/collectd/rrd/monnomdedomaine.com

ln -s /var/lib/collectd/rrd/monnomdedomaine.com data

Je rafra√ģchis le contenu du r√©pertoire /home/ovh/www/collectd/. Le lien symbolique data a √©t√© est cr√©√©.

serveur-contenu-repertoire-home-ovh-www-collectd

Et l√†, enfin, √ßa remarche ! Je r√©cup√®re mes stats. Elles commencent exactement au jour o√Ļ les autres stats se sont arr√™t√©es.

 

Karine SANCHE

Partager cet article