- Modifié
Bonjour,
Total Downtime: 557h36m27s
Voilà déjà une semaine que mondedie.fr est revenu. Cependant je vous fais un retour seulement maintenant puisque nous n'avions pas fini la réinstallation jusqu'ici.
Tout commence le 26 août lorsque @Hardware a réalisé une maintenance de mondedie.fr.
Lors d'un contrôle de routine des disques, il a perdu l'accès ssh des 3 instances. Impossible pour moi et les autres admins d'accéder de nouveau en ssh.
ssh user@mondedie.fr
/bin/bash: Permission denied
ce moment-là, ils nous aient tous impossible de nous connecter aux serveurs. Nous décidons avec la rentrée qui approchait d'attendre un peu avant de commencer la réinstallation. En gros tant que mondedie.fr fonctionne, on touche à rien
Petit détail qui a son importance, depuis le 26 août notre script de backup ne fonctionnait plus du tout.
Jusqu'au 6 septembre tout allait bien entre guillemets, jusqu'au moment où l'instance qui gère le serveur web a planté. Impossible de la redémarrer, elle partait en kernel panic d'après ikoula. Le support nous conseille finalement le 11 septembre d'utiliser le mode rescue pour, soit récupérer nos données, soit tenter de réparer le système.
Le mode rescue chez ikoula est un peu particulier, il faut attacher un iso (livecd de récupération) et attendre que le support change l'ordre de boot pour pouvoir utiliser le livecd.
Nous n'avons même pas tenté de réparer les instances, on a décidé en interne de tout réinstaller et de simplifier l'infrastructure. De passer de 3 instances à 2 plus grosses instances.
Ensuite, avec le manque de documentation j'ai un peu tâtonné pour pouvoir monter nos partitions sur le livecd. Voici comment j'ai fais : https://mondedie.fr/d/10432-monter-une-partition-lvm-depuis-le-mode-rescue
J'ai répété cela pour les 2 autres instances et j'ai fini par faire les backups des 3 instances le 22 septembre.
Je vous épargne les détails des instances qui ne voulaient pas redémarrer sur le livecd etc.
A partir de ce moment là, j'ai pu commencer à installer la nouvelle infrastructure avec seulement 2 instances (le but est de réduire pour nous le temps de maintenance).
Une semaine plus tard, j'avais remis le plus gros de l'infrastructure en état de fonctionner. Après 557h d'indisponibilité soit 23j.
Nous n'avons perdu aucune donnée.
Au nom de toute l'équipe de mondedie.fr on s'excuse pour le désagrément.
On veut aussi remercier ikoula.com @Ikoula pour tout le soutien qu'ils nous fournissent.
L'équipe de mondedie.fr