30 jours d'essai, sans engagement
0

Retour sur l'interruption de service de ce matin

KiubiLe 08 Novembre 2010
Ce matin a eu lieu une coupure involontaire de Kiubi. Cette coupure est liée à un incident électrique dans les locaux de notre hébergeur. Voici l'historique de l'évènement tel qu'il s'est déroulé :

09h56 Coupure de courant dans une salle serveur d'OVH. Un serveur de production central est touché, le service est indisponible.

09h59 (H + 0h03) Nous annonçons l’interruption du service sur Twitter.

10h30 (H + 0h34) Nous estimons qu’OVH met trop de temps à rétablir le courant et à rallumer les serveurs. Nous décidons l'activation d'un serveur de secours et lançons les préparatifs de la manipulation.

11h06 (H + 1h12) Basculement sur le serveur de secours en mode dégradé. Les sites de la plateforme sont de nouveau en ligne et opérationnels, mais la console d’administration ne l’est pas encore. Nous devons nous assurer que tous les services fonctionnent correctement avant de proposer la console d’administration en production.

11h43 (H + 1h47) La plateforme est à nouveau totalement opérationnelle (front office et back office). L’urgence est passée.

11h46 (H + 1h50) Le serveur de production est à nouveau disponible, nous commençons les vérifications d'usage après une coupure brutale du serveur. Aucune perte de donnée n'est à déplorer. Nous profitons de ce reboot pour mettre à jour le système d'exploitation du serveur.

12h27 (H + 2h31) Le service est rebasculé sur le serveur de production. Le serveur de secours est désactivé. Nous revérifions qu'aucune donnée n'a été perdues durant l'incident.

Un lundi matin chargé donc où nous avons en parallèle assuré autant que possible le support en répondant aux interrogations légitimes des Kiubistes.

Pour communiquer parallèlement à Twitter lors d'évènements de ce type, nous avons ouvert un site Tumblr. Même si Twitter aura la primeur de l’information pour les incidents où les avancements de maintenances, il nous semble intéressant de pouvoir vous donner un état d’avancement plus détaillé que ce que les 140 caractères d’un Tweet permettent.

Cependant, rien ne remplacera l'instantanéité de Twitter pour pouvoir échanger comme ce fût le cas ce matin avec la mise en évidence par un Kiubiste d'un dysfonctionnement mineur lié au basculement sur le serveur de secours.

Le site à consulter en cas d’incident est : http://maintenance-kiubi.tumblr.com/. Nous vous invitons à conserver cette adresse et à vous abonner à notre compte Twitter si ce n'est pas déjà fait, afin de pouvoir consulter l'avancement des maintenances programmées ou des rares incidents.

Soyez certains que lorsque ce type d'évènements se produit, nous mettons tout ce qu'il est possible de mettre en oeuvre pour en minimiser l'impact pour nos utilisateurs.

Encore une fois toutes nos excuses pour cette interruption et merci pour votre patience.

Commentaires

Soyez le premier à poster un commentaire !

Ajouter votre commentaire

facultatif
facultatif
 
Anti-spam :
Quel est le prénom de Louis XIV ?