Suivi d’événement et de mise à jour

Cette page informera en temps réel, si des opérations sont en cours chez l’hébergeur de votre logiciel iDocteur.
Merci de rafraichir cette page régulièrement pour avoir les dernières informations à jour.


22/06/2024

L’hébergeur de iDocteur a publié un rapport d’incident et les plans d’actions correctives correspondants (détail ci-dessous). En résumé il indique :

  • Une opération de maintenance électrique a été effectuée par le personnel du data Center TH3 sur lequel sont hébergées une partie des ressources redondées de Claranet.
  • Il s’avère que l’intervention a causé la mise en sécurité de tout un Rack de ressources (une armoire stockant des machines) contenant une infrastructure “mutualisée” de réseau (qui est en charge de faire le routage des réseaux vers les différentes machines “santé”).
  • Claranet prend 2 mesures correctives par rapport à celà : ils changent les procédures du personnel de ce datacenter pour leurs interentions électriques et ils revoient la résilience à ces pannes

Les données de iDocteur n’ont jamais été compromises ou à risque, et l’instance “redondée” de iDocteur était fonctionnelle. L’équipe réseau n’a pas réussi à rebâtir des chemins pour y accéder avant que les infrastructures soient reparties.

Nous avons sollicité une analyse complémentaire de la présence d’un SPOF (Single Point of Failure) sur l’architecture de haute disponibilité qu’ils ont mise en place pour iDocteur afin que, si cela est possible techniquement, ce SPOF soit levé.

Rapport d’Incident

Date d’émission 21/06/2024
Business Unit Healthcare
Référence TH3 CRI
Date et heure de l’incident Début :
18/06/2024 – 09h40
Fin :
18/06/2024 – 11h00
Durée : 
01H20
Cher client,

Ce mardi 18 juin 2024 de 9 h 40 à 11 h 00, certains de vos serveurs ont pu être touchés par un incident.

 
Description et impact de l’incident

L’accès aux serveurs hébergés sur l’un des équipements mutualisés de Claranet a été interrompu pendant 60 minutes.

Les services habituellement accessibles sur ces serveurs ou dépendants de l’accès à ces équipements ont pu se trouver indisponibles.

 
Chronologie

  • 09 h 40 : La supervision de Claranet relève des alertes simultanées sur plusieurs équipements.
  • 09 h 43 : Le manager du CORE Claranet suspecte un incident global sur l’un des éléments d’infrastructure de Claranet et alerte l’ensemble des équipes transverses.
  • 09 h 48 : Les équipes présentes en Datacenter identifient la perte d’accès à 2 hyperviseurs sur le site de Telehouse TH3.
  • 09 h 49 : Une cellule de crise est ouverte par la direction des équipes Smartinfra de Claranet. La cellule de crise réunit en outre la direction des opérations de Claranet France ainsi que l’ensemble des Service Delivery Managers des périmètres concernés.
    Les experts techniques présents en Datacenter ouvrent des investigations.
    Les intervenants du CORE procèdent à l’identification des serveurs impactés.
  • 09 h 59 : La cause racine de l’incident est identifiée : une surcharge électrique liée à une opération courante de maintenance a déclenché le mécanisme de mise en protection électrique à l’entrée d’un rack et a entraîné la coupure totale des accès aux équipements de ce rack.

L’opération de maintenance est annulée.

  • 10 h 00 : Les alimentations électriques sont vérifiées avant remise sous tension.
  • 10 h 23 : Le rack est remis sous tension.
  • 10 h 24 : Les équipements sont redémarrés et  les serveurs qu’ils hébergent sont relancés progressivement.
  • 10 h 30 : Les premiers serveurs sont à nouveau disponibles.
  • 11 h 00 : Les services sont de nouveau opérationnels

Fin de l’incident. 

La cellule de crise n’est toutefois pas fermée.
Les analyses d’impacts continuent, nous identifions certains files system en lecture seule et des relances spécifiques sont menées lorsque nécessaire afin de permettre le retour au service nominal pour l’ensemble des services.

 
Situation actuelle

Le 19/06 : Après une période d’observation de 24 heures, Claranet garantit la stabilité de la situation.

 
Analyse de la cause racine, prévention d’incident futur et préconisations
Cause racine:

La cause racine de cet incident est la mise en sécurité d’un équipement électrique en entrée du rack hébergeant les hyperviseurs mutualisés : une opération courante de maintenance planifiée sur le site de TH3 a en effet engendré une surcharge électrique sur cet équipement.
Cet incident a entraîné une coupure électrique au niveau du rack hébergeant les hyperviseurs du cloud mutualisé.

Le défaut d’alimentation a, en conséquence, engendré l’interruption des accès aux équipements.

 

 
Actions de prévention :

Afin d’éviter toute nouvelle occurrence de ce type d’incident, une modification du protocole de préparation des interventions électriques est lancée.

Une révision du plan de résilience à la panne électrique a d’ores et déjà été réalisée.

 
Plan d’actions

Action Responsable Date Statut
Action n°1
Modification du protocole de préparation des interventions électriques
Claranet 21/06/2024 En cours
Action n°2

Révision du plan de résilience à la panne électrique

Claranet 18/06/2024 Terminée
Nous vous prions d’accepter nos excuses pour l’impact de cet incident sur vos services.

 

Cordialement,

Claranet – Service Management

18/06/2024 11:39:55

Claranet annonce un retour total de tous les services de son côté.
Ils commencent les investigations. Nous mettrons à jour ici les informations que nous obtiendrons de leur part.


18/06/2024 11:20:36

iDocteur est à nouveau accessible, l’hébergeur continue ses interventions sur les redondances réseau, mais la route principale est rétablie pour accéder au serveur principal.

✅ EVENEMENT CLOTURE POUR iDOCTEUR (après 1h35 de perturbation réseau)

18/06/2024 11:16:40

Claranet annonce que les serveurs sont bien actifs, en revanche, certains des noeuds réseaux ne remontent pas, ils annoncent qu’ils vont “reconstruire” certains des noeuds à partir de leurs backups pour que les communications soient rétablies.

Claranet communique sur le fait qu’un rapport d’incident détaillé sera émis rapidement dès la situation stabilisée pour informer les clients et utilisateurs des services.

18/06/2024 10:51:50

L’hébergeur a remonté chaque organe réseau petit à petit et nous dit que les services retrouvent petit à petit leur communication.

Ils n’indiquent pas encore si la panne était dûe à une attaque ou autre, ils parlent de structures d’alimentations qui seraient tombées et auraient entraîné la chute des organes réseaux.
Les serveurs iDocteur de redondance sont restés actifs tout le long mais la “route” pour y accéder et ses redondances n’ont pas fonctionné jusqu’à leur redémarrage par les techniciens Claranet (action en cours).
Nous ne savons pas encore comment se sont comportés les serveurs “frontaux” mais nous en saurons plus dès qu’ils auront retrouvé leurs communications.

Dans le cadre de notre processus d’Amélioration continue (et dans le cadre de leur processus d’Amélioration continue), une réunion de REX / Analyse d’incident sera organisée avec eux dès  le retour à la normale pour :

  • analyser les causes du problème
  • investiguer pourquoi leurs infrastructures de redondances n’ont pas fonctionné
  • contrôler leur plan de rémédiation pour assurer que la situation ne se reproduise pas

18/06/2024 10:24:41

Nos investigations montrent que les serveurs idocteur sont actifs et ne semblent pas touchés.
Un problème du réseau de l’hébergeur semble empêcher certaines communications entre les serveurs et connexions entrantes.
Ils ne semblent pas savoir, pour l’instant, si c’est dû à une attaque ou une chute matérielle (sachant qu’ils indiquent que de nombreuses redondances sont normalement en place sur des couches réseau).
L’investigation est encore en cours. Nous vous tiendrons informés sur cette page dès que les services remontent.

18/06/2024 10:01:22

❌ Un événement est en cours chez le réseau de l’hébergeur d’iDocteur depuis 9h45. Claranet annonce un souci réseau.
Nous mettrons à jour la page événement dès que nous en saurons plus.

27/04/2023 – 16:30

Pas d’événement en cours.