Suivi d’événement et de mise à jour
Cette page informe en temps réel, si des opérations sont en cours chez l’hébergeur de votre logiciel iDocteur.
Merci de rafraichir cette page régulièrement pour avoir les dernières informations à jour.
22/06/2024
Suite à son incident du 18/06/2024 ayant occasionné une coupure de service, l’hébergeur de iDocteur (Claranet) a publié un rapport d’incident et les plans d’actions correctives correspondants (détail ci-dessous). En résumé il indique :
- Une opération de maintenance électrique a été effectuée par le personnel du data Center TH3 sur lequel sont hébergées une partie des ressources redondées de Claranet.
- Il s’avère que l’intervention a causé la mise en sécurité de tout un Rack de ressources (une armoire stockant des machines) contenant une infrastructure “mutualisée” de réseau (qui est en charge de faire le routage des réseaux vers les différentes machines “santé”).
- Claranet prend 2 mesures correctives par rapport à celà : ils changent les procédures du personnel de ce datacenter pour leurs interentions électriques et ils revoient la résilience à ces pannes
Les données de iDocteur n’ont jamais été compromises ou à risque, et l’instance “redondée” de iDocteur était fonctionnelle. L’équipe réseau de Claranet n’a pas réussi à rebâtir des chemins pour y accéder avant que les infrastructures soient reparties.
Nous avons sollicité une analyse complémentaire de la présence d’un SPOF (Single Point of Failure) sur l’architecture de haute disponibilité (qu’ils ont mise en place pour iDocteur et leurs autres clients du domaine médical) afin que, si cela est possible techniquement, ce SPOF soit levé.
Rapport d’Incident officiel de Claranet
Date d’émission |
21/06/2024 |
Business Unit |
Healthcare |
Référence |
TH3 CRI |
|
Date et heure de l’incident |
Début :
18/06/2024 – 09h40 |
Fin :
18/06/2024 – 11h00 |
Durée :
01H20 |
Cher client,
Ce mardi 18 juin 2024 de 9 h 40 à 11 h 00, certains de vos serveurs ont pu être touchés par un incident. |
|
Description et impact de l’incident
L’accès aux serveurs hébergés sur l’un des équipements mutualisés de Claranet a été interrompu pendant 60 minutes.
Les services habituellement accessibles sur ces serveurs ou dépendants de l’accès à ces équipements ont pu se trouver indisponibles. |
|
Chronologie
- 09 h 40 : La supervision de Claranet relève des alertes simultanées sur plusieurs équipements.
- 09 h 43 : Le manager du CORE Claranet suspecte un incident global sur l’un des éléments d’infrastructure de Claranet et alerte l’ensemble des équipes transverses.
- 09 h 48 : Les équipes présentes en Datacenter identifient la perte d’accès à 2 hyperviseurs sur le site de Telehouse TH3.
- 09 h 49 : Une cellule de crise est ouverte par la direction des équipes Smartinfra de Claranet. La cellule de crise réunit en outre la direction des opérations de Claranet France ainsi que l’ensemble des Service Delivery Managers des périmètres concernés.
Les experts techniques présents en Datacenter ouvrent des investigations.
Les intervenants du CORE procèdent à l’identification des serveurs impactés.
- 09 h 59 : La cause racine de l’incident est identifiée : une surcharge électrique liée à une opération courante de maintenance a déclenché le mécanisme de mise en protection électrique à l’entrée d’un rack et a entraîné la coupure totale des accès aux équipements de ce rack.
L’opération de maintenance est annulée.
- 10 h 00 : Les alimentations électriques sont vérifiées avant remise sous tension.
- 10 h 23 : Le rack est remis sous tension.
- 10 h 24 : Les équipements sont redémarrés et les serveurs qu’ils hébergent sont relancés progressivement.
- 10 h 30 : Les premiers serveurs sont à nouveau disponibles.
- 11 h 00 : Les services sont de nouveau opérationnels
Fin de l’incident.
La cellule de crise n’est toutefois pas fermée.
Les analyses d’impacts continuent, nous identifions certains files system en lecture seule et des relances spécifiques sont menées lorsque nécessaire afin de permettre le retour au service nominal pour l’ensemble des services. |
|
Situation actuelle
Le 19/06 : Après une période d’observation de 24 heures, Claranet garantit la stabilité de la situation. |
|
Analyse de la cause racine, prévention d’incident futur et préconisations |
Cause racine:
La cause racine de cet incident est la mise en sécurité d’un équipement électrique en entrée du rack hébergeant les hyperviseurs mutualisés : une opération courante de maintenance planifiée sur le site de TH3 a en effet engendré une surcharge électrique sur cet équipement.
Cet incident a entraîné une coupure électrique au niveau du rack hébergeant les hyperviseurs du cloud mutualisé.
Le défaut d’alimentation a, en conséquence, engendré l’interruption des accès aux équipements.
|
|
Actions de prévention :
Afin d’éviter toute nouvelle occurrence de ce type d’incident, une modification du protocole de préparation des interventions électriques est lancée.
Une révision du plan de résilience à la panne électrique a d’ores et déjà été réalisée. |
|
Plan d’actions
Action |
Responsable |
Date |
Statut |
Action n°1
Modification du protocole de préparation des interventions électriques |
Claranet |
21/06/2024 |
En cours |
Action n°2
Révision du plan de résilience à la panne électrique |
Claranet |
18/06/2024 |
Terminée |
|
Nous vous prions d’accepter nos excuses pour l’impact de cet incident sur vos services.
Cordialement,
Claranet – Service Management |
|
27/04/2023 – 16:30
Pas d’événement en cours.