Concernés
Panne partielle depuis 12:00 PM à 7:34 PM, Opérationnel depuis 9:05 AM à 8:13 AM
- Mettre à jourMettre à jour
Rapport de Raison d'Interruption (RFO) - Incident Réseau du 2 Août 2024
Introduction
Ce rapport détaille l'incident critique qui a impacté notre réseau cœur le 2 août 2024, les mesures prises pour résoudre l'incident, ainsi que les impacts observés et les leçons apprises.
Informations Générales
Heures en CEST
Début: 2024-08-02 ~ 14:00
Détection de dysfonctionnements: pertes de connectivité aléatoires
Fin: 2024-08-02 ~ 18:50
Confirmation du retour à la normale de tous les services
Origine de l’incident
L'incident a été causé par un dysfonctionnement de deux équipements P/PE avec effet de bord.
Résolution
Upgrade et redémarrage des deux équipements impactés.
Impact
L'incident a causé des perturbations généralisées des services, notamment :
Perturbations généralisées de certains services livrés à TH2
Perturbations généralisées de services traversant TH2
Ces perturbations ont été aléatoires durant l'incident :
L2: pertes de connectivité / coupures
L2/L3: pertes de paquets / dégradations
L3: inconsistances de routage IP depuis et vers certaines destinations Internet
Chronologie de l'Incident
Heures en CEST
Début: 2024-08-02 ~ 14:00
Détection de dysfonctionnements: pertes de connectivité aléatoires
2024-08-02 ~ 14:23
Identification d’un routeur (frpar-th2-n55h1) ayant un comportement de forwarding aléatoire
Contournement de ce routeur hors services locaux impactés
2024-08-02 ~ 14:43
Les problèmes perdurent, un autre routeur (frpar-th2-n55h2) apparaît comme étant la source de l’instabilité
Contournement de ce second routeur hors services locaux
Normalisation de la configuration frpar-th2-n55h1
Désactivation des peerings FranceIX
2024-08-02 ~ 14:44
Préparation et mise à jour de frpar-th2-n55h2
2024-08-02 ~ 15:02
Redémarrage suite à la mise à jour
2024-08-02 ~ 15:10
Routeur à nouveau joignable
2024-08-02 ~ 15:17
Normalisation de la configuration frpar-th2-n55h2
2024-08-02 ~ 15:24
Réactivation des peerings FranceIX
2024-08-02 ~ 15:30
Des problèmes persistent, en particulier au niveau L3
2024-08-02 ~ 15:50
Malgré des améliorations, il reste beaucoup de services impactés
Les investigations continuent
2024-08-02 ~ 16:49
Toujours des incohérences de routage (L3) et de continuité (L2) sur certains services passant par frpar-th2-n55h1, comportement erratique et corruptions de FIB
Certains bugs constructeurs semblent correspondre
2024-08-02 ~ 16:50
Application de workarounds liés aux bugs correspondants
Tentatives de reconstruction de la FIB
Pendant 1h30, les différentes actions entreprises apportent des améliorations (certains services remontent mais cela reste partiel et temporaire)
2024-08-02 ~ 18:27
Il est finalement décidé de reload frpar-th2-n55h1 suite à l’échec des actions entreprises: la FIB est dans un état non récupérable. Préparation du reload.
2024-08-02 ~ 18:37
Reload de frpar-th2-n55h1
2024-08-02 ~ 18:43
frpar-th2-n55h1 à nouveau joignable
Fin: 2024-08-02 ~ 18:50
Confirmation du retour à la normale de tous les services
Leçons Apprises et Mesures Préventives
Analyse des Causes Racines: Identification des causes spécifiques du dysfonctionnement des équipements P/PE.
Amélioration de la Surveillance: Mise en place de systèmes de surveillance plus robustes pour détecter rapidement des anomalies similaires à l'avenir.
Plans de Contingence: Développement de plans de contingence et de procédures de récupération plus efficaces pour minimiser l'impact en cas d'incidents futurs.
Reason for Outage Report (RFO) - Network Incident of August 2, 2024
Introduction
This report details the critical incident that impacted our core network on August 2, 2024, the measures taken to resolve the incident, the observed impacts, and the lessons learned.
General Information
Times in CEST / UTC
Start: 2024-08-02 ~ 14:00 / 12:00 UTC
Detection of malfunctions: random connectivity losses
End: 2024-08-02 ~ 18:50 / 16:50 UTC
Confirmation of return to normal of all services
Origin of the Incident
The incident was caused by a malfunction of two P/PE devices with side effects.
Resolution
Upgrade and restart of the two impacted devices.
Impact
The incident caused widespread service disruptions, including:
Widespread disruptions to certain services delivered at TH2
Widespread disruptions to services passing through TH2
These disruptions were random during the incident:
L2: connectivity losses / outages
L2/L3: packet losses / degradations
L3: IP routing inconsistencies to and from certain Internet destinations
Incident Timeline
Times in CEST / UTC
Start: 2024-08-02 ~ 14:00 / 12:00 UTC
Detection of malfunctions: random connectivity losses
2024-08-02 ~ 14:23 / 12:23 UTC
Identification of a router (frpar-th2-n55h1) with random forwarding behavior
Workaround to route traffic away from this router for affected local services
2024-08-02 ~ 14:43 / 12:43 UTC
Problems persist, another router (frpar-th2-n55h2) appears to be the source of instability
Workaround to route traffic away from this second router for local services
Normalization of frpar-th2-n55h1 configuration
Deactivation of FranceIX peerings
2024-08-02 ~ 14:44 / 12:44 UTC
Preparation and update of frpar-th2-n55h2
2024-08-02 ~ 15:02 / 13:02 UTC
Restart after update
2024-08-02 ~ 15:10 / 13:10 UTC
Router reachable again
2024-08-02 ~ 15:17 / 13:17 UTC
Normalization of frpar-th2-n55h2 configuration
2024-08-02 ~ 15:24 / 13:24 UTC
Reactivation of FranceIX peerings
2024-08-02 ~ 15:30 / 13:30 UTC
Problems persist, particularly at L3
2024-08-02 ~ 15:50 / 13:50 UTC
Despite improvements, many services remain impacted
Investigations continue
2024-08-02 ~ 16:49 / 14:49 UTC
Still L3 routing and L2 continuity inconsistencies on some services passing through frpar-th2-n55h1, erratic behavior and FIB corruptions
Some vendor bugs seem relevant
2024-08-02 ~ 16:50 / 14:50 UTC
Application of workarounds related to the relevant bugs
Attempts to rebuild the FIB
Over the next 1.5 hours, various actions bring some improvements (some services recover but remain partial and temporary)
2024-08-02 ~ 18:27 / 16:27 UTC
Decision to reload frpar-th2-n55h1 after the failure of previous actions: FIB is in an unrecoverable state. Preparation for reload.
2024-08-02 ~ 18:37 / 16:37 UTC
Reload of frpar-th2-n55h1
2024-08-02 ~ 18:43 / 16:43 UTC
frpar-th2-n55h1 reachable again
End: 2024-08-02 ~ 18:50 / 16:50 UTC
Confirmation of return to normal of all services
Lessons Learned and Preventive Measures
Root Cause Analysis: Identification of the specific causes of the P/PE device malfunctions.
Improved Monitoring: Implementation of more robust monitoring systems to quickly detect similar anomalies in the future.
Contingency Plans: Development of more effective contingency plans and recovery procedures to minimize impact in future incidents.
- RésoluRésolu
Bonsoir,
Nous avons procédé ce soir à l'opération prévue et nous passons maintenant en phase de monitoring sur l'ensemble des liens pour la prochaine heure. Une fois cette étape terminée, nous allons contrôler spécifiquement les liens identifiés qui ont été impactés vendredi dernier.
Nous vous remercions de votre compréhension et de votre patience.Cordialement,
This evening, we have performed the planned operation and are now moving into a monitoring phase for all links over the next hour. Once this stage is complete, we will specifically check the links identified as having been impacted last Friday.
We appreciate your understanding and patience.
Regards
- Mettre à jourMettre à jour
Chers clients,
Nous tenons à vous informer qu'un incident critique a impacté notre réseau cœur le vendredi 2 août, de l'après-midi jusqu'en début de soirée. Depuis, la situation est stable et nos équipes ont travaillé sans relâche pour analyser et résoudre le problème.
Nous sommes aujourd'hui pleinement en confiance quant à la remise en service de ce routeur sur le réseau ielo. Pour ce faire, nous procéderons à une remise ISO de notre cœur de réseau ce soir à partir de 21h00. Nos équipes seront mobilisées pour garantir que cette opération se déroule dans les meilleures conditions et minimise toute interruption de service.
Un rapport d'incident (RFO) détaillé sera publié sur notre page de statut demain, mardi 6 août, afin de vous fournir toutes les informations relatives à cet incident et aux mesures prises.
Nous vous remercions de votre compréhension et de votre patience.
Cordialement,
L'équipe d'exploitation
ieloDear customers,
We would like to inform you that a critical incident affected our core network on Friday, August 2nd, from the afternoon until the early evening. Since then, the situation has been stable, and our teams have been working tirelessly to analyze and resolve the issue.
We are now fully confident in the reintegration of this router into the ielo network. To achieve this, we will proceed with an ISO restoration of our core network starting at 9:00 PM tonight. Our teams will be mobilized to ensure that this operation goes smoothly and minimizes any service interruptions.
A detailed incident report (RFO) will be posted on our status page tomorrow, Tuesday, August 6th, to provide you with all the information regarding this incident and the measures taken.
We appreciate your understanding and patience.
Best regards,
The Operations Team
ielo - SurveilléSurveillé
Nos équipes d'ingenierie ont décidé de maintenir le routeur core isolé pour le weekend. Aucune opération sera effectué dessus ni sur le reseau sur ce laps de temps. Nous passons en phase de recontrôle de l'état de services.
Our engineering teams decided to keep the core router isolated for the weekend. No operations will be carried out on it or on the network during this period. We are now in the process of rechecking the state of services.
- IdentifiéIdentifié
Notre équipes d'ingenierie rencontré de nouveau un problème avec le routeur core à l'origine de l'incident de ce début d'après-midi provoquant de nouveau un fort impact sur un ensemble des service. Le routeur est de nouveau isolé.
Cordialement,
Service d'Exploitation ielo
Our engineering teams have once again encountered a problem with the core router that caused the incident at the beginning of this afternoon, again causing a major impact on a number of services. The router is now isolated again.
Yours faithfully
ielo Operations Department
- SurveilléSurveillé
Bonjour,
Suite aux opération de contournement de notre équipes d'ingenierie, nous observons une amélioration significative des services de nouveau opérationnel et nominal. Si vous êtes dans cette situation et que vous avez ouvert un ticket incident sur notre portail, nous vous invitons à vous signaler via un commentaire dans le ticket.
Dans le cas contraire, nous sommes aussi preneur de feedback pour indiquer que la situation perdure.
Cordialement,
Hello,
Following the workaround carried out by our engineering team, we are seeing a significant improvement in services once they are operational and nominal again. If you are in this situation and have opened an incident ticket on our portal, we invite you to comment on the ticket.
If this is not the case, we would also welcome feedback to indicate that the situation is still ongoing.
Regards,
- IdentifiéIdentifié
Madame, Monsieur,
Nos équipes l'ingénierie ont isolé le routeur défectueux et rerouté le traffic. Les services remontent progressivement. Attention, il est possible d'observer une dégradation des performances des services (latence, débit). Nos équipes d'ingenierie travaille sur le routeur parisien remettre la situation à la normal
Cordialement,
Service d'Exploitation ielo
Our engineering teams have isolated the faulty router and rerouted the traffic. Services are gradually being restored. Please note, however, that link performance may deteriorate (latency, bandwith). Our engineering teams are working on the Paris router to restore the situation to normal.
Regards
ielo Operations Department
- DétectéDétecté
Madame, Monsieur,
Un problème matériel sur un routeur parisien provoque une instabilité de certains services. Les équipes ingenierie sont en phase d'investigation pour en trouver l'origine.
État actuel du service:
Partiellement Inopérant
Nous vous communiquerons toute avancée significative dans les plus brefs délais.
Cordialement,
Service d'Exploitation ieloA hardware problem on a Paris router is causing some services to become unstable. The engineering teams are currently investigating the cause.
Current state of service:
Partially inoperative
We will inform you of any significant progress as soon as possible.
Regards,
ielo Operations Department