IELO - National Backbone – Détails de l'incident

Tous les systèmes sont opérationnels

Remarque : Les incidents signalés sur cette interface ne concernent que les incidents génériques impactant les services de ielo.

National Backbone

Résolu
Opérationnel
Signalé le il y a 4 moisA duré 3 jours

Concernés

Backbone

Panne partielle depuis 12:00 PM à 7:34 PM, Opérationnel depuis 9:05 AM à 8:13 AM

Mises à jour
  • Mettre à jour
    Mettre à jour

    Rapport de Raison d'Interruption (RFO) - Incident Réseau du 2 Août 2024

    Introduction

    Ce rapport détaille l'incident critique qui a impacté notre réseau cœur le 2 août 2024, les mesures prises pour résoudre l'incident, ainsi que les impacts observés et les leçons apprises.

    Informations Générales

    • Heures en CEST

      • Début: 2024-08-02 ~ 14:00

      • Détection de dysfonctionnements: pertes de connectivité aléatoires

      • Fin: 2024-08-02 ~ 18:50

      • Confirmation du retour à la normale de tous les services

    Origine de l’incident

    L'incident a été causé par un dysfonctionnement de deux équipements P/PE avec effet de bord.

    Résolution

    • Upgrade et redémarrage des deux équipements impactés.

    Impact

    L'incident a causé des perturbations généralisées des services, notamment :

    • Perturbations généralisées de certains services livrés à TH2

    • Perturbations généralisées de services traversant TH2

    Ces perturbations ont été aléatoires durant l'incident :

    • L2: pertes de connectivité / coupures

    • L2/L3: pertes de paquets / dégradations

    • L3: inconsistances de routage IP depuis et vers certaines destinations Internet

    Chronologie de l'Incident

    • Heures en CEST

      Début: 2024-08-02 ~ 14:00

      • Détection de dysfonctionnements: pertes de connectivité aléatoires

      2024-08-02 ~ 14:23

      • Identification d’un routeur (frpar-th2-n55h1) ayant un comportement de forwarding aléatoire

      • Contournement de ce routeur hors services locaux impactés

      2024-08-02 ~ 14:43

      • Les problèmes perdurent, un autre routeur (frpar-th2-n55h2) apparaît comme étant la source de l’instabilité

      • Contournement de ce second routeur hors services locaux

      • Normalisation de la configuration frpar-th2-n55h1

      • Désactivation des peerings FranceIX

      2024-08-02 ~ 14:44

      • Préparation et mise à jour de frpar-th2-n55h2

      2024-08-02 ~ 15:02

      • Redémarrage suite à la mise à jour

      2024-08-02 ~ 15:10

      • Routeur à nouveau joignable

      2024-08-02 ~ 15:17

      • Normalisation de la configuration frpar-th2-n55h2

      2024-08-02 ~ 15:24

      • Réactivation des peerings FranceIX

      2024-08-02 ~ 15:30

      • Des problèmes persistent, en particulier au niveau L3

      2024-08-02 ~ 15:50

      • Malgré des améliorations, il reste beaucoup de services impactés

      • Les investigations continuent

      2024-08-02 ~ 16:49

      • Toujours des incohérences de routage (L3) et de continuité (L2) sur certains services passant par frpar-th2-n55h1, comportement erratique et corruptions de FIB

      • Certains bugs constructeurs semblent correspondre

      2024-08-02 ~ 16:50

      • Application de workarounds liés aux bugs correspondants

      • Tentatives de reconstruction de la FIB

      • Pendant 1h30, les différentes actions entreprises apportent des améliorations (certains services remontent mais cela reste partiel et temporaire)

      2024-08-02 ~ 18:27

      • Il est finalement décidé de reload frpar-th2-n55h1 suite à l’échec des actions entreprises: la FIB est dans un état non récupérable. Préparation du reload.

      2024-08-02 ~ 18:37

      • Reload de frpar-th2-n55h1

      2024-08-02 ~ 18:43

      • frpar-th2-n55h1 à nouveau joignable

      Fin: 2024-08-02 ~ 18:50

      • Confirmation du retour à la normale de tous les services

    Leçons Apprises et Mesures Préventives

    • Analyse des Causes Racines: Identification des causes spécifiques du dysfonctionnement des équipements P/PE.

    • Amélioration de la Surveillance: Mise en place de systèmes de surveillance plus robustes pour détecter rapidement des anomalies similaires à l'avenir.

    • Plans de Contingence: Développement de plans de contingence et de procédures de récupération plus efficaces pour minimiser l'impact en cas d'incidents futurs.


    Reason for Outage Report (RFO) - Network Incident of August 2, 2024

    Introduction

    This report details the critical incident that impacted our core network on August 2, 2024, the measures taken to resolve the incident, the observed impacts, and the lessons learned.

    General Information

    • Times in CEST / UTC

      • Start: 2024-08-02 ~ 14:00 / 12:00 UTC

      • Detection of malfunctions: random connectivity losses

      • End: 2024-08-02 ~ 18:50 / 16:50 UTC

      • Confirmation of return to normal of all services

    Origin of the Incident

    The incident was caused by a malfunction of two P/PE devices with side effects.

    Resolution

    • Upgrade and restart of the two impacted devices.

    Impact

    The incident caused widespread service disruptions, including:

    • Widespread disruptions to certain services delivered at TH2

    • Widespread disruptions to services passing through TH2

    These disruptions were random during the incident:

    • L2: connectivity losses / outages

    • L2/L3: packet losses / degradations

    • L3: IP routing inconsistencies to and from certain Internet destinations

    Incident Timeline

    • Times in CEST / UTC

      Start: 2024-08-02 ~ 14:00 / 12:00 UTC

      • Detection of malfunctions: random connectivity losses

      2024-08-02 ~ 14:23 / 12:23 UTC

      • Identification of a router (frpar-th2-n55h1) with random forwarding behavior

      • Workaround to route traffic away from this router for affected local services

      2024-08-02 ~ 14:43 / 12:43 UTC

      • Problems persist, another router (frpar-th2-n55h2) appears to be the source of instability

      • Workaround to route traffic away from this second router for local services

      • Normalization of frpar-th2-n55h1 configuration

      • Deactivation of FranceIX peerings

      2024-08-02 ~ 14:44 / 12:44 UTC

      • Preparation and update of frpar-th2-n55h2

      2024-08-02 ~ 15:02 / 13:02 UTC

      • Restart after update

      2024-08-02 ~ 15:10 / 13:10 UTC

      • Router reachable again

      2024-08-02 ~ 15:17 / 13:17 UTC

      • Normalization of frpar-th2-n55h2 configuration

      2024-08-02 ~ 15:24 / 13:24 UTC

      • Reactivation of FranceIX peerings

      2024-08-02 ~ 15:30 / 13:30 UTC

      • Problems persist, particularly at L3

      2024-08-02 ~ 15:50 / 13:50 UTC

      • Despite improvements, many services remain impacted

      • Investigations continue

      2024-08-02 ~ 16:49 / 14:49 UTC

      • Still L3 routing and L2 continuity inconsistencies on some services passing through frpar-th2-n55h1, erratic behavior and FIB corruptions

      • Some vendor bugs seem relevant

      2024-08-02 ~ 16:50 / 14:50 UTC

      • Application of workarounds related to the relevant bugs

      • Attempts to rebuild the FIB

      • Over the next 1.5 hours, various actions bring some improvements (some services recover but remain partial and temporary)

      2024-08-02 ~ 18:27 / 16:27 UTC

      • Decision to reload frpar-th2-n55h1 after the failure of previous actions: FIB is in an unrecoverable state. Preparation for reload.

      2024-08-02 ~ 18:37 / 16:37 UTC

      • Reload of frpar-th2-n55h1

      2024-08-02 ~ 18:43 / 16:43 UTC

      • frpar-th2-n55h1 reachable again

      End: 2024-08-02 ~ 18:50 / 16:50 UTC

      • Confirmation of return to normal of all services

    Lessons Learned and Preventive Measures

    • Root Cause Analysis: Identification of the specific causes of the P/PE device malfunctions.

    • Improved Monitoring: Implementation of more robust monitoring systems to quickly detect similar anomalies in the future.

    • Contingency Plans: Development of more effective contingency plans and recovery procedures to minimize impact in future incidents.

  • Résolu
    Résolu

    Bonsoir,

    Nous avons procédé ce soir à l'opération prévue et nous passons maintenant en phase de monitoring sur l'ensemble des liens pour la prochaine heure. Une fois cette étape terminée, nous allons contrôler spécifiquement les liens identifiés qui ont été impactés vendredi dernier.

    Nous vous remercions de votre compréhension et de votre patience.

    Cordialement,


    This evening, we have performed the planned operation and are now moving into a monitoring phase for all links over the next hour. Once this stage is complete, we will specifically check the links identified as having been impacted last Friday.

    We appreciate your understanding and patience.

    Regards

  • Mettre à jour
    Mettre à jour

    Chers clients,

    Nous tenons à vous informer qu'un incident critique a impacté notre réseau cœur le vendredi 2 août, de l'après-midi jusqu'en début de soirée. Depuis, la situation est stable et nos équipes ont travaillé sans relâche pour analyser et résoudre le problème.

    Nous sommes aujourd'hui pleinement en confiance quant à la remise en service de ce routeur sur le réseau ielo. Pour ce faire, nous procéderons à une remise ISO de notre cœur de réseau ce soir à partir de 21h00. Nos équipes seront mobilisées pour garantir que cette opération se déroule dans les meilleures conditions et minimise toute interruption de service.

    Un rapport d'incident (RFO) détaillé sera publié sur notre page de statut demain, mardi 6 août, afin de vous fournir toutes les informations relatives à cet incident et aux mesures prises.

    Nous vous remercions de votre compréhension et de votre patience.

    Cordialement,

    L'équipe d'exploitation
    ielo


    Dear customers,

    We would like to inform you that a critical incident affected our core network on Friday, August 2nd, from the afternoon until the early evening. Since then, the situation has been stable, and our teams have been working tirelessly to analyze and resolve the issue.

    We are now fully confident in the reintegration of this router into the ielo network. To achieve this, we will proceed with an ISO restoration of our core network starting at 9:00 PM tonight. Our teams will be mobilized to ensure that this operation goes smoothly and minimizes any service interruptions.

    A detailed incident report (RFO) will be posted on our status page tomorrow, Tuesday, August 6th, to provide you with all the information regarding this incident and the measures taken.

    We appreciate your understanding and patience.

    Best regards,

    The Operations Team
    ielo

  • Surveillé
    Surveillé

    Nos équipes d'ingenierie ont décidé de maintenir le routeur core isolé pour le weekend. Aucune opération sera effectué dessus ni sur le reseau sur ce laps de temps. Nous passons en phase de recontrôle de l'état de services.

    Our engineering teams decided to keep the core router isolated for the weekend. No operations will be carried out on it or on the network during this period. We are now in the process of rechecking the state of services.

  • Identifié
    Identifié

    Notre équipes d'ingenierie rencontré de nouveau un problème avec le routeur core à l'origine de l'incident de ce début d'après-midi provoquant de nouveau un fort impact sur un ensemble des service. Le routeur est de nouveau isolé.

    Cordialement,

    Service d'Exploitation ielo

    Our engineering teams have once again encountered a problem with the core router that caused the incident at the beginning of this afternoon, again causing a major impact on a number of services. The router is now isolated again.

    Yours faithfully

    ielo Operations Department

  • Surveillé
    Surveillé

    Bonjour,

    Suite aux opération de contournement de notre équipes d'ingenierie, nous observons une amélioration significative des services de nouveau opérationnel et nominal. Si vous êtes dans cette situation et que vous avez ouvert un ticket incident sur notre portail, nous vous invitons à vous signaler via un commentaire dans le ticket.

    Dans le cas contraire, nous sommes aussi preneur de feedback pour indiquer que la situation perdure.

    Cordialement,

    Hello,

    Following the workaround carried out by our engineering team, we are seeing a significant improvement in services once they are operational and nominal again. If you are in this situation and have opened an incident ticket on our portal, we invite you to comment on the ticket.

    If this is not the case, we would also welcome feedback to indicate that the situation is still ongoing.

    Regards,

  • Identifié
    Identifié

    Madame, Monsieur,

    Nos équipes l'ingénierie ont isolé le routeur défectueux et rerouté le traffic. Les services remontent progressivement. Attention, il est possible d'observer une dégradation des performances des services (latence, débit). Nos équipes d'ingenierie travaille sur le routeur parisien remettre la situation à la normal

    Cordialement,

    Service d'Exploitation ielo

    Our engineering teams have isolated the faulty router and rerouted the traffic. Services are gradually being restored. Please note, however, that link performance may deteriorate (latency, bandwith). Our engineering teams are working on the Paris router to restore the situation to normal.

    Regards

    ielo Operations Department

  • Détecté
    Détecté

    Madame, Monsieur,

    Un problème matériel sur un routeur parisien provoque une instabilité de certains services. Les équipes ingenierie sont en phase d'investigation pour en trouver l'origine.

    État actuel du service:

    Partiellement Inopérant

    Nous vous communiquerons toute avancée significative dans les plus brefs délais.

    Cordialement,
    Service d'Exploitation ielo


    A hardware problem on a Paris router is causing some services to become unstable. The engineering teams are currently investigating the cause.

    Current state of service:

    Partially inoperative

    We will inform you of any significant progress as soon as possible.

    Regards,

    ielo Operations Department