IELO - Portail ielo indisponible – Détails de l'incident

Tous les systèmes sont opérationnels

Remarque : Les incidents signalés sur cette interface ne concernent que les incidents génériques impactant les services de ielo.

Portail ielo indisponible

Résolu
Panne majeure
Signalé le il y a 16 joursA duré environ 4 heures

Concernés

Standard ielo

Opérationnel depuis 8:30 PM à 10:04 PM, Performances dégradées depuis 10:04 PM à 11:21 PM, Opérationnel depuis 11:21 PM à 12:02 AM

Portail ielo

Opérationnel depuis 8:30 PM à 9:45 PM, Performances dégradées depuis 9:45 PM à 11:21 PM, Opérationnel depuis 11:21 PM à 12:02 AM

Backbone

Opérationnel depuis 8:30 PM à 9:45 PM, Performances dégradées depuis 9:45 PM à 11:21 PM, Opérationnel depuis 11:21 PM à 12:02 AM

Mises à jour
  • Postmortem
    Postmortem

    Version Francaise

    Informations d’identification de l’incident

    • Date et heure de début : 22:19 05/06/2025 UTC+2

    • Date et heure de fin : 01:19 06/06/2025 UTC+2

    • Durée totale de l’incident : 3h00

    • Numéro de référence de l’incident interne IELO : #282634

    • Date de rédaction du rapport : 05-06-2025

    • Version du rapport : 1.2

    Nature de l’incident

    Bug de corruption FIB sur routeurs Core suite à un fort volume de convergence réseau lors d'une opération d'upgrade logicielle sur un routeur core voisin. Ce dysfonctionnement a provoqué une incohérence du routage sur les services transitant par l'équipement core impacté, engendrant une coupure partielle d'une partie des services Web et des interruptions ou perturbations sur certains services client.

    Impact pour le client final

    L’incident a eu un double impact :

    • Services Web IELO : portail et API temporairement inaccessibles.

    • Services clients : plusieurs services ont été interrompus ou dégradés (FTTO, FTTO burst, FTTH, xDSL, LanToLan, Transit IP).

    Contexte et conditions

    L’intervention visait à faire évoluer deux équipements backbone vers la dernière version logicielle du constructeur. Pour ce faire, les équipements doivent passer par trois versions intermédiaires avant la mise à jour finale.

    Peu après l’activation de la première version intermédiaire, des erreurs critiques de programmation FIB ont été observées, bloquant l’injection des routes dans le routeur.

    La situation a été aggravée par un comportement défaillant d'un routeur voisin qui, suite à l’instabilité réseau induite par l’upgrade (convergence), a lui aussi rencontré un bug FIB. Cette défaillance secondaire est celle qui a généré les interruptions visibles côté client.

    Root Cause

    Le bug principal réside dans la version logicielle intermédiaire, dont la gestion de la table FIB est instable sur certains équipements.
    L’effet de convergence réseau (OSPF/BGP) induit par ce défaut a déclenché un second incident critique sur un routeur voisin, qui a alors cessé de redistribuer correctement le trafic.

    Action corrective et résolution

    1. Analyse des logs FIB et détection des erreurs critiques.

    2. Reload complet du routeur cible de la campagne d'upgrade, puis validation du plan de routage.

    3. Isolation du routeur voisin temporairement pour neutraliser l’impact sur le domaine OSPF pendant la convergence.

    4. Installation de l'ensemble des mises à jour sur le routeur cible de la campagne d'upgrade.

    5. Rétablissement des sessions BGP, nettoyage des routes résiduelles, et contrôle complet de la FIB.

    6. Supervision continue jusqu’au retour complet des services internes et client.

    7. Génération et extraction de fichiers de diagnostic pour analyse constructeur.

    Responsabilité de l’incident

    Responsabilité IELO.
    L’incident s’est produit dans le cadre d’une maintenance planifiée par les équipes d’exploitation, en lien avec les équipes d’ingénierie. Le chemin de migration imposait un passage transitoire par une version identifiée comme instable, ce qui a provoqué le défaut malgré l'isolation réseau du routeur en préambule de l'opération.

    Synthèse chronologique des événements

    Heure (UTC+2)

    Événement

    22:09 05/06

    Reload « à blanc » du routeur cible

    22:19 05/06

    Activation de la première version intermédiaire

    22:42 05/06

    Indisponibilité de services Web IELO et suspicion de dégradation de services clients

    22:52 05/06

    Création de la cellule de crise

    23:29 05/06

    Connexion au routeur cible de nouveau opérationnel, clear LDP/BGP, erreurs FIB détectées

    23:32 05/06

    Reload du routeur cible

    00:12 06/06

    Upgrade en cours du routeur cible vers seconde version intermédiaire

    00:25 06/06

    Isolation réseau temporaire d'un routeur adjacent

    00:45 06/06

    Upgrade final pour le routeur cible

    01:06 06/06

    Routeur cible de nouveau opérationnel

    01:18 06/06

    Reload du routeur adjacent + normalisation réseau

    01:19 06/06

    Rétablissement des services

    01:23 06/06

    Compilation des fichiers traceback à destination du constructeur

    Conclusion

    Une opération de maintenance logicielle planifiée a déclenché une panne critique de la FIB sur deux routeurs backbone, suite à un passage par une version instable. L’impact s’est propagé des services internes aux services clients.
    Les équipes IELO ont mobilisé une cellule de crise regroupant l’exploitation, l’ingénierie et le support pour traiter l’incident. La montée en version stable et les corrections manuelles ont permis un rétablissement complet à 01:19.


    International version

    Incident Identification Information

    • Start date and time: 22:19 05/06/2025 UTC+2

    • End date and time: 01:19 06/06/2025 UTC+2

    • Total incident duration: 3h00

    • IELO internal incident reference: #282634

    • Report creation date: 05/06/2025

    • Report version: 1.2

    Incident Description

    FIB corruption bug on Core routers triggered by a high volume of network convergence during a software upgrade operation on a neighboring core router. This malfunction caused routing inconsistencies on services transiting through the impacted core device, resulting in partial outages of some Web services and interruptions or degradation of certain customer services.

    Impact on End Customers

    The incident had a dual impact:

    • IELO Web services: portal and API temporarily unavailable.

    • Customer services: multiple services experienced interruptions or degradations (FTTO, FTTO burst, FTTH, xDSL, LanToLan, IP Transit).

    Context and Conditions

    The intervention aimed to upgrade two backbone devices to the vendor’s latest software version. This required a sequential upgrade through three intermediate versions before the final update.

    Shortly after activating the first intermediate version, critical FIB programming errors were observed, blocking route injection into the router.

    The situation was worsened by a faulty neighboring router which, due to network instability induced by the upgrade (convergence), also encountered a FIB bug. This secondary failure caused the visible customer-side service interruptions.

    Root Cause

    The primary bug lies within the intermediate software version, where FIB table management is unstable on certain devices.
    The network convergence effect (OSPF/BGP) triggered by this defect caused a second critical incident on a neighboring router, which stopped properly redistributing traffic.

    Corrective Actions and Resolution

    1. Analysis of FIB logs and identification of critical errors.

    2. Full reload of the target router under upgrade, followed by routing table validation.

    3. Temporary isolation of the neighboring router to neutralize OSPF domain impact during convergence.

    4. Installation of all updates on the target router under upgrade.

    5. Restoration of BGP sessions, cleanup of residual routes, and full FIB verification.

    6. Continuous monitoring until full recovery of internal and customer services.

    7. Generation and extraction of diagnostic files for vendor analysis.

    Incident Accountability

    IELO responsibility.
    The incident occurred during a planned maintenance conducted by the operations teams in coordination with engineering. The migration path required passing through an identified unstable version, which caused the defect despite preliminary router isolation before the operation.

    Chronological Summary of Events

    Time (UTC+2)

    Event

    22:09 05/06

    “Dry” reload of the target router

    22:19 05/06

    Activation of the first intermediate version

    22:42 05/06

    IELO Web services outage and suspected degradation of customer services

    22:52 05/06

    Crisis management team established

    23:29 05/06

    Target router is accessible again, LDP/BGP cleared, FIB errors detected

    23:32 05/06

    Reload of the target router

    00:12 06/06

    Upgrade in progress to second intermediate version

    00:25 06/06

    Temporary network isolation of adjacent router

    00:45 06/06

    Final upgrade for the target router

    01:06 06/06

    Target router back operational

    01:18 06/06

    Reload of adjacent router + network normalization

    01:19 06/06

    Services restored

    01:23 06/06

    Traceback files compiled for vendor analysis

    Conclusion

    A planned software maintenance operation triggered a critical FIB failure on two backbone routers due to passage through an unstable software version. The impact spread from internal services to customer-facing services.
    IELO teams mobilized a crisis unit involving operations, engineering, and support to handle the incident. The upgrade to a stable version combined with manual fixes enabled full service restoration by 01:19.

  • Résolu
    Résolu

    Nos équipes ont vérifié l’ensemble des services précédemment identifiés comme impactés, et la situation est désormais revenue à la normale.

    Un RFO horodaté sera rédigé dans les prochains jours et publié sur cette page.

    Nous vous prions de nous excuser pour la gêne occasionnée.



    Our teams have completed checks on all services previously identified as impacted, and the situation has now returned to normal.

    A timestamped RFO will be prepared in the coming days and shared on this page.

    We apologize for the inconvenience caused.

  • Surveillé
    Surveillé

    L’ensemble des upgrades et redémarrages prévus ont été réalisés.
    Nos équipes procèdent actuellement à une vérification complète des services affectés afin de confirmer la fin de l’incident.

    Nous publierons un message de clôture une fois le rétablissement confirmé.


    All planned upgrades and reboots have been completed.
    Our teams are now performing a full check of the impacted services to confirm resolution of the incident.

    A final update will be shared once recovery is confirmed.

  • Mettre à jour
    Mettre à jour

    Bonsoir,,

    Il nous reste à effectuer un dernier upgrade ainsi qu’un redémarrage d’un équipement adjacent.
    Une fois ces opérations terminées, nous prévoyons un rétablissement de la situation.

    Nos équipes restent mobilisées jusqu’au retour à la normale.


    Hello,

    One final upgrade and a reboot of an adjacent device are still required.
    Once these steps are completed, we expect the situation to be resolved.

    Our teams remain engaged until full recovery is confirmed.

  • Identifié
    Identifié

    Bonjour,

    Nos équipes procèdent actuellement à un upgrade sur l’un de nos équipements de cœur de réseau, dans le but de rétablir la situation.
    Le chargement de la première mise à jour est en cours sur l’équipement concerné.

    Nous restons mobilisés jusqu’au rétablissement complet des services.

    ---


    Hello,

    Our teams are currently performing an upgrade on one of our core network devices to help restore normal service.
    The first update is currently being loaded on the identified equipment.

    We remain fully engaged until services are fully restored.

  • Détecté
    Détecté

    Bonsoir,

    Nous observons actuellement que certaines liaisons au sein de notre backbone ne parviennent plus à atteindre leur destination cible.
    Nos premières investigations s’orientent vers un défaut localisé sur la région parisienne.

    Nos équipes poursuivent activement leurs analyses pour isoler la cause exacte du dysfonctionnement.

    Cordialement,


    ----

    Hello,

    We are currently observing that some backbone links are no longer reaching their target destinations.
    Initial investigations suggest a potential fault in the Paris area.

    Our engineering teams are continuing their analysis to identify the exact root cause.

    Regards,

  • Surveillé
    Surveillé

    Bonjour,

    L’accès au portail ielo est désormais rétabli.
    Nos équipes poursuivent leurs investigations afin d’identifier précisément l’origine du dysfonctionnement.

    Merci pour votre compréhension.


    Hello,

    Access to the ielo portal has been restored.
    Our teams are continuing their investigations to determine the root cause of the issue.

    Thank you for your understanding.

  • Détecté
    Détecté
    Bonjour, Notre portail ielo est actuellement indisponible. Nos équipes d'ingénierie réseau sont en cours d’investigation afin d’identifier la cause de l’incident et rétablir l’accès dans les meilleurs délais. Nous vous prions de nous excuser pour la gêne occasionnée. --- Hello, Our ielo portal is currently unavailable. Our network engineering teams are actively investigating the issue to determine the root cause and restore access as soon as possible. We apologize for the inconvenience.