Version Francaise
Informations d’identification de l’incident
Date et heure de début : 22:19 05/06/2025 UTC+2
Date et heure de fin : 01:19 06/06/2025 UTC+2
Durée totale de l’incident : 3h00
Numéro de référence de l’incident interne IELO : #282634
Date de rédaction du rapport : 05-06-2025
Version du rapport : 1.2
Nature de l’incident
Bug de corruption FIB sur routeurs Core suite à un fort volume de convergence réseau lors d'une opération d'upgrade logicielle sur un routeur core voisin. Ce dysfonctionnement a provoqué une incohérence du routage sur les services transitant par l'équipement core impacté, engendrant une coupure partielle d'une partie des services Web et des interruptions ou perturbations sur certains services client.
Impact pour le client final
L’incident a eu un double impact :
Services Web IELO : portail et API temporairement inaccessibles.
Services clients : plusieurs services ont été interrompus ou dégradés (FTTO, FTTO burst, FTTH, xDSL, LanToLan, Transit IP).
Contexte et conditions
L’intervention visait à faire évoluer deux équipements backbone vers la dernière version logicielle du constructeur. Pour ce faire, les équipements doivent passer par trois versions intermédiaires avant la mise à jour finale.
Peu après l’activation de la première version intermédiaire, des erreurs critiques de programmation FIB ont été observées, bloquant l’injection des routes dans le routeur.
La situation a été aggravée par un comportement défaillant d'un routeur voisin qui, suite à l’instabilité réseau induite par l’upgrade (convergence), a lui aussi rencontré un bug FIB. Cette défaillance secondaire est celle qui a généré les interruptions visibles côté client.
Root Cause
Le bug principal réside dans la version logicielle intermédiaire, dont la gestion de la table FIB est instable sur certains équipements.
L’effet de convergence réseau (OSPF/BGP) induit par ce défaut a déclenché un second incident critique sur un routeur voisin, qui a alors cessé de redistribuer correctement le trafic.
Action corrective et résolution
Analyse des logs FIB et détection des erreurs critiques.
Reload complet du routeur cible de la campagne d'upgrade, puis validation du plan de routage.
Isolation du routeur voisin temporairement pour neutraliser l’impact sur le domaine OSPF pendant la convergence.
Installation de l'ensemble des mises à jour sur le routeur cible de la campagne d'upgrade.
Rétablissement des sessions BGP, nettoyage des routes résiduelles, et contrôle complet de la FIB.
Supervision continue jusqu’au retour complet des services internes et client.
Génération et extraction de fichiers de diagnostic pour analyse constructeur.
Responsabilité de l’incident
Responsabilité IELO.
L’incident s’est produit dans le cadre d’une maintenance planifiée par les équipes d’exploitation, en lien avec les équipes d’ingénierie. Le chemin de migration imposait un passage transitoire par une version identifiée comme instable, ce qui a provoqué le défaut malgré l'isolation réseau du routeur en préambule de l'opération.
Synthèse chronologique des événements
Heure (UTC+2) | Événement |
---|
22:09 05/06 | Reload « à blanc » du routeur cible |
22:19 05/06 | Activation de la première version intermédiaire |
22:42 05/06 | Indisponibilité de services Web IELO et suspicion de dégradation de services clients |
22:52 05/06 | Création de la cellule de crise |
23:29 05/06 | Connexion au routeur cible de nouveau opérationnel, clear LDP/BGP, erreurs FIB détectées |
23:32 05/06 | Reload du routeur cible |
00:12 06/06 | Upgrade en cours du routeur cible vers seconde version intermédiaire |
00:25 06/06 | Isolation réseau temporaire d'un routeur adjacent |
00:45 06/06 | Upgrade final pour le routeur cible |
01:06 06/06 | Routeur cible de nouveau opérationnel |
01:18 06/06 | Reload du routeur adjacent + normalisation réseau |
01:19 06/06 | Rétablissement des services |
01:23 06/06 | Compilation des fichiers traceback à destination du constructeur |
Conclusion
Une opération de maintenance logicielle planifiée a déclenché une panne critique de la FIB sur deux routeurs backbone, suite à un passage par une version instable. L’impact s’est propagé des services internes aux services clients.
Les équipes IELO ont mobilisé une cellule de crise regroupant l’exploitation, l’ingénierie et le support pour traiter l’incident. La montée en version stable et les corrections manuelles ont permis un rétablissement complet à 01:19.
International version
Incident Identification Information
Start date and time: 22:19 05/06/2025 UTC+2
End date and time: 01:19 06/06/2025 UTC+2
Total incident duration: 3h00
IELO internal incident reference: #282634
Report creation date: 05/06/2025
Report version: 1.2
Incident Description
FIB corruption bug on Core routers triggered by a high volume of network convergence during a software upgrade operation on a neighboring core router. This malfunction caused routing inconsistencies on services transiting through the impacted core device, resulting in partial outages of some Web services and interruptions or degradation of certain customer services.
Impact on End Customers
The incident had a dual impact:
IELO Web services: portal and API temporarily unavailable.
Customer services: multiple services experienced interruptions or degradations (FTTO, FTTO burst, FTTH, xDSL, LanToLan, IP Transit).
Context and Conditions
The intervention aimed to upgrade two backbone devices to the vendor’s latest software version. This required a sequential upgrade through three intermediate versions before the final update.
Shortly after activating the first intermediate version, critical FIB programming errors were observed, blocking route injection into the router.
The situation was worsened by a faulty neighboring router which, due to network instability induced by the upgrade (convergence), also encountered a FIB bug. This secondary failure caused the visible customer-side service interruptions.
Root Cause
The primary bug lies within the intermediate software version, where FIB table management is unstable on certain devices.
The network convergence effect (OSPF/BGP) triggered by this defect caused a second critical incident on a neighboring router, which stopped properly redistributing traffic.
Corrective Actions and Resolution
Analysis of FIB logs and identification of critical errors.
Full reload of the target router under upgrade, followed by routing table validation.
Temporary isolation of the neighboring router to neutralize OSPF domain impact during convergence.
Installation of all updates on the target router under upgrade.
Restoration of BGP sessions, cleanup of residual routes, and full FIB verification.
Continuous monitoring until full recovery of internal and customer services.
Generation and extraction of diagnostic files for vendor analysis.
Incident Accountability
IELO responsibility.
The incident occurred during a planned maintenance conducted by the operations teams in coordination with engineering. The migration path required passing through an identified unstable version, which caused the defect despite preliminary router isolation before the operation.
Chronological Summary of Events
Time (UTC+2) | Event |
---|
22:09 05/06 | “Dry” reload of the target router |
22:19 05/06 | Activation of the first intermediate version |
22:42 05/06 | IELO Web services outage and suspected degradation of customer services |
22:52 05/06 | Crisis management team established |
23:29 05/06 | Target router is accessible again, LDP/BGP cleared, FIB errors detected |
23:32 05/06 | Reload of the target router |
00:12 06/06 | Upgrade in progress to second intermediate version |
00:25 06/06 | Temporary network isolation of adjacent router |
00:45 06/06 | Final upgrade for the target router |
01:06 06/06 | Target router back operational |
01:18 06/06 | Reload of adjacent router + network normalization |
01:19 06/06 | Services restored |
01:23 06/06 | Traceback files compiled for vendor analysis |
Conclusion
A planned software maintenance operation triggered a critical FIB failure on two backbone routers due to passage through an unstable software version. The impact spread from internal services to customer-facing services.
IELO teams mobilized a crisis unit involving operations, engineering, and support to handle the incident. The upgrade to a stable version combined with manual fixes enabled full service restoration by 01:19.