Portail ielo indisponible

Résolu

Panne majeure

Signalé le il y a 5 moisA duré environ 4 heures

Concernés

Standard ielo

Portail ielo

Backbone

Mises à jour

Postmortem

mardi 10/06/2025 à 20:21

Postmortem

mardi 10/06/2025 à 20:21

Version Francaise

Informations d’identification de l’incident

Date et heure de début : 22:19 05/06/2025 UTC+2
Date et heure de fin : 01:19 06/06/2025 UTC+2
Durée totale de l’incident : 3h00
Numéro de référence de l’incident interne IELO : #282634
Date de rédaction du rapport : 05-06-2025
Version du rapport : 1.2

Nature de l’incident

Bug de corruption FIB sur routeurs Core suite à un fort volume de convergence réseau lors d'une opération d'upgrade logicielle sur un routeur core voisin. Ce dysfonctionnement a provoqué une incohérence du routage sur les services transitant par l'équipement core impacté, engendrant une coupure partielle d'une partie des services Web et des interruptions ou perturbations sur certains services client.

Impact pour le client final

L’incident a eu un double impact :

Services Web IELO : portail et API temporairement inaccessibles.
Services clients : plusieurs services ont été interrompus ou dégradés (FTTO, FTTO burst, FTTH, xDSL, LanToLan, Transit IP).

Contexte et conditions

L’intervention visait à faire évoluer deux équipements backbone vers la dernière version logicielle du constructeur. Pour ce faire, les équipements doivent passer par trois versions intermédiaires avant la mise à jour finale.

Peu après l’activation de la première version intermédiaire, des erreurs critiques de programmation FIB ont été observées, bloquant l’injection des routes dans le routeur.

La situation a été aggravée par un comportement défaillant d'un routeur voisin qui, suite à l’instabilité réseau induite par l’upgrade (convergence), a lui aussi rencontré un bug FIB. Cette défaillance secondaire est celle qui a généré les interruptions visibles côté client.

Root Cause

Le bug principal réside dans la version logicielle intermédiaire, dont la gestion de la table FIB est instable sur certains équipements.
L’effet de convergence réseau (OSPF/BGP) induit par ce défaut a déclenché un second incident critique sur un routeur voisin, qui a alors cessé de redistribuer correctement le trafic.

Action corrective et résolution

Analyse des logs FIB et détection des erreurs critiques.
Reload complet du routeur cible de la campagne d'upgrade, puis validation du plan de routage.
Isolation du routeur voisin temporairement pour neutraliser l’impact sur le domaine OSPF pendant la convergence.
Installation de l'ensemble des mises à jour sur le routeur cible de la campagne d'upgrade.
Rétablissement des sessions BGP, nettoyage des routes résiduelles, et contrôle complet de la FIB.
Supervision continue jusqu’au retour complet des services internes et client.
Génération et extraction de fichiers de diagnostic pour analyse constructeur.

Responsabilité de l’incident

Responsabilité IELO.
L’incident s’est produit dans le cadre d’une maintenance planifiée par les équipes d’exploitation, en lien avec les équipes d’ingénierie. Le chemin de migration imposait un passage transitoire par une version identifiée comme instable, ce qui a provoqué le défaut malgré l'isolation réseau du routeur en préambule de l'opération.

Synthèse chronologique des événements

Heure (UTC+2)	Événement
22:09 05/06	Reload « à blanc » du routeur cible
22:19 05/06	Activation de la première version intermédiaire
22:42 05/06	Indisponibilité de services Web IELO et suspicion de dégradation de services clients
22:52 05/06	Création de la cellule de crise
23:29 05/06	Connexion au routeur cible de nouveau opérationnel, clear LDP/BGP, erreurs FIB détectées
23:32 05/06	Reload du routeur cible
00:12 06/06	Upgrade en cours du routeur cible vers seconde version intermédiaire
00:25 06/06	Isolation réseau temporaire d'un routeur adjacent
00:45 06/06	Upgrade final pour le routeur cible
01:06 06/06	Routeur cible de nouveau opérationnel
01:18 06/06	Reload du routeur adjacent + normalisation réseau
01:19 06/06	Rétablissement des services
01:23 06/06	Compilation des fichiers traceback à destination du constructeur

Conclusion

Une opération de maintenance logicielle planifiée a déclenché une panne critique de la FIB sur deux routeurs backbone, suite à un passage par une version instable. L’impact s’est propagé des services internes aux services clients.
Les équipes IELO ont mobilisé une cellule de crise regroupant l’exploitation, l’ingénierie et le support pour traiter l’incident. La montée en version stable et les corrections manuelles ont permis un rétablissement complet à 01:19.

International version

Incident Identification Information

Start date and time: 22:19 05/06/2025 UTC+2
End date and time: 01:19 06/06/2025 UTC+2
Total incident duration: 3h00
IELO internal incident reference: #282634
Report creation date: 05/06/2025
Report version: 1.2

Incident Description

FIB corruption bug on Core routers triggered by a high volume of network convergence during a software upgrade operation on a neighboring core router. This malfunction caused routing inconsistencies on services transiting through the impacted core device, resulting in partial outages of some Web services and interruptions or degradation of certain customer services.

Impact on End Customers

The incident had a dual impact:

IELO Web services: portal and API temporarily unavailable.
Customer services: multiple services experienced interruptions or degradations (FTTO, FTTO burst, FTTH, xDSL, LanToLan, IP Transit).

Context and Conditions

The intervention aimed to upgrade two backbone devices to the vendor’s latest software version. This required a sequential upgrade through three intermediate versions before the final update.

Shortly after activating the first intermediate version, critical FIB programming errors were observed, blocking route injection into the router.

The situation was worsened by a faulty neighboring router which, due to network instability induced by the upgrade (convergence), also encountered a FIB bug. This secondary failure caused the visible customer-side service interruptions.

Root Cause

The primary bug lies within the intermediate software version, where FIB table management is unstable on certain devices.
The network convergence effect (OSPF/BGP) triggered by this defect caused a second critical incident on a neighboring router, which stopped properly redistributing traffic.

Corrective Actions and Resolution

Analysis of FIB logs and identification of critical errors.
Full reload of the target router under upgrade, followed by routing table validation.
Temporary isolation of the neighboring router to neutralize OSPF domain impact during convergence.
Installation of all updates on the target router under upgrade.
Restoration of BGP sessions, cleanup of residual routes, and full FIB verification.
Continuous monitoring until full recovery of internal and customer services.
Generation and extraction of diagnostic files for vendor analysis.

Incident Accountability

IELO responsibility.
The incident occurred during a planned maintenance conducted by the operations teams in coordination with engineering. The migration path required passing through an identified unstable version, which caused the defect despite preliminary router isolation before the operation.

Chronological Summary of Events

Time (UTC+2)	Event
22:09 05/06	“Dry” reload of the target router
22:19 05/06	Activation of the first intermediate version
22:42 05/06	IELO Web services outage and suspected degradation of customer services
22:52 05/06	Crisis management team established
23:29 05/06	Target router is accessible again, LDP/BGP cleared, FIB errors detected
23:32 05/06	Reload of the target router
00:12 06/06	Upgrade in progress to second intermediate version
00:25 06/06	Temporary network isolation of adjacent router
00:45 06/06	Final upgrade for the target router
01:06 06/06	Target router back operational
01:18 06/06	Reload of adjacent router + network normalization
01:19 06/06	Services restored
01:23 06/06	Traceback files compiled for vendor analysis

Conclusion

A planned software maintenance operation triggered a critical FIB failure on two backbone routers due to passage through an unstable software version. The impact spread from internal services to customer-facing services.
IELO teams mobilized a crisis unit involving operations, engineering, and support to handle the incident. The upgrade to a stable version combined with manual fixes enabled full service restoration by 01:19.

Résolu
jeudi 05/06/2025 à 00:02
Résolu
jeudi 05/06/2025 à 00:02
Nos équipes ont vérifié l’ensemble des services précédemment identifiés comme impactés, et la situation est désormais revenue à la normale.
Un RFO horodaté sera rédigé dans les prochains jours et publié sur cette page.
Nous vous prions de nous excuser pour la gêne occasionnée.
Our teams have completed checks on all services previously identified as impacted, and the situation has now returned to normal.
A timestamped RFO will be prepared in the coming days and shared on this page.
We apologize for the inconvenience caused.
Surveillé
mercredi 04/06/2025 à 23:21
Surveillé
mercredi 04/06/2025 à 23:21
L’ensemble des upgrades et redémarrages prévus ont été réalisés.
Nos équipes procèdent actuellement à une vérification complète des services affectés afin de confirmer la fin de l’incident.
Nous publierons un message de clôture une fois le rétablissement confirmé.
All planned upgrades and reboots have been completed.
Our teams are now performing a full check of the impacted services to confirm resolution of the incident.
A final update will be shared once recovery is confirmed.
Mettre à jour
mercredi 04/06/2025 à 23:03
Mettre à jour
mercredi 04/06/2025 à 23:03
Bonsoir,,
Il nous reste à effectuer un dernier upgrade ainsi qu’un redémarrage d’un équipement adjacent.
Une fois ces opérations terminées, nous prévoyons un rétablissement de la situation.
Nos équipes restent mobilisées jusqu’au retour à la normale.
Hello,
One final upgrade and a reboot of an adjacent device are still required.
Once these steps are completed, we expect the situation to be resolved.
Our teams remain engaged until full recovery is confirmed.
Identifié
mercredi 04/06/2025 à 22:04
Identifié
mercredi 04/06/2025 à 22:04
Bonjour,
Nos équipes procèdent actuellement à un upgrade sur l’un de nos équipements de cœur de réseau, dans le but de rétablir la situation.
Le chargement de la première mise à jour est en cours sur l’équipement concerné.
Nous restons mobilisés jusqu’au rétablissement complet des services.

---

Hello,
Our teams are currently performing an upgrade on one of our core network devices to help restore normal service.
The first update is currently being loaded on the identified equipment.
We remain fully engaged until services are fully restored.
Détecté
mercredi 04/06/2025 à 21:45
Détecté
mercredi 04/06/2025 à 21:45
Bonsoir,
Nous observons actuellement que certaines liaisons au sein de notre backbone ne parviennent plus à atteindre leur destination cible.
Nos premières investigations s’orientent vers un défaut localisé sur la région parisienne.
Nos équipes poursuivent activement leurs analyses pour isoler la cause exacte du dysfonctionnement.
Cordialement,

----

Hello,
We are currently observing that some backbone links are no longer reaching their target destinations.
Initial investigations suggest a potential fault in the Paris area.
Our engineering teams are continuing their analysis to identify the exact root cause.
Regards,
Surveillé
mercredi 04/06/2025 à 21:12
Surveillé
mercredi 04/06/2025 à 21:12
Bonjour,
L’accès au portail ielo est désormais rétabli.
Nos équipes poursuivent leurs investigations afin d’identifier précisément l’origine du dysfonctionnement.
Merci pour votre compréhension.
Hello,
Access to the ielo portal has been restored.
Our teams are continuing their investigations to determine the root cause of the issue.
Thank you for your understanding.
Détecté
mercredi 04/06/2025 à 20:30
Détecté
mercredi 04/06/2025 à 20:30
Bonjour, Notre portail ielo est actuellement indisponible. Nos équipes d'ingénierie réseau sont en cours d’investigation afin d’identifier la cause de l’incident et rétablir l’accès dans les meilleurs délais. Nous vous prions de nous excuser pour la gêne occasionnée. --- Hello, Our ielo portal is currently unavailable. Our network engineering teams are actively investigating the issue to determine the root cause and restore access as soon as possible. We apologize for the inconvenience.

IELO - Portail ielo indisponible – Détails de l'incident

Ile de France connaît une panne partielle

Portail ielo indisponible

Version Francaise

Informations d’identification de l’incident

Nature de l’incident

Impact pour le client final

Contexte et conditions

Root Cause

Action corrective et résolution

Responsabilité de l’incident

Synthèse chronologique des événements

Conclusion

International version

Incident Identification Information

Incident Description

Impact on End Customers

Context and Conditions

Root Cause

Corrective Actions and Resolution

Incident Accountability

Chronological Summary of Events

Conclusion