Hier, dimanche 30 août vers 10:00 h UTC, l’opérateur Internet #Level3 (désormais racheté par #CenturyLink mais l’ancien nom reste connu) a connu une panne sérieuse. (Une des premières alertes publiques était ▻https://twitter.com/g_bonfiglio/status/1300022993251446785). Compte-tenu de l’importance de Level3/CenturyLink, un des plus gros Tier1 (ces opérateurs Internet qui n’achètent pas de transit, car ils sont présents partout et s’appairent entre eux), cela a affecté beaucoup de gens sur l’Internet. Plein de signalements d’injoignabilité.
Le problème a surtout affecté la vieille version du protocole Internet, IPv4. Souvent la version actuelle, IPv6, elle, marchait.
La panne a d’abord été atténuée par la décision de nombreux opérateurs de couper leurs sessions #BGP avec Level3/CenturyLink), entre 11:00 et 13:00 h UTC. (Cela ne résolvait évidemment rien pour les gens qui n’étaient connectés que via CenturyLink et, de toute façon, les routeurs de Level3 ont continué à annoncer des routes pour des sessions coupées !) Puis Level3/CenturyLink a réparé vers 15:00 h UTC. Il était d’autant plus difficile de faire une réponse coordonnée que certains étaient déconnectés. Mais les autres Tier1 ont pu s’arranger via IRC, qui ne dépend pas de services centralisés contrairement aux outils appréciés du marketing. ▻https://twitter.com/JobSnijders/status/1300068892719697920
Il paraitrait que ce serait la faute de #FlowSpec (cf. ►https://www.bortzmeyer.org/5575.html) mais rien n’est sûr à l’heure actuelle. ▻https://puck.nether.net/pipermail/outages/2020-August/013229.html et ▻https://twitter.com/acontios_net/status/1300695692357271553/photo/1 (la description complète du problème par CenturyLink n’est pas publique, elle n’est envoyée qu’aux clients, certains l’ont fait suivre).
Attention, compte tenu du caractère très visible de la panne, il a pu être tentant pour certains de tout lui attribuer. C’est ce qu’a fait #Telefoot ▻https://twitter.com/telefoothelp/status/1300084662602211328 alors qu’il n’est pas sûr qu’il y ait un rapport.
Cloudflare ▻https://blog.cloudflare.com/analysis-of-todays-centurylink-level-3-outage et Qrator ▻https://radar.qrator.net/blog/another-centurylink-bgp-incident ont écrit des excellents articles techniques à ce sujet. Pour l’activité #BGP anormale que cite Cloudflare, on peut aussi regarder ce qu’a vu RIPE Stat : ▻https://stat.ripe.net/widget/bgp-update-activity#w.starttime=2020-08-16T21%3A00%3A00&w.endtime=2020-08