Provate a tornare con la mente a quel martedì mattina. State per lanciare una campagna sul vostro e-commerce, state per fare login sulla vostra piattaforma di gaming preferita, o magari state semplicemente cercando di usare ChatGPT per scrivere una mail. E invece, il nulla. Pagine di errore, servizi irraggiungibili, la sensazione sorda e fastidiosa che “Internet sia rotta”. Per circa tre ore, per milioni di persone, lo è stata davvero. E il colpevole non è stato un gruppo di hacker con un nome da film di fantascienza, ma un gigante silenzioso di cui forse non avete mai sentito parlare: Cloudflare.

Chi è Cloudflare e perché dovrebbe importarci?
Per capire la portata del disastro, dobbiamo prima capire cos’è Cloudflare. Non è semplicemente un’azienda di hosting o un provider di servizi. Immaginatela come il sistema immunitario e il sistema nervoso centrale di una fetta enorme del web. Cloudflare si posiziona tra un sito web e il resto di Internet, offrendo una serie di servizi fondamentali: lo protegge da attacchi DDoS (quelli che cercano di sovraccaricarlo di traffico), ne accelera il caricamento distribuendone i contenuti in tutto il mondo (CDN – Content Delivery Network) e gestisce una miriade di altre funzioni di sicurezza e performance.
Il punto è la sua scala. Secondo alcune stime, Cloudflare gestisce il traffico per circa il 20% di tutti i siti web del pianeta. Quando Cloudflare ha un problema, non è un’azienda ad andare offline. È un intero quartiere digitale, che include colossi come X (ex Twitter), ChatGPT, Bet365 e innumerevoli altri, a diventare inaccessibile. Ecco perché un suo inciampo si trasforma in un terremoto globale.

Anatomia di un disastro: una query, un file e l’effetto farfalla
La parte affascinante, e al tempo stesso terrificante, di questa storia è la causa scatenante. Leggendo il post-mortem tecnico, incredibilmente trasparente, pubblicato dal CEO Matthew Prince, si scopre che tutto è partito da un’azione quasi banale: una modifica ai permessi di un loro database interno, chiamato ClickHouse.
Questa modifica ha avuto una conseguenza imprevista su una query, un’interrogazione al database. Questa specifica query aveva il compito di generare un “feature file” per il sistema di Bot Management, uno degli strumenti più sofisticati di Cloudflare. In parole semplici, questo file è una lista di istruzioni che l’Intelligenza artificiale usa per distinguere un essere umano da un bot malevolo. A causa del cambio di permessi, la query ha iniziato a includere dati duplicati, facendo raddoppiare le dimensioni del file.

Qui si innesca la catena del disastro. Il software che gestisce il traffico sui server di Cloudflare (il “core proxy”) carica questo file in memoria. Per ottimizzare le performance, però, la quantità di memoria per questo file è pre-allocata, ovvero ha un limite fisso. Il nuovo file, grosso il doppio del previsto, ha superato quel limite. Il risultato? Il sistema è andato in panic. Un termine tecnico che rende bene l’idea: ha smesso di funzionare, restituendo un errore a chiunque cercasse di accedere ai siti protetti.
L’aspetto più beffardo è che, all’inizio, il problema era intermittente. A volte veniva generato il file corretto, a volte quello “gonfiato”, facendo apparire e scomparire il problema e portando gli ingegneri a sospettare un attacco informatico su larga scala. Un classico esempio di come, in una crisi, il primo istinto possa essere quello di cercare un nemico esterno, quando invece il problema è un dettaglio interno.
La centralizzazione è il nostro tallone d’Achille?
Questo incidente non è solo una storia tecnica. È un campanello d’allarme sulla struttura stessa della nostra infrastruttura digitale. Per anni abbiamo perseguito l’efficienza, la scalabilità e la convenienza, delegando la gestione di pezzi sempre più critici della rete a un manipolo di aziende: Cloudflare per la sicurezza e la distribuzione, Amazon (AWS), Microsoft (Azure) e Google (Cloud) per l’infrastruttura di calcolo.

Abbiamo costruito un’economia globale che dipende da grattacieli digitali maestosi, ma li abbiamo appoggiati su un numero pericolosamente basso di colonne portanti. Come scriveva Nicholas Taleb nel suo saggio “Il Cigno Nero”, i sistemi complessi e interconnessi sono estremamente vulnerabili a eventi rari e imprevisti con un impatto devastante. L’incidente di Cloudflare non è un Cigno Nero, ma un promemoria della nostra esposizione a questo tipo di rischio sistemico. La “dipendency chain”, la catena di dipendenza, è diventata così concentrata che il fallimento di un singolo componente può spegnere una parte significativa dell’economia e della comunicazione globale.
Lezioni da un’Apocalisse (digitale) sfiorata
Cosa ci portiamo a casa da questo martedì nero? Innanzitutto, un’enorme lezione di umiltà. Internet non è una nuvola eterea e infallibile. È un sistema fisico, complesso, gestito da esseri umani che, come tutti, possono commettere errori. La perfezione è un’illusione; la resilienza è l’obiettivo a cui tendere.
Per le aziende, emerge la necessità di non dare mai per scontato l’uptime e di valutare strategie di diversificazione, come architetture multi-CDN, per non legare il proprio destino a un singolo fornitore, per quanto affidabile. Infine, un plauso va fatto alla radicale trasparenza di Cloudflare. Invece di nascondere il problema dietro a comunicati vaghi, hanno pubblicato un’analisi dettagliata, ammettendo l’errore e spiegandone le cause profonde. Questo non solo è un atto di onestà intellettuale, ma è anche un contributo fondamentale all’intera industria, perché è solo analizzando i fallimenti che si costruiscono sistemi più robusti per il futuro.
L’incidente del 18 Novembre ci ha ricordato che la magia del web poggia su un equilibrio delicato di codice, hardware e fiducia. Un equilibrio che, a volte, può essere spezzato da un file di testo un po’ troppo grande.