Una grave interruzione dell'attività informatica a livello globale, causata dalla società di cybersicurezza Crowdstrike, ha messo in ginocchio ospedali, compagnie aeree, banche e uffici governativi in tutto il mondo. Cosa è stato fatto da allora per evitare una nuova crisi?
Un anno fa, un aggiornamento difettoso di una società di sicurezza informatica ha messo fuori uso ospedali, compagnie aeree, banche e uffici governativi in tutto il mondo.
Il 19 luglio 2024, Crowdstrike ha effettuato un aggiornamento del suo programma Falcon, utilizzato dai computer Microsoft Windows per raccogliere dati su potenziali nuovi metodi di attacco informatico.
L'operazione di routine si è trasformata in una "schermata blu della morte" (Blue screen of death, per gli esperti del settore) per circa 8,5 milioni di utenti Microsoft, in quella che molti considerano una delle più grandi interruzioni di Internet della storia.
Le conseguenze hanno comportato perdite finanziarie significative per i clienti di Crowdstrike, stimate in circa 10 miliardi di dollari, pari a 8,59 miliardi di euro. "Non c'è stato alcun segnale di allarme che potesse far pensare a un incidente di questa natura", ha dichiarato a Euronews Next Steve Sands, ricercatore del Chartered Institute for IT.
"La maggior parte delle organizzazioni che si affidano a Windows non avrebbero avuto alcuna pianificazione per far fronte a un evento del genere".
Ma cosa ha imparato Crowdstrike dall'interruzione del servizio e cosa possono fare le altre aziende per evitare il prossimo?
È necessaria una sorveglianza "24 ore su 24" dell'ambiente IT
Un anno dopo Crowdstrike, le interruzioni di servizio presso banche e "grandi fornitori di servizi" suggerirebbero che la comunità della sicurezza informatica non è cambiata molto, secondo Eileen Haggerty, vicepresidente dei prodotti e delle soluzioni della società di sicurezza cloud NETSCOUT.
Finora quest'anno, un'interruzione di Cloudflare ha messo fuori uso Google Cloud e Spotify a giugno, le modifiche all'applicazione Authenticator di Microsoft hanno causato un'interruzione per migliaia di persone che utilizzavano Outlook o Gmail a luglio e una falla nel software di SentinelOne ha cancellato le reti critiche necessarie per mantenere in funzione i suoi programmi.
Haggerty ha affermato che le aziende devono avere visibilità per rispondere a eventuali problemi software prima che si verifichino, disponendo di un "monitoraggio 24 ore su 24" delle reti e dell'intero ambiente IT.
Haggerty suggerisce ai team IT di condurre "test sintetici", che simulano come un sito gestirebbe il traffico reale prima che una funzione critica si guasti.
Questi test fornirebbero alle aziende "la previsione vitale di cui hanno bisogno per anticipare i problemi prima che abbiano la possibilità di concretizzarsi", ha aggiunto.
In un post sul blog, Microsoft ha affermato che il monitoraggio sintetico non è a prova di bomba e non è sempre "rappresentativo dell'esperienza dell'utente", perché le organizzazioni spesso spingono nuove release, che possono rendere instabile l'intero sistema.
Il blog post aggiunge che può migliorare il tempo di risposta per correggere un errore una volta individuato.
Dopo un'interruzione, Haggerty suggerisce anche di creare un archivio dettagliato di informazioni sui motivi dell'incidente, in modo da poter anticipare qualsiasi potenziale problema prima che diventi un problema.
Secondo Steve Sands, questi rapporti dovrebbero includere piani per la resilienza e il ripristino, oltre a una valutazione dei casi in cui l'azienda si affida a società esterne.
Tutte le aziende che desiderano costruire la "resilienza" dovrebbero farlo il prima possibile, poiché è difficile "imbullonarla" in un secondo momento", ha affermato.
"Molte aziende avranno aggiornato i loro piani di risposta agli incidenti sulla base di quanto accaduto", ha detto Sands e ha aggiunto: "Tuttavia, l'esperienza ci dice che molte avranno già dimenticato l'impatto relativamente breve e il caos causato e avranno fatto poco o nulla".
Nathalie Devillier, esperta del Centro europeo di competenza informatica dell'Ue, ha dichiarato l'anno scorso a Euronews che i fornitori europei di cloud e sicurezza informatica dovrebbero avere sede nello stesso continente.
"Entrambi dovrebbero essere nello spazio europeo per non affidarsi a soluzioni tecnologiche straniere che, come possiamo vedere oggi, hanno un impatto sulle nostre macchine, sui nostri server, sui nostri dati ogni giorno", ha detto.
Cosa ha fatto Crowdstrike dopo l'interruzione dell'attività?
In un recente post sul blog , Crowdstrike ha dichiarato di aver sviluppato una modalità di auto-ripristino per "rilevare i loop di crash e passare i sistemi in modalità sicura", da sola.
C'è anche una nuova interfaccia che aiuta i clienti dell'azienda ad avere una maggiore flessibilità nel testare gli aggiornamenti del sistema, ad esempio impostando programmi di distribuzione diversi per i sistemi di test e le infrastrutture critiche, in modo che non avvengano nello stesso momento.
Una funzione di content pinning consente inoltre ai clienti di bloccare versioni specifiche dei loro contenuti e di scegliere quando e come applicare gli aggiornamenti.
CrowdSource dispone anche di un Digital Operations Center che, a detta dell'azienda, le consentirà una "visibilità più profonda e una risposta più rapida" ai milioni di computer che utilizzano la tecnologia in tutto il mondo.
L'azienda effettua inoltre revisioni regolari del codice, dei processi di qualità e delle procedure operative.
"Ciò che ci ha definito non è stato quel momento, ma tutto ciò che è venuto dopo", ha dichiarato George Kurtz, l'amministratore delegato di Crowdstrike, in un post su LinkedIn questa settimana, sottolineando che l'azienda è ora "fondata sulla resilienza, sulla trasparenza e sull'esecuzione senza sosta".
Sebbene Crowdstrike abbia apportato alcuni cambiamenti, Sands ritiene che potrebbe essere "una richiesta impossibile" evitare un'altra interruzione dello stesso livello perché i computer e le reti "sono per loro natura altamente complessi con molte dipendenze".
"Possiamo certamente migliorare la resilienza dei nostri sistemi dal punto di vista dell'architettura e della progettazione, e possiamo prepararci meglio per individuare, rispondere e recuperare i nostri sistemi quando si verificano le interruzioni", ha dichiarato.