approfondimento

Daybreak, Glasswing, Big Sleep: la cybersecurity è il nuovo banco di prova “politico” dei modelli AI di frontiera



Indirizzo copiato

Tre filosofie di rilascio convergono sulla stessa scommessa di OpenAI, dare ai difensori un vantaggio temporale sugli attaccanti che già usano modelli di frontiera per generare zero-day in produzione. Sul tavolo c’è una riconfigurazione “politica” e infrastrutturale dello stack di cybersecurity globale

Pubblicato il 12 mag 2026

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy



Daybreak OpenAI
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

Punti chiave

  • OpenAI lancia Daybreak: integrazione di modelli GPT-5.5 con agentic harness per difesa continua, segmentazione accessi e partner come Akamai, Cisco, Cloudflare.
  • Il report di Google Threat Intelligence documenta il primo zero-day costruito con AI, con attori come UNC2814 e APT45 che sperimentano exploit automatizzati.
  • Due visioni opposte: Anthropic/Glasswing chiuso vs OpenAI segmentato; problema critico resta la remediation per progetti open source sottofinanziati e la governance globale.
Riassunto generato con AI

L’11 maggio Sam Altman ha annunciato su X che OpenAI lancia Daybreak per accelerare la difesa cyber e mettere in sicurezza il software in modo continuo, e che vuole iniziare a lavorare con quante più aziende possibile, fin da subito. Lo stesso giorno il Threat Intelligence Group di Google ha pubblicato il primo caso documentato di uno zero-day reale costruito con AI da un gruppo cybercriminale, un bypass della doppia autenticazione su un tool open source di amministrazione di sistema, intercettato prima che venisse impiegato in una campagna di mass exploitation.

Le due cose, lette insieme, dicono molto su dove si è spostato il baricentro del mercato AI nel giro di poche settimane.

Daybreak combina i modelli OpenAI con Codex Security come agentic harness, e arriva con un parterre di partner industriali che pesa, Akamai, Cisco, Cloudflare, CrowdStrike, Fortinet, Oracle, Palo Alto Networks, Zscaler.

La promessa operativa è quella che ci si aspetta a questo punto del ciclo: ridurre le ore di analisi a minuti, prioritizzare le issue ad alto impatto, generare e testare patch direttamente nei repository dei clienti, rimandare evidenze audit-ready ai sistemi interni di tracciamento.

Nulla di tutto questo è particolarmente nuovo come funzione di prodotto, esistono decine di startup di code scanning AI-first che fanno questo da almeno due anni, però la differenza è in chi lo offre, su quale modello, e dentro quale architettura di trust.

Daybreak segmenta i modelli per livello di accesso

La parte più interessante dell’annuncio sta nel come, non nel cosa, sta nella struttura di rilascio. OpenAI ha differenziato il modello sottostante in tre versioni con perimetri diversi:

  • GPT-5.5 standard per uso generale,
  • GPT-5.5 with Trusted Access for Cyber per il lavoro difensivo verificato in ambienti autorizzati,
  • GPT-5.5-Cyber per red teaming, penetration testing e validazione controllata. Tradotto, lo stesso modello esce con tre profili di permissività diversi a seconda di chi è l’utente e di cosa ha contrattualizzato. È una scelta che cambia il modo in cui pensiamo al deployment dei modelli di frontiera, perché introduce ufficialmente il principio che la capacità offensiva di un modello non si decide solo in fase di training ma anche in fase di accesso, attraverso meccanismi di verifica dell’identità dell’utente e di controllo a livello di account.

Questa segmentazione è il primo segnale strutturato che la “general availability” del modello frontiera, intesa come endpoint API pubblico identico per tutti, sta diventando un’idea del passato per le capability ad alto rischio.

La logica che vediamo è quella di un mercato a strati, dove il modello base resta accessibile alla massa con safeguard standard, e le capacità che possono essere armate richiedono passaggi di trust dichiarati, verificati, e contrattualmente vincolanti. Non è un dettaglio, è un cambio di paradigma di distribuzione.

La differenza con Glasswing è una scelta politica

Anthropic ad aprile aveva annunciato Project Glasswing con un’impostazione diversa e più chiusa. Claude Mythos Preview, definito “by far the most powerful AI modelmai prodotto dall’azienda, non è stato e non sarà reso disponibile in modo generale, e l’accesso passa per una coalizione ristretta di partner di infrastruttura critica, AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks, più circa 40 organizzazioni che mantengono software fondazionale. Il pricing è di 25 dollari per milione di token in input e 125 in output, con 100 milioni di dollari in credit messi a copertura iniziale.

Anthropic ha esplicitamente avvertito il governo americano che modelli di questa classe rendono significativamente più probabili attacchi cyber su larga scala nel 2026.

Glasswing e Daybreak risolvono lo stesso problema con due filosofie opposte. Anthropic ha scelto il modello “coalizione critica chiusa con accesso controllato e segnalazione preventiva al governo”, una posizione che pesa molto sul piano della responsabilità ma che lascia fuori praticamente tutto il tessuto produttivo che non è infrastruttura mondiale.

OpenAI ha scelto il modello “deployment iterativo allargato con segmentazione per trust”, e infatti la home page di Daybreak ha due pulsanti, “Request a vulnerability scan” e “Contact sales“, segnalando l’intenzione di passare dall’eccezione al servizio commerciale. Sono due visioni di policy aziendale, prima ancora che di prodotto.

Mozilla, 271 patch: perché il flywheel funziona davvero

C’è un caso concreto che merita attenzione, perché esce dalla retorica e mostra che l’approccio funziona. Mozilla ad aprile ha pubblicato che Claude Mythos Preview ha contribuito a identificare e patchare 271 vulnerabilità nell’ultima release di Firefox.

OpenAI dichiara che il predecessore di GPT-5.5-Cyber, GPT-5.4-Cyber rilasciato ad aprile, ha contribuito a fixare oltre 3mila vulnerabilità nei mesi precedenti l’annuncio di Daybreak. Sono numeri che è difficile rappresentarsi senza un’unità di misura di riferimento, perché un singolo team di pentest umano in un anno di lavoro su un codebase complesso ne trova tipicamente decine, non migliaia.

Il flywheel è semplice da raccontare e potente nei suoi effetti, il modello scansiona codebase enormi a velocità non umane, propone exploit candidati, il sistema verifica in sandbox isolata se sono reali, genera patch, riapplica la scansione. Il bottleneck si sposta dalla scoperta alla remediation, e qui le cose si complicano, perché trovare un bug richiede secondi di compute, fixarlo richiede ore di lavoro di un manutentore qualificato.

Bruce Schneier

Bruce Schneier – ricercatore e docente presso la Kennedy School di Harvard, membro del consiglio di amministrazione dell’EFF e responsabile dell’architettura di sicurezza presso Inrupt, Inc. – ha sintetizzato bene il punto: siamo entrati nell’età del “software istantaneo”, dove la finestra di 90 giorni di responsible disclosure è morta, perché un modello impiega 30 minuti a trasformare una patch diff in un exploit funzionante.

Il primo zero-day reale costruito da un’AI in attacco

Tutto questo discorso resterebbe accademico se non fosse arrivato, lo stesso giorno di Daybreak, il report di Google Threat Intelligence Group sul primo caso documentato di uno zero-day costruito con AI da un attore criminale e portato vicino al deployment in produzione. Era un bypass della 2FA in un tool open source di amministrazione di sistema, implementato in uno script Python, sviluppato da un gruppo che lo voleva usare in un evento di mass exploitation.

Google scrive nel report che attori riconducibili alla Cina, come il gruppo UNC2814, hanno sperimentato jailbreak basati su persona dichiarando di agire come senior security auditor per spingere i modelli a fare ricerca di vulnerabilità su firmware embedded, mentre il gruppo nordcoreano APT45 ha inviato migliaia di prompt ripetitivi per analizzare in modo ricorsivo i CVE pubblici e validare exploit proof-of-concept.

È a questo punto che Big Sleep e CodeMender smettono di essere progetti isolati e diventano la risposta industriale di Google allo stesso problema. Big Sleep, sviluppato da Google DeepMind con Project Zero, serve a individuare vulnerabilità reali prima che vengano sfruttate. CodeMender – la risposta speculare a Daybreak e Glasswing – punta invece ad automatizzare la correzione del codice. Insieme, presidiano i due passaggi decisivi della difesa: scoprire la falla e chiuderla in tempo.

Tre lab di frontiera, tre programmi distinti, tutti nati nello stesso trimestre, tutti concentrati sulla stessa premessa: che la difesa cyber del prossimo decennio sarà giocata in larga parte da agenti AI che lavorano in pipeline continue contro altri agenti AI che attaccano.

Anthropic come dependency core e l’effetto sul mercato cyber

Forrester ha scritto che Mythos ha promosso Anthropic a dipendenza core per molti vendor cyber, fino alla comparsa del prossimo modello di frontiera comparabile. La frase, letta dentro Daybreak, diventa più interessante, perché significa che il mercato della cybersecurity sta per essere riassorbito dentro l’arena dei lab di frontiera.

I vendor tradizionali, quelli che vendono SIEM, EDR, SOAR, gestione vulnerabilità, gestione patch, hanno due strade davanti, integrarsi via API con i modelli dei lab e accettare di diventare il livello applicativo sopra una infrastruttura cognitiva che non controllano, oppure costruire o licenziare capacità proprie comparabili, una direzione molto più cara e tecnicamente proibitiva oggi.

I prezzi del penetration testing tradizionale, racconta sempre Forrester, oggi viaggiano tra 20 e 120mila dollari per ingaggio, ancorati alla scarsità percepita della expertise di discovery. Se la discovery diventa una commodity API che costa poche migliaia di token, il prezzo del servizio si comprime brutalmente e il valore si sposta interamente su orchestrazione, prioritizzazione, contesto di business, e governance del rischio.

L’IMF il 7 maggio ha pubblicato un blog post in cui invita i policymaker a trattare la cybersecurity guidata da AI come una questione di stabilità finanziaria, non come un dossier tecnico settoriale. Quando il Fondo Monetario Internazionale prende posizione su un tema cyber, è perché qualcosa nella struttura del rischio è cambiato.

Il time-to-patch dell’ecosistema open source resta il vero nodo

C’è un punto che nessuno dei tre lab ha ancora risolto, ed è quello che farà la differenza nei prossimi mesi. La scoperta scala in modo esponenziale grazie ai modelli, la remediation no, perché la maggior parte del software critico del mondo è mantenuta da team open source piccoli, volontari, cronicamente sottofinanziati. Glasswing ha fatto emergere vulnerabilità che giacevano nascoste da 16 e 27 anni in progetti mantenuti da poche persone.

Anthropic ha messo 4 milioni di dollari in donazioni a gruppi di sicurezza open source, gesto giusto nella direzione, dimensione clamorosamente insufficiente rispetto alla scala del problema.

Senza un ripensamento del modo in cui finanziamo la manutenzione del software open source su cui poggia tutto il resto, la prossima fase rischia di replicare il problema COBOL, codice indispensabile, manutenzione insostenibile, debito tecnico che si accumula più rapidamente della capacità di ripianarlo.

Questo è il pezzo politico che resta scoperto e che né Daybreak né Glasswing né Big Sleep risolvono da soli, perché serve un coordinamento tra industria, governi e fondazioni che vada oltre la corsa competitiva tra lab.

Senza dubbio l’Europa, che ha il Cyber Resilience Act in vigore e una traiettoria regolatoria sulla supply chain del software, ha una finestra di vantaggio per mettere a sistema queste tre cose, capacità AI, finanziamento manutentivo, accountability di filiera, prima che il mercato si stabilizzi attorno a un assetto fissato da altri.

La domanda è se gli stakeholder europei stiano leggendo questa settimana di annunci come una notizia di prodotto o come quello che è davvero, una riconfigurazione politica dell’intero stack della cybersecurity globale.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x