Quanto è pericoloso Mythos? Perché Anthropic ha deciso di non rilasciare il nuovo modello

By: blockbeats|2026/04/16 13:24:20

Titolo dell'articolo originale: Come Anthropic ha scoperto che Mythos era troppo pericoloso per il mondo esterno
Autori dell'articolo originale: Margi Murphy, Jake Bleiberg e Patrick Howell O'Neill, Bloomberg
Traduzione: Peggy, BlockBeats

Nota dell'editore: Quando un'azienda di intelligenza artificiale sceglie di non rilasciare il suo modello più potente direttamente al pubblico, ciò stesso significa un problema.

Mythos di Anthropic era già in grado di eseguire autonomamente un intero processo di attacco. Dalla scoperta di vulnerabilità zero-day, alla scrittura di codice di sfruttamento, fino alla concatenazione di percorsi multi-step per penetrare nei sistemi core, questi compiti, che in origine richiedevano la collaborazione di hacker esperti per lungo tempo, sono stati compressi a ore o addirittura minuti.

Ecco perché, nel momento in cui il modello è stato divulgato, Scott Bessent e Jerome Powell hanno convocato una riunione con le istituzioni di Wall Street, richiedendo di utilizzarlo per "autovalutazione." Quando la capacità di scoperta delle vulnerabilità viene liberata su larga scala, il sistema finanziario non affronta più attacchi isolati, ma una scansione continua.

Un cambiamento più profondo risiede nella struttura dell'offerta. In passato, la scoperta delle vulnerabilità si basava su pochi team di sicurezza e sull'expertise degli hacker, con un ritmo lento e non ripetibile. Ora, questa capacità sta iniziando a essere prodotta in massa dai modelli, abbassando la soglia sia per gli attacchi che per le difese. Una metafora di un insider è piuttosto diretta: consegnare il modello a un hacker ordinario è come dotarlo di capacità di operazioni speciali.

Le istituzioni hanno iniziato a utilizzare gli stessi strumenti per controllare retrospettivamente i propri sistemi. JPMorgan Chase, Cisco Systems e altri stanno conducendo test interni, sperando di correggere le vulnerabilità prima che vengano sfruttate. Tuttavia, i vincoli della realtà non sono cambiati; la velocità di scoperta sta aumentando mentre il processo di riparazione rimane lento. "Siamo bravi a trovare vulnerabilità ma non bravi a risolverle," come ha sottolineato Jim Zemlin, evidenziando il disallineamento temporale.

Infatti, poiché Mythos non è solo un miglioramento di una singola capacità, ma piuttosto un'integrazione, un'accelerazione e un abbassamento della soglia di usabilità delle capacità di attacco precedentemente disperse e limitate, una volta fuori dall'ambiente controllato, come questa capacità si diffonderà rimane sconosciuto, senza alcuna esperienza esistente a cui fare riferimento.

Il pericolo non risiede in ciò che può fare, ma in chi può usarlo e in quali condizioni.

L'articolo originale è il seguente:

In una serata temperata di febbraio, durante una pausa a un matrimonio a Bali, Nicholas Carlini si è allontanato brevemente, ha aperto il suo laptop e si è preparato a "causare un po' di caos." In quel momento, Anthropic aveva appena rilasciato un nuovo modello di intelligenza artificiale chiamato Mythos per test interni, e questo rinomato ricercatore di IA stava per vedere quanto potesse realmente creare problemi.

Anthropic ha assunto Carlini per lavorare sullo stress testing dei suoi modelli di IA per valutare se gli hacker potessero potenzialmente sfruttarli per spionaggio, furto o distruzione. Mentre partecipava a un matrimonio indiano a Bali, Carlini rimase stupito dalle capacità di questo modello.

In poche ore, trovò diverse tecniche che potevano essere utilizzate per penetrare sistemi utilizzati a livello globale. Tornando all'ufficio di Anthropic nel centro di San Francisco, scoprì ulteriormente che Mythos era già in grado di generare autonomamente potenti strumenti di intrusione, comprese tattiche mirate a Linux—la spina dorsale della maggior parte dei moderni sistemi informatici.

Mythos ha messo in scena un "colpo alla banca digitale": poteva bypassare i protocolli di sicurezza, entrare nel sistema di rete dalla porta principale e poi violare la cassaforte digitale per ottenere i suoi beni online. In passato, l'IA poteva solo "scassinare porte," ma ora ha la capacità di pianificare ed eseguire un intero "furto."

Carlini e alcuni colleghi iniziarono a lanciare l'allerta all'interno dell'azienda, riportando le loro scoperte. Nel frattempo, quasi ogni giorno, scoprirono vulnerabilità ad alto rischio potenzialmente fatali nei sistemi che Mythos esaminava—problemi che di solito solo i migliori hacker del mondo sarebbero stati in grado di scoprire.

Quanto è pericoloso Mythos? Perché Anthropic ha deciso di non rilasciare il nuovo modello

Il modello di IA di nuova generazione di Anthropic, Mythos, ha dimostrato di avere la capacità di penetrare vari sistemi globali. (Fonte immagine: Jakub Porzycki / NurPhoto / AP)

Allo stesso tempo, internamente ad Anthropic, un team chiamato "Frontier Red Team"—composto da 15 dipendenti noti come "Ants"—stava conducendo test simili. La responsabilità di questo team era garantire che i modelli dell'azienda non venissero utilizzati per danneggiare l'umanità. Portavano cani robotici nei magazzini e testavano con ingegneri per vedere se i chatbot potessero essere utilizzati per controllare in modo malevolo questi dispositivi; collaboravano anche con biologi per valutare se i modelli potessero essere utilizzati per creare armi biologiche.

Tuttavia, questa volta, si resero gradualmente conto che il rischio maggiore posto da Mythos proveniva dal campo della cybersecurity. "Nelle prime ore di utilizzo del modello, sapevamo che era diverso," ha dichiarato Logan Graham, che è responsabile del team.

Il modello precedente, Opus 4.6, aveva mostrato la capacità di assistere gli esseri umani nello sfruttare le vulnerabilità del software. Ma Graham ha sottolineato che Mythos ora poteva "sporcarsi le mani" e sfruttare queste vulnerabilità autonomamente. Questo rappresentava un rischio a livello di sicurezza nazionale e, basandosi su questo, ha emesso un avviso alla leadership dell'azienda. Questo lo costrinse ad affrontare un dilemma: spiegare alla direzione che il prossimo significativo motore di entrate dell'azienda potrebbe non essere in grado di essere rilasciato al pubblico a causa della sua pericolosità.

Il co-fondatore e scienziato capo di Anthropic, Jared Kaplan, ha dichiarato che durante il processo di addestramento di Mythos, aveva monitorato "molto da vicino" i suoi progressi. Entro gennaio, iniziò a rendersi conto che la capacità del modello di scoprire vulnerabilità di sistema era eccezionalmente forte. In quanto fisico teorico, Kaplan doveva determinare se queste capacità fossero semplicemente un "fenomeno tecnicamente interessante" o "una realtà strettamente legata all'infrastruttura di internet." Alla fine, concluse che si trattava della seconda opzione.

Jared Kaplan (co-fondatore e scienziato capo di Anthropic) Immagine Fonte: Chris J. Ratcliffe/Bloomberg

Nel corso di un periodo di due settimane, dalla fine di febbraio all'inizio di marzo, Kaplan e il co-fondatore Sam McCandlish stavano deliberando se rilasciare questo modello.

Entro la prima settimana di marzo, il team senior dell'azienda—composto dal CEO Dario Amodei, dalla Presidente Daniela Amodei, dal Chief Information Security Officer Vitaly Gudanets e altri—ha tenuto una riunione per ascoltare il briefing di Kaplan e McCandlish.

La loro conclusione fu che Mythos presentava un rischio troppo elevato e non era adatto per un rilascio pubblico completo. Tuttavia, Anthropic dovrebbe comunque consentire ad alcune aziende, compresi i concorrenti, di testarlo.

"Ci siamo rapidamente resi conto che questa volta era necessario adottare un approccio considerevolmente diverso; non sarebbe stata una routine di lancio del prodotto," ha affermato Kaplan.

Entro la prima settimana di marzo, l'azienda ha infine raggiunto un consenso: approvare Mythos per il dispiegamento come strumento di difesa informatica.

Dario Amodei (CEO di Anthropic) Fonte dell'immagine: Samyukta Lakshmi/Bloomberg

La reazione del mercato è stata quasi istantanea. Il giorno in cui Anthropic ha rivelato l'esistenza di Mythos, il Segretario del Tesoro degli Stati Uniti Scott Bessent e il Presidente della Federal Reserve Jerome Powell hanno convocato una riunione d'emergenza delle principali istituzioni di Wall Street a Washington, D.C. Il messaggio era cristallino: utilizzare immediatamente Mythos per identificare le vulnerabilità nei propri sistemi. Secondo una fonte vicina ai dirigenti presenti alla riunione (che ha richiesto l'anonimato a causa della natura privata delle discussioni), la serietà della riunione era evidente: i partecipanti hanno persino rifiutato di divulgare il contenuto della riunione ad alcuni consulenti chiave.

I funzionari della Casa Bianca hanno emesso un avviso urgente su Mythos come potenziale strumento di hacking e la loro raccomandazione di "utilizzarlo per la difesa", indicando un cambiamento più profondo: l'intelligenza artificiale sta rapidamente diventando una forza decisiva nel campo della sicurezza informatica.

Anthropic ha aperto selettivamente Mythos per un uso limitato da parte di alcune istituzioni nell'iniziativa "Project Glasswing", comprese aziende come Amazon Web Services, Apple e JPMorgan Chase, consentendo loro di condurre test; allo stesso tempo, le agenzie governative hanno mostrato un forte interesse. Prima di aprirsi al pubblico, Anthropic ha informato ampiamente i funzionari senior del governo degli Stati Uniti sulle capacità della versione di anteprima di Mythos, comprese le sue potenziali applicazioni sia negli attacchi informatici che nella difesa.

Allo stesso tempo, l'azienda è impegnata in discussioni in corso con diversi governi nazionali. Un dipendente di Anthropic, che ha richiesto l'anonimato a causa di questioni interne, ha divulgato queste informazioni. Il concorrente OpenAI ha prontamente seguito l'esempio, annunciando martedì il lancio di uno strumento per scoprire vulnerabilità software—GPT-5.4-Cyber.

Nella fase di test delle versioni iniziali, i ricercatori hanno scoperto dozzine di istanze comportamentali "preoccupanti", inclusa la mancata osservanza delle istruzioni umane e, in rari casi, tentativi di nascondere le proprie azioni dopo aver violato le istruzioni.

Attualmente, Anthropic non ha ufficialmente rilasciato Mythos come strumento di sicurezza informatica al pubblico, e i ricercatori esterni non hanno ancora convalidato completamente le sue capacità.

Tuttavia, la precedente decisione dell'azienda di "accesso ristretto" riflette un crescente consenso nell'industria e nel governo: L'IA sta rimodellando la struttura economica della sicurezza informatica: riduce significativamente il costo della scoperta delle vulnerabilità, comprime il tempo di preparazione degli attacchi e abbassa le barriere tecniche per alcuni tipi di attacchi. Anthropic ha anche avvertito che la maggiore autonomia di Mythos comporta rischi di per sé.

Durante i test, il team ha osservato diversi casi inquietanti: il modello che disobbedisce alle istruzioni e persino tenta di coprire le proprie tracce dopo una violazione. Durante i test, il team ha osservato diversi casi inquietanti: il modello che disobbedisce alle istruzioni e persino tenta di coprire le proprie tracce dopo una violazione. In un incidente, il modello ha autonomamente ideato un percorso di attacco a più fasi per "fuggire" da un ambiente ristretto, ottenere un accesso più ampio a Internet e diffondere proattivamente contenuti.

Nel mondo reale, il software utilizzato da applicazioni che vanno dalla banca ai sistemi ospedalieri contiene comunemente vulnerabilità di codice complesse e oscure, che spesso richiedono ai professionisti settimane o addirittura mesi per essere scoperte. Una volta che gli hacker sfruttano queste vulnerabilità, ciò può portare a violazioni dei dati o attacchi ransomware, con conseguenze gravi.

Tuttavia, molti pesi massimi hanno anche messo in discussione le vere capacità di Mythos e i suoi potenziali rischi. Il consigliere per l'IA della Casa Bianca, David Sacks, ha dichiarato sulla piattaforma sociale X: "Sempre più persone iniziano a chiedersi se Anthropic sia il 'ragazzo che gridava al lupo' nell'industria dell'IA." Se la minaccia rappresentata da Mythos non si materializzerà alla fine, l'azienda affronterà un grave problema di reputazione."

Tuttavia, la realtà è che gli hacker da tempo utilizzano modelli di linguaggio di grandi dimensioni per lanciare attacchi sofisticati. Ad esempio, un gruppo di cyber spionaggio ha una volta utilizzato il modello Claude di Anthropic per tentare di violare circa 30 obiettivi; altri attaccanti hanno utilizzato l'IA per rubare dati da agenzie governative, distribuire ransomware e persino superare rapidamente centinaia di strumenti firewall utilizzati per la protezione dei dati.

Secondo una fonte a conoscenza della questione, i funzionari della sicurezza nazionale statunitense vedono l'emergere di Mythos come portatore di un'incertezza senza precedenti: valutare i rischi per la sicurezza informatica è diventato ancora più difficile. Se questo modello fosse dato a hacker individuali, il suo effetto potrebbe essere simile a quello di trasformare un soldato ordinario in un operatore delle forze speciali.

Allo stesso tempo, questo tipo di modello potrebbe anche diventare un "amplificatore di capacità", consentendo a un'organizzazione di hacker criminali di possedere la capacità di attacco di un piccolo stato-nazione e permettendo a hacker di intelligence e militari di alcuni paesi piccoli o di medie dimensioni di effettuare cyber attacchi che in precedenza solo le grandi potenze potevano realizzare.

L'ex capo della sicurezza informatica della NSA, Rob Joyce, ha dichiarato: "Credo davvero che, a lungo termine, l'IA ci renderà più sicuri e resilienti. Tuttavia, tra ora e un certo punto nel futuro, ci sarà un 'periodo buio' durante il quale l'IA offensiva avrà un chiaro vantaggio: coloro che non hanno adeguatamente rinforzato le proprie difese saranno i primi a cadere."

Vale la pena notare che Mythos non è l'unico modello con tali capacità. Diverse organizzazioni hanno già utilizzato modelli di linguaggio di grandi dimensioni per la ricerca di vulnerabilità, comprese le prime versioni di Claude e Big Sleep.

Prima del rilascio di Mythos, JPMorgan Chase aveva già avuto successo nell'utilizzare modelli di linguaggio di grandi dimensioni per aiutare a scoprire vulnerabilità nel software bancario. Un individuo a conoscenza della situazione (che ha richiesto l'anonimato a causa del coinvolgimento in progetti di sicurezza interna) ha divulgato queste informazioni. (Fonte immagine: Michael Nagle / Bloomberg)

Secondo la fonte, le "vulnerabilità zero-day", che in precedenza richiedevano giorni o addirittura settimane per essere identificate e per scrivere codice di sfruttamento, possono ora essere identificate in appena un'ora, o addirittura in pochi minuti, utilizzando l'IA. Una "vulnerabilità zero-day" si riferisce a un difetto di sicurezza che i difensori non hanno ancora rilevato, lasciando quasi nessun tempo per la correzione.

Attualmente, l'attenzione di JPMorgan Chase è principalmente sulla catena di approvvigionamento e sul software open-source, dove hanno scoperto molteplici vulnerabilità e fornito feedback ai rispettivi fornitori.

Il CEO dell'azienda, Jamie Dimon, ha dichiarato durante una conferenza telefonica sugli utili che l'emergere di Mythos "indica che ci sono ancora un gran numero di vulnerabilità che necessitano di essere affrontate con urgenza."

Immagine di Jamie Dimon: Krisztian Bocsi / Bloomberg

Secondo una fonte a conoscenza della questione, JPMorgan Chase aveva già interagito con Anthropic per discutere il test del modello prima che l'esistenza di Mythos fosse nota pubblicamente. La fonte, che ha richiesto l'anonimato poiché non era autorizzata a parlare pubblicamente, ha dichiarato che JPMorgan Chase ha rifiutato di commentare su questo.

Ora, altre banche di Wall Street e aziende tecnologiche stanno anche tentando di utilizzare Mythos per correggere proattivamente i difetti di sistema prima che gli hacker scoprano le vulnerabilità. Bloomberg ha riportato che istituzioni finanziarie come Goldman Sachs, Citigroup, Bank of America e Morgan Stanley hanno testato internamente questa tecnologia.

I dipendenti di Cisco Systems sono particolarmente vigili su un problema: se gli intrusi utilizzeranno l'IA per trovare percorsi per violare il loro software per dispositivi di rete distribuiti a livello globale — questi dispositivi includono router, firewall e modem. Anthony Grieco, il Chief Security and Trust Officer dell'azienda, ha espresso preoccupazioni specifiche sul fatto che l'IA potrebbe accelerare gli attacchi degli hacker su dispositivi "end-of-life" che non riceveranno più aggiornamenti di supporto da Cisco.

Tuttavia, la correzione delle vulnerabilità scoperte dall'IA rimarrà una sfida persistente. Questo processo, noto come "correzione della sicurezza", è spesso costoso e richiede tempo per le organizzazioni, portando molte a ignorare le vulnerabilità. Attacchi catastrofici come quello subito da Equifax — dove sono stati rubati i dati di circa 147 milioni di persone — si sono verificati a causa di vulnerabilità note non affrontate prontamente.

Nell'incidente di violazione dei dati di Equifax, gli intrusi hanno rubato i registri personali di circa 147 milioni di individui. (Immagine di: Elijah Nouvelage / Bloomberg)

Nonostante sia stata identificata dall'amministrazione Trump come una "minaccia alla catena di approvvigionamento" dopo aver rifiutato di assistere nella conduzione di sorveglianza su larga scala sui cittadini statunitensi, Anthropic sta attualmente partecipando a discussioni e collaborazioni con agenzie federali.

Gli Stati Uniti. Il Dipartimento del Tesoro sta cercando l'approvazione per utilizzare Mythos questa settimana. Il Segretario del Tesoro Scott Bessent ha dichiarato che questo modello aiuterà gli Stati Uniti a mantenere il loro vantaggio competitivo nell'intelligenza artificiale.

Fonte immagine di Scott Bessent: Matt McClain / Bloomberg

In un test, Mythos ha scritto un pezzo di codice di attacco del browser che ha collegato insieme quattro diverse vulnerabilità in una catena di sfruttamento completa, un compito che è altamente impegnativo anche per gli hacker umani. Un rapporto di ricerca sulla cybersecurity ha notato che tale "catena di vulnerabilità" spesso oltrepassa i confini di sistema originariamente sicuri, simile all'approccio utilizzato nell'attacco Stuxnet alle centrifughe della centrale nucleare iraniana anni fa.

Inoltre, secondo Anthropic, quando esplicitamente istruito, Mythos può persino identificare e sfruttare "vulnerabilità zero-day" in tutti i browser principali.

Anthropic ha dichiarato di aver utilizzato Mythos per scoprire vulnerabilità nel codice Linux. Jim Zemlin ha sottolineato che Linux "alimentano la maggior parte dei sistemi informatici oggi", dagli smartphone Android e router internet ai supercomputer della NASA, ed è quasi onnipresente. Mythos può scoprire autonomamente difetti in più basi di codice open-source e, una volta che queste vulnerabilità vengono sfruttate, gli attaccanti possono potenzialmente prendere il pieno controllo dell'intera macchina.

Attualmente, dozzine di personale della Linux Foundation hanno iniziato a testare Mythos. Zemlin crede che una domanda chiave sia se il modello di Anthropic possa fornire intuizioni preziose per aiutare gli sviluppatori a scrivere software più sicuro fin dall'inizio, riducendo così la creazione di vulnerabilità.

"Siamo molto bravi a trovare vulnerabilità," ha detto, "ma non siamo molto bravi a risolverle."

[Link all'articolo originale]

Prezzo di --