xAI di Elon Musk ha rilasciato il chatbot Grok 3. Musk ne ha dato l’annuncio su X, e ha descritto Grok 3 come “l’AI più intelligente della Terra”. L’annuncio evidenzia la continua rivalità di Musk con altri sviluppatori di AI, soprattutto OpenAI, co-fondata da Musk e Sam Altman.
Grok 3 è stato addestrato su dati sintetici ed è in grado di riflettere sugli errori commessi
“Grok 3 ha capacità di ragionamento molto potenti, quindi nei test che abbiamo fatto finora sta superando tutto ciò che è stato rilasciato, di cui siamo a conoscenza, quindi è un buon segno”, ha detto in una videochiamata al World Governments Summit di Dubai. Si è detto fiducioso che Grok 3 supererà i modelli di intelligenza artificiale esistenti, tra cui ChatGPT di OpenAI.
Grok 3 è una famiglia di modelli, per essere precisi. Una versione più piccola di Grok 3, Grok 3 mini, risponde alle domande in modo più rapido, a scapito di una certa precisione. Non tutti i modelli e le relative funzionalità di Grok 3 sono ancora disponibili (alcuni sono in versione beta), ma hanno iniziato a essere distribuiti il 17 febbraio 2025.
xAI sostiene che Grok 3 batte GPT-4o in alcuni benchmark, tra cui AIME (che valuta le prestazioni di un modello su un campione di domande di matematica) e GPQA (che valuta i modelli utilizzando problemi di fisica, biologia e chimica di livello dottorale). Secondo xAI, una prima versione di Grok 3 ha ottenuto risultati competitivi anche in Chatbot Arena, un test in crowdsourcing che mette diversi modelli di intelligenza artificiale l’uno contro l’altro e fa votare agli utenti le loro risposte preferite.

I modelli della nuova famiglia Grok 3, Grok 3 Reasoning e Grok 3 mini Reasoning, sono in grado di “ragionare” attentamente sui problemi, in modo simile a modelli di “ragionamento” come o3-mini di OpenAI e R1 dell’azienda cinese DeepSeek. I modelli di ragionamento cercano di verificare i fatti prima di fornire i risultati, il che li aiuta a evitare alcune delle insidie che normalmente fanno inciampare i modelli.
xAI sostiene che Grok 3 Reasoning supera la migliore versione di o3-mini – o3-mini-high – in diversi benchmark, compreso un nuovo benchmark matematico chiamato AIME 2025.

Questi modelli di ragionamento sono accessibili tramite l’app Grok. Gli utenti possono chiedere a Grok 3 di “pensare” o, per le domande più difficili, di utilizzare la modalità “Big Brain” per ragionare con un’elaborazione aggiuntiva. xAI descrive i modelli di ragionamento come più adatti a domande di matematica, scienze e programmazione.
Grok 3 contiene meccanismi di difesa per evitare la distillazione
Musk ha detto che alcuni dei “pensieri” dei modelli di ragionamento sono oscurati nell’app Grok per evitare la distillazione, un metodo utilizzato dagli sviluppatori di modelli di intelligenza artificiale per estrarre conoscenza da altri modelli. Recentemente, DeepSeek è stata accusata di distillare i modelli di OpenAI per creare i propri.
I modelli di ragionamento di Grok sono alla base di una nuova funzione dell’app Grok chiamata DeepSearch, la risposta di xAI agli strumenti di ricerca alimentati dall’AI come la ricerca profonda di OpenAI e Perplexity. DeepSearch analizza Internet e X per esaminare le informazioni e fornire un estratto in risposta a una domanda.
Gli abbonati al livello Premium+ di X (50 dollari al mese) avranno accesso per primo a Grok 3, mentre le altre funzionalità saranno riservate a un nuovo piano che xAI chiama SuperGrok. Al prezzo di 30 dollari al mese o di 300 dollari all’anno (se le indiscrezioni sono attendibili), SuperGrok sblocca ulteriori ragionamenti e interrogazioni DeepSearch, oltre alla generazione illimitata di immagini.

Meno allucinazioni
Nel corso della videoconferenza Musk ha parlato anche della capacità di Grok 3 di ridurre la maledizione dei chatbot AI, ovvero gli errori che si insinuano nell’AI – spesso chiamati “allucinazioni” – andando avanti e indietro con i dati e cercando di raggiungere la coerenza logica, in modo che se ha dati sbagliati che non corrispondono alla realtà, ci riflette sopra e rimuove l’errore.
Ha inoltre rivelato che Grok 3 è stato addestrato utilizzando una potenza di calcolo superiore a quella di qualsiasi altro modello Grok fino ad ora, e che nel processo di addestramento sono stati utilizzati molti dati sintetici
Grok 3 è stato addestrato su dati sintetici ed è in grado di riflettere sugli errori commessi, riesaminando i dati per raggiungere la coerenza logica.
Se i miglioramenti di cui sopra saranno disponibili in Grok 3, allora si posizionerà come un importante concorrente dei principali modelli di AI come GPT-4 di OpenAI, Gemini di Google DeepMind e Claude di Anthropic. Ma è anche opportuno notare che OpenAI continua a perfezionare i suoi modelli ChatGPT, Google sta spingendo la sua AI Gemini e Meta sta espandendo la sua serie LlaMA.
Grok 3, in arrivo la “modalità vocale”
Tra circa una settimana, l’app Grok sarà dotata di una “modalità vocale”, ha dichiarato Musk, che darà ai modelli Grok una voce sintetizzata. Poche settimane dopo, i modelli Grok 3 saranno disponibili tramite l’API aziendale di xAI, insieme alla funzionalità DeepSearch.
Nei prossimi mesi, xAI prevede di rendere open-source Grok 2, ha dichiarato Musk.
“Il nostro approccio generale è quello di rendere open-source l’ultima versione [di Grok] quando la versione successiva sarà completamente pronta”, ha continuato. “Quando Grok 3 sarà maturo e stabile, probabilmente entro pochi mesi, allora apriremo il software di Grok 2”.

Quando Musk ha annunciato Grok, circa due anni fa, ha presentato il modello di intelligenza artificiale come tagliente, non filtrato e anti “woke”: in generale, disposto a rispondere a domande controverse che gli altri sistemi di intelligenza artificiale non possono fare. Ha mantenuto alcune di queste promesse. Se si chiede loro di essere volgare, per esempio, Grok e Grok 2 lo fanno volentieri, sputando un linguaggio colorito che probabilmente non sentiremmo da ChatGPT.
Ma i modelli di Grok precedenti a Grok 3 si sono limitati a trattare argomenti politici e a non superare certi limiti. In effetti, uno studio ha rilevato che Grok propendeva per la sinistra politicamente, su argomenti come i diritti dei transgender, i programmi di diversità e la disuguaglianza.
Musk ha attribuito il comportamento ai dati di addestramento di Grok – pagine web pubbliche – e si è impegnato a “spostare Grok più vicino alla neutralità politica”. Non è ancora chiaro se xAI abbia raggiunto questo obiettivo e quali potrebbero essere le conseguenze.
Grok 3, 200 mln di ore di GPU di addestramento
Secondo un articolo di Forbes, la nuova versione di Grok 2 è un successore più efficiente di Grok, con set di dati sintetici, meccanismi di autocorrezione e di apprendimento rinforzato. Queste integrazioni aiuteranno a ridurre le risposte errate, poiché l’accuratezza viene migliorata e i tempi di formazione ridotti.
xAI riferisce che lo sviluppo di Grok 3 è stato accelerato dal suo supercomputer Colossus, costruito in soli otto mesi. Il sistema, alimentato da 100mila GPU Nvidia H100, ha fornito 200 milioni di ore di GPU per l’addestramento – dieci volte di più rispetto al suo predecessore, Grok 2. Questo significativo aumento delle risorse di calcolo ha aiutato Grok 3 a elaborare in modo più efficiente grandi insiemi di dati, riducendo i tempi di addestramento e migliorando la precisione.
Grok 3 incorpora meccanismi di autocorrezione e l’apprendimento per rinforzo
Oltre all’aumento della potenza di calcolo, xAI ha modificato il proprio approccio all’addestramento per migliorare le capacità di Grok 3. Il modello ora incorpora dati sintetici. Il modello ora incorpora insiemi di dati sintetici, meccanismi di autocorrezione e apprendimento per rinforzo per migliorare le sue prestazioni:
- Insiemi di dati sintetici – Si tratta di insiemi di dati generati artificialmente anziché raccolti da fonti reali. Vengono utilizzati per addestrare i modelli di intelligenza artificiale simulando vari scenari, garantendo un set di dati diversificato e controllato. Ciò contribuisce a migliorare l’efficienza dell’apprendimento e a risolvere i problemi di privacy dei dati.
- Meccanismi di autocorrezione – Sono tecniche di AI che consentono a un modello di identificare e correggere i propri errori. Valutando i suoi risultati e confrontandoli con le risposte corrette conosciute, il modello può affinare le sue risposte nel tempo, riducendo gli errori e migliorando la precisione.
- Apprendimento per rinforzo – Un tipo di apprendimento automatico in cui un modello di intelligenza artificiale impara ricevendo premi o penalità per le sue azioni. Il sistema viene addestrato a massimizzare i risultati positivi attraverso prove ed errori, migliorando le sue capacità decisionali.
Secondo xAI e Musk, questi miglioramenti ridurranno le risposte errate, note come allucinazioni, utilizzando più fasi di convalida, miglioreranno l’accuratezza logica verificando le informazioni con fonti affidabili e si adatteranno in modo più efficace attraverso un’autovalutazione e un apprendimento continui.
xAI riferisce inoltre che sono stati introdotti cicli di feedback umano e formazione contestuale per garantire risposte più naturali e accurate.
Le prestazioni non convincono gli esperti
Tuttavia, i critici non sono così convinti. Gli esperti dubitano che Grok 3 possa effettivamente superare GPT-4 Turbo, che ha già dimostrato notevoli capacità di ragionamento, risoluzione di problemi e multimodalità.
L’uscita di Grok 3 arriva solo un mese dopo che la startup cinese DeepSeek ha sconvolto l’industria globale dell’intelligenza artificiale con il lancio del suo chatbot a basso costo e di alta qualità, una sfida alle ambizioni degli Stati Uniti di guidare il mondo nello sviluppo di questa tecnologia.