approfondimento

Meta ha costruito un gemello digitale del cervello umano

Tribe v2 non è solo un modello predittivo: è il primo tentativo serio di usare l’intelligenza artificiale come framework unificatore della neuroscienza cognitiva. Con tutto quello che questo implica, scientificamente, strategicamente, eticamente

Pubblicato il 27 mar 2026

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy

Il dataset fMRI su 720 persone del Courtois NeuroMod ha permesso a Tribe v2 di predire, regione per regione, la risposta cerebrale a stimoli audiovisivi anche in zero‑shot.
È un Trimodal Brain Encoder che fonde Llama 3.2, Wav2Vec2-BERT e V-JEPA 2 via transformer, offrendo risoluzione spaziale ~70× e capacità di generalizzazione in‑silico.
Il rilascio pubblico del modello, pesi e codice sotto CC BY-NC da parte di Meta FAIR accelera la ricerca ma solleva rischi etici e regolatori sull’uso per ottimizzare contenuti e influenzare l’attenzione.

Riassunto generato con AI

Immaginate 720 persone. Ognuna sdraiata dentro una macchina fMRI, immobile, con gli occhi aperti su uno schermo. Guardano film. Ascoltano podcast. Osservano immagini. Mentre lo fanno, la macchina registra in tempo reale come cambia l’attività cerebrale, milioni di voxel, migliaia di misurazioni al secondo, per ore. Alla fine si accumulano oltre 1.000 ore di dati neurali grezzi: una biblioteca silenziosa di come il cervello umano risponde al mondo.

Questo laboratorio esiste davvero. Si chiama Courtois NeuroMod, è basato a Montreal, e Meta FAIR lo ha usato come dataset fondante per costruire qualcosa che fino a pochi anni fa sarebbe sembrato fantascienza: un modello di intelligenza artificiale capace di predire con alta precisione come qualsiasi cervello umano reagisce a qualsiasi stimolo audiovisivo, anche un cervello che il modello non ha mai “visto” prima.

Si chiama Tribe v2.

Indice degli argomenti:

Il problema che nessuno vi ha raccontato

Per capire perché questa pubblicazione è importante davvero, bisogna partire da un dato scomodo che il paper ufficiale mette nero su bianco fin dall’abstract: la neuroscienza cognitiva è un campo frammentato.

Non è un’autocritica di cortesia. È una diagnosi precisa. Decenni di ricerca sul cervello hanno prodotto migliaia di modelli specializzati, uno per la visione, uno per l’elaborazione del linguaggio, uno per la risposta uditiva, uno per la memoria di lavoro. Ognuno funziona bene nel proprio dominio, ognuno costruito attorno a paradigmi sperimentali specifici. Il problema è che il cervello umano non funziona così. Il cervello integra tutto simultaneamente: vede, sente, interpreta, ricorda, anticipa, tutto insieme, tutto il tempo.

La frammentazione della neuroscienza non è un difetto dei ricercatori. È una conseguenza della complessità del problema. Costruire modelli unificati della cognizione umana è uno dei problemi più difficili della scienza. Ed è esattamente il problema che Tribe v2 prova ad attaccare.

La dichiarazione che chiude l’abstract del paper è, a questo proposito, una delle frasi più ambiziose che Meta abbia mai pubblicato in un contesto scientifico:

“These results establish artificial intelligence as a unifying framework for exploring the functional organization of the human brain.”

L’intelligenza artificiale come framework unificatore della neuroscienza. Non come strumento. Come framework. Come lingua comune che i diversi silos della ricerca sul cervello possono finalmente condividere. Questo non è un aggiornamento di modello. È una proposta di paradigma.

Cosa fa Tribe v2 in concreto

Tribe è l’acronimo di Trimodal Brain Encoder. Trimodale significa che elabora tre tipi di input in modo simultaneo e integrato: video, audio, linguaggio. Non in sequenza, non in parallelo e poi concatenati, ma fusi in una rappresentazione unificata che viene poi usata per predire l’attività cerebrale.

Per costruire questa fusione, Meta ha combinato tre dei propri modelli fondazionali: Llama 3.2 per il testo, Wav2Vec2-BERT per l’audio, V-JEPA 2 per il video. Tre sistemi che già da soli sono tra i migliori nel loro dominio, connessi attraverso un’architettura transformer che impara a correlare le rappresentazioni sensoriali con i pattern di attività fMRI registrati nei soggetti reali.

Il risultato è un modello che, dato un contenuto audiovisivo, genera una predizione di come il cervello umano lo elaborerebbe, regione per regione, con una risoluzione spaziale 70 volte superiore ai modelli predecessori, e con una capacità di generalizzazione che i sistemi precedenti non avevano.

Questa capacità di generalizzazione è il punto tecnico più rilevante. I vecchi modelli di encoding cerebrale erano essenzialmente sistemi di memorizzazione sofisticata: imparavano a predire le risposte di specifici individui a specifici tipi di stimoli. Fuori da quel perimetro, le performance crollavano.

Tribe v2 invece funziona in modalità zero-shot: esposto a un soggetto nuovo, a una lingua nuova, a un tipo di stimolo mai visto nel training, mantiene prestazioni consistenti. Non sta recuperando pattern memorizzati. Sta generalizzando una comprensione.

Il miglioramento quantitativo è quasi 2-3x rispetto ai metodi precedenti. Ma il salto qualitativo è ancora più grande: per la prima volta esiste un sistema che può essere usato come strumento di ricerca generale, non come modello costruito ad hoc per uno specifico esperimento.

La parola che vale un paragrafo da solo: in silico

C’è un termine tecnico nel titolo del paper che merita di essere estratto e spiegato, perché contiene la notizia pratica più rilevante di tutta la pubblicazione: in-silico neuroscience.

In vivo significa su organismi viventi. In vitro significa in laboratorio, su colture cellulari. In silico significa nel computer, simulato digitalmente, senza coinvolgere nessun soggetto biologico.

Quello che Tribe v2 abilita è la possibilità di fare neuroscienza in silico. Un ricercatore che vuole testare come il cervello umano risponde a una specifica sequenza visiva, un taglio di montaggio, una variazione di ritmo narrativo, una combinazione di stimoli sonori e visivi, non ha più bisogno di reclutare soggetti, ottenere consensi, prenotare ore di fMRI, aspettare mesi per raccogliere dati sufficienti.

Può farlo. In minuti.

A. L’attività cerebrale di volontari sani è stata registrata mediante risonanza magnetica funzionale
(fMRI), mentre venivano sottoposti a condizioni naturalistiche (film, podcast) e sperimentali (ad es. oggetti lampeggianti, parole isolate). B. Tribe v2 è addestrato a prevedere la fMRI ad alta risoluzione a partire da qualsiasi stimolo audio, video e/o testuale, utilizzando gli embedding di modelli di AI preaddestrati Grattafiori et al. (2024); Chung et al. (2021); Assran et al. (2025) C. Esempio della risposta cerebrale media (media su 176 soggetti) a una clip di un film (Van Essen et al., 2013) e della corrispondente previsione zero-shot di Tribe v2

Il paper lo dimostra su un test particolarmente significativo: Tribe v2 è stato testato su paradigmi sperimentali classici della neuroscienza, esperimenti che hanno richiesto decenni di lavoro empirico per essere stabiliti, e ha replicato i risultati autonomamente, senza che nessuno gli avesse fornito quei dati. Il modello, avendo imparato la logica di fondo del funzionamento cerebrale, “ritrova” da solo risultati che la comunità scientifica ha costruito in sessant’anni di ricerca.

Questo non vuol dire che la sperimentazione su esseri umani diventa obsoleta. Vuol dire che il ciclo della ricerca può accelerare radicalmente: le ipotesi vengono prima filtrate in silico, e solo quelle più promettenti vengono portate in laboratorio. Il collo di bottiglia della neuroscienza, il costo enorme di ogni esperimento su soggetti reali, si allarga.

Tribe v2 prevede con precisione le risposte fMRI in tutto il cervello. A. Punteggi di codifica in varie regioni importanti della corteccia, secondo la suddivisione in aree dell’HCP (per maggiori dettagli, cfr. la figura 8 dell’Appendice), codificati con colori diversi sulla superficie corticale a sinistra. Le barre di errore indicano l’errore standard della media (SEM) tra i partecipanti di tutti gli studi. B. Punteggi di codifica nelle 8 regioni subcorticali considerate, codificati a colori nella figura a sinistra. Le barre di errore indicano l’SEM
tra i partecipanti di tutti gli studi. C. Punteggi di codifica mediati per soggetto nelle regioni corticali e subcorticali per le quattro condizioni nel set di dati di addestramento. D. Punteggi medi di codifica dei singoli soggetti (punti) per TRIBE v2 e una linea di base lineare classica. E. Leggi di scala della codifica cerebrale. Punteggio di codifica medio di TRIBE v2 sul set di dati Algonauts, all’aumentare del numero di ore di dati di addestramento utilizzati per partecipante. La barra di errore indica la SEM tra i soggetti.

Meta non fa questo per caso

Fin qui la scienza. Adesso l’analisi.

Meta FAIR, il braccio di ricerca fondamentale di Meta, produce lavoro scientifico genuino e di altissimo livello. Non c’è ragione di dubitarne. Ma Meta è anche una delle più grandi macchine pubblicitarie della storia, costruita interamente sulla capacità di catturare e mantenere l’attenzione umana attraverso contenuti audiovisivi.

Tenere questi due fatti separati sarebbe ingenuo.

Il primo punto è tecnico, e vale la pena sottolinearlo: i tre modelli che compongono TRIBE v2, Llama, Wav2Vec-BERT, V-JEPA, non sono stati scelti perché erano i migliori in assoluto sul mercato. Sono stati scelti perché sono i modelli di Meta. Tribe v2 è costruito interamente sull’infrastruttura tecnologica di Meta. E quella stessa infrastruttura alimenta Instagram, Reels, Facebook, WhatsApp.

Il paper dichiara esplicitamente uno degli obiettivi del progetto: usare gli insight del cervello umano per costruire sistemi di intelligenza artificiale migliori. È scritto senza ambiguità nel blog di annuncio: “apply brain insights to build better AI systems”. Il loop è chiaro: l’AI studia come funziona il cervello, e quello che impara torna dentro l’AI per renderla più efficace.

Tribe v2 generalizza le previsioni zero-shot a nuovi compiti e soggetti e può essere ottimizzato su una piccola quantità di dati per migliorare le previsioni personalizzate. A. A sinistra: correlazione di Pearson tra (i) la risposta cerebrale al parlato di un singolo soggetto k e (ii) la risposta cerebrale media del resto della coorte. Ogni punto rappresenta un soggetto. Le barre rappresentano la correlazione tra la risposta media della coorte e le previsioni zero-shot di Tribe v2 (verde) e la sua controparte lineare (rosso). A destra: mappa corticale dei punteggi ottenuti, mediati tra i set di dati. B. Come in A, ma per i video invece che per il parlato. C. A sinistra: punteggi di codifica di Tribe v2 per tutti i soggetti dei set di dati di parlato non visti (ogni punto rappresenta un soggetto e le linee orizzontali rappresentano la media). Confrontiamo i risultati ottenuti con un modello lineare (sia zero-shot che addestrato da zero) con quelli ottenuti con Tribe v2 (sia zero-shot che ottimizzato su metà dei dati dei soggetti non visti). A destra: mappa corticale dei punteggi ottenuti, mediati tra i set di dati. D. Come C ma per i video invece che per il parlato

Più efficace a fare cosa? Dipende da chi la usa. Per un medico che lavora su disturbi neurologici, significa diagnosi più precisa. Per un ricercatore, significa esperimenti più veloci. Per un sistema di raccomandazione di contenuti, significa capire meglio quale stimolo audiovisivo genera quale risposta cerebrale, e ottimizzare di conseguenza.

Nessuno sta accusando Meta di nulla. La ricerca è pubblica, il codice è rilasciato sotto licenza CC BY-NC, il paper è su ArXiv. È tutto trasparente. Ma la domanda strutturale rimane, e sarebbe disonesto non porla: l’azienda che possiede la piattaforma di distribuzione di contenuti audiovisivi più grande al mondo ha appena costruito il modello più avanzato esistente per predire come il cervello umano risponde ai contenuti audiovisivi. È una coincidenza? O è una direzione?

Tribe v2 ricostruisce, in silico, una varietà di risultati nel campo delle neuroscienze visive. Tribe v2 è stato testato su vari localizzatori funzionali visivi, ciascuno estratto dal dataset Individual Brain Charting (IBC) (Pinho et al., 2018). Le immagini sperimentali vengono visualizzate per 1 secondo, con un intervallo di 8 secondi, e un modello lineare generale (GLM) viene adattato alla serie temporale prevista per ottenere mappe di contrasto con punteggio z (vedere la sezione 5.9 per i dettagli). A. Risposta evocata media alle immagini del compito FaceBody. B. Esempi di immagini di ciascuna categoria. Le immagini sono tratte dai compiti FaceBody e Visu del set di dati IBC. C. Mappe di contrasto ottenute dalle previsioni di Tribe. D. Mappe di contrasto calcolate sul set di dati IBC, con media tra partecipanti e prove. E. Corrispondenza numerica tra i valori reali e i punteggi z previsti. Ogni punto rappresenta uno dei 360 compartimenti della parcellizzazione HCP (Glasser et al., 2016), e i punteggi z sono mediati per tutti i vertici corticali che ricadono all’interno del compartimento. I compartimenti funzionalmente rilevanti sono indicati a colori, con l’indicatore che specifica l’emisfero. Correlazioni più elevate tra i modelli di attività cerebrale reali e quelli previsti indicano migliori esperimenti in silico zero-shot.

La scoperta che nessuno aveva pianificato

C’è un dettaglio nel paper che ho trovato il più affascinante di tutti, e che nelle sintesi di oggi è quasi completamente sparito.

Quando i ricercatori hanno analizzato le feature latenti interne a Tribe v2, le rappresentazioni che il modello costruisce internamente mentre elabora gli input, hanno trovato qualcosa che non stavano cercando: una mappa dettagliata di come il cervello umano integra i segnali multisensoriali. Una topografia fine dell’integrazione tra vista, suono e linguaggio.

Questa non era l’ipotesi di ricerca originale. Era un risultato emergente. Il modello, imparando a predire le risposte cerebrali, aveva da solo organizzato internamente le proprie rappresentazioni in modo coerente con la struttura funzionale del cervello. Aveva “scoperto” qualcosa sulla neuroanatomia dell’integrazione sensoriale come effetto collaterale del proprio training.

È uno dei pattern più interessanti che l’era dei grandi modelli ha portato alla scienza: i modelli che imparano da dati reali a sufficiente scala tendono a internalizzare strutture del mondo che nessuno ha esplicitamente insegnato loro. GPT ha “scoperto” strutture grammaticali che i linguisti dibattevano da decenni. AlphaFold ha risolto il problema del folding proteico che la biologia non riusciva ad affrontare. Tribe v2 ha trovato la mappa dell’integrazione multisensoriale come sottoprodotto di un task predittivo.

Questo suggerisce qualcosa di più profondo: che il confine tra modellazione e scoperta scientifica si sta assottigliando. Un modello sufficientemente generale, addestrato su dati sufficientemente ricchi, non si limita a predire, comincia a capire.

La domanda che dobbiamo porci

Meta ha rilasciato tutto: modello, pesi, codice sorgente, paper, demo interattiva. Il gesto è generoso, o almeno, lo è nella forma. La sostanza è più complessa: rilasciare sotto CC BY-NC significa che chiunque può usarlo per ricerca accademica, ma non per applicazioni commerciali. Meta rimane libera di usarlo come meglio crede nelle proprie piattaforme.

L’open science come strategia di ecosistema non è una novità. Meta lo fa sistematicamente con Llama, con PyTorch, con decine di altri progetti FAIR. Il rilascio pubblico crea community, attira talenti, genera contributi esterni, costruisce reputazione scientifica. È una mossa intelligente, non necessariamente disonesta, ma non neutrale.

La domanda finale è questa: se un sistema può simulare con precisione crescente come il tuo cervello risponde a un contenuto, a un video, a una sequenza sonora, a una combinazione di stimoli linguistici e audiovisivi, prima ancora che tu lo veda, dove finisce la comprensione del comportamento umano e dove inizia la sua ingegnerizzazione?

Non è una domanda retorica. È la domanda che la neuroscienza computazionale, l’etica dell’AI e la regolamentazione dei media dovranno affrontare nei prossimi anni. Tribe v2 non è la risposta. È il momento in cui la domanda diventa urgente.

Fonti

• Paper ufficiale Meta FAIR: “A foundation model of vision, audition, and language for in-silico neuroscience” (ArXiv, 26 marzo 2026)

• Blog Meta AI: ai.meta.com/blog/tribe-v2-brain-predictive-foundation-model

• Demo interattiva: aidemos.atmeta.com/tribev2

@RIPRODUZIONE RISERVATA

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy

Fabio Lalli è consulente in innovazione e AI, con oltre venticinque anni di esperienza nello sviluppo di prodotti digitali e nella trasformazione delle organizzazioni.

Ha fondato diverse realtà nel corso della sua carriera e completato un exit imprenditoriale nel settore digitale. Oggi guida Iconico, società specializzata nel supporto a startup e imprese nei processi di crescita, validazione di prodotto e go-to-market, e ZeroFive.ai, studio di consulenza strategica focalizzato sull’adozione dell’AI e sulla progettazione di architetture e modelli operativi aumentati dall’intelligenza artificiale.

Collabora con aziende di diversi settori su temi di AI transformation, modelli organizzativi, framework decisionali e misurazione dell’impatto economico delle tecnologie emergenti.