Settecentocinquanta richieste, scritte da scienziati con un dottorato e anni passati nei laboratori di aziende biotech e farmaceutiche, ciascuna formulata come la porresti a un collega di cui ti fidi: interpreta questi dati di spatial transcriptomics da un tumore della cervice e dimmi quali due terapie a bersaglio hanno più senso per questo paziente, smonta voce per voce il pacchetto regolatorio di una terapia genica per la distrofia di Duchenne e indica dove non regge, progetta i primer per assemblare in frame tre frammenti con un Golden Gate. Su questo materiale, il modello che se la cava meglio supera il 36,1% dei compiti. Centosettantuno task, il 22,8% del totale, non vengono risolti da nessuno dei cinque sistemi messi alla prova.
scenari
LifeSciBench, il benchmark che misura l’AI sulla ricerca biologica reale
Messo a punto da OpenAI: 750 compiti scritti da scienziati con dottorato per misurare se i modelli reggono il lavoro reale della ricerca nelle scienze della vita. Il migliore, GPT-Rosalind, supera il 36% dei task e nessuno dei cinque ne risolve 171. Forti su sintesi e interpretazione, cedono su artefatti, output esatti e decisioni operative
Consulente in trasformazione digitale – AI & product strategy

Continua a leggere questo articolo
Argomenti
Canali






