I modelli linguistici di grandi dimensioni (LLM) con finestre di contesto estese promettono di rivoluzionare lo sviluppo software, permettendo di inserire milioni di token in un singolo prompt. Tuttavia, la vera sfida è capire quanto questi modelli comprendano e utilizzino le informazioni ricevute. Google DeepMind ha introdotto Michelangelo, un benchmark innovativo per valutare le capacità di ragionamento su contesti lunghi degli LLM.
tecnologiA
Il benchmark Michelangelo di DeepMind svela le limitazioni dei LLM a lungo contesto
I modelli linguistici di grandi dimensioni (LLM) con finestre di contesto molto estese stanno attirando l’attenzione per le loro potenzialità. Tuttavia, il nuovo benchmark evidenzia le loro limitazioni nel ragionamento su contesti lunghi, nonostante i progressi nella capacità di recuperare informazioni

Continua a leggere questo articolo
Argomenti
Canali



