ai leader

Dall’AI generativa all’Agentic AI: architetture, agenti e nuove sfide

L’evoluzione accelerata dell’intelligenza artificiale fino all’Agentic AI: definizioni, architetture e casi d’uso. Attraverso esempi storici e tecnici, gli agenti sono descritti come ecosistemi modulari basati su LLM, evidenziando differenze con RPA e LAM, modelli di implementazione, limiti attuali e sfide future legate a governance, reasoning e Web of Machines industriali, etiche e organizzative

Pubblicato il 9 feb 2026

Manuel Roveri

responsabile della ricerca – Osservatorio Artificial Intelligence – Politecnico di Milano

Otto anni fa, esattamente in questo periodo dell’anno, durante la prima edizione dell’Osservatorio IIAI, il comitato scientifico introdusse una definizione di intelligenza artificiale : “L’IA è il ramo della computer science che studia lo sviluppo di sistemi hardware e software dotati di capacità tipiche dell’essere umano e in grado di perseguire autonomamente una finalità definita, prendendo decisioni che fino a quel momento erano solitamente affidate agli esseri umani”.

È una definizione molto complessa, molto ricca, con tanti spunti. Vorrei porre l’accento sull’ultima parte: “fino a quel momento”. Introduciamo quindi il concetto di tempo, che è centrale nel mio intervento.

Il tempo lo estendiamo al concetto di velocità e accelerazione della ricerca scientifica e dell’evoluzione tecnologica.

Indice degli argomenti:

Tre numeri per tre esempi

Vi racconto tre esempi attraverso tre numeri.
Il primo: sono passati 30 anni tra l’introduzione del perceptrone e l’algoritmo di backpropagation, che ha permesso di addestrare le reti in modo efficace ed efficiente, portando a pieno compimento il paradigma del machine learning.
Il secondo: sono passati 15 anni tra l’introduzione delle prime reti di deep learning, in particolare le reti convoluzionali, e il loro sorpasso rispetto alla computer vision tradizionale, completando il paradigma del deep learning.
Il terzo: sono passati 6 anni tra la pubblicazione del paper “Attention Is All You Need”, che ha introdotto l’architettura Transformer alla base dell’IA generativa, e l’arrivo di GPT.

È proprio questa accelerazione della ricerca scientifica che nel 2024 ci porta a parlare di Agentic AI. Nel novembre 2024 si parlava di agenti come di un paradigma di IA in grado di portare a pieno compimento l’IA generativa. Esattamente un anno dopo, era già possibile trovare su YouTube video che insegnavano a un bambino di cinque anni come costruire il proprio agente AI. È quindi opportuno fare un po’ di chiarezza e definire meglio il concetto di agente AI.

Agenti AI, cosa sono veramente

Proviamo a farlo da una prospettiva scientifica, citando la definizione di Andrew Ng sull’Agentic AI:
“L’Agentic AI rappresenta un nuovo modo di sviluppare software che sfrutta i Large Language Model per completare parte o tutti i passi di task complessi.
Invece di generare singole risposte, i flussi agentici permettono all’AI di pianificare processi multi-step, eseguirli in modo iterativo, migliorare gli output e valutarli attraverso meccanismi di autovalutazione”.

Questa definizione ci fornisce i quattro ingredienti principali degli agenti:

Large Language Model,
task complessi,
elaborazioni multi-step
capacità di autovalutazione.

Tre prospettive attuali

La prima è la RPA avanzata, ovvero l’integrazione dell’automazione documentale con i Large Language Model. Esistono strumenti in cui un agente può, ad esempio, intercettare la ricezione di un’email e attivare un processo successivo tramite estrazione semantica. In questo caso, però, la struttura è ancora molto rigida e le capacità di autovalutazione non sono pienamente sviluppate.

Il secondo esempio riguarda gli Small Language Model. Un paper di Nvidia e Cortical cita l’uso di modelli semplificati e verticalizzati come ingredienti chiave dell’Agentic AI. Questi modelli funzionano come moduli all’interno di task complessi, ma sia l’elaborazione multi-step sia l’autovalutazione non sono ancora complete.

La terza prospettiva è quella dei Large Action Model (LAM), agenti dotati della capacità di computer use, ovvero di utilizzare direttamente il nostro computer.

Un esempio di Microsoft del gennaio 2025 chiarisce bene la differenza tra LLM e LAM: se il prompt è “voglio comprare una giacca da uomo”, un LLM genera soltanto testo con la sequenza di passi da seguire; un Large Action Model, invece, compie azioni, prende il controllo del browser, digita l’URL, clicca sulle categorie e procede con l’acquisto.

Iniziamo quindi ad avere capacità di autovalutazione, con la possibilità di retry nel caso in cui un’azione fallisca. Tuttavia, i task complessi restano difficili da gestire, perché richiedono interfacce ben definite e stabili nel tempo.

Che cos’è dunque l’Agentic AI? Un agente AI è un ecosistema tecnologico, in cui l’agente non è un monolite, ma il risultato dell’orchestrazione di moduli coordinati attraverso un motore cognitivo. L’ingrediente principale è l’uso del Large Language Model non per generare contenuti, ma per generare ragionamento. Grazie a questo, i modelli possono interpretare gli obiettivi dell’utente, pianificare, eseguire strategie e valutare i risultati.

Le architetture software

Dal punto di vista tecnologico, possiamo parlare di architetture software. L’architettura agentica si compone di quattro moduli principali:

motore cognitivo,
memoria,
orchestratore,
strumenti e interfacce.
Il motore cognitivo fornisce le capacità di ragionamento: esistono modelli specializzati nel reasoning, più lenti ma più accurati, e modelli più veloci specializzati nella chiamata di funzioni.
La memoria si articola in due grandi ambiti: i database vettoriali per la memoria semantica a lungo termine e i Knowledge graph per definire il contesto e ridurre le allucinazioni.
L’orchestratore rappresenta il sistema nervoso dell’architettura: un framework software che coordina memoria, task e valutazione delle azioni.
Gli strumenti e le interfacce sono i connettori che permettono all’agente di interagire con il mondo esterno, trasformando i passi decisionali in azioni tramite API e protocolli. Tra questi, è fondamentale citare l’MCP (Model Context Protocol).

Vista con gli occhi della computer science, questa architettura è praticamente identica alla classica architettura di Von Neumann: il motore cognitivo è l’unità di elaborazione, la memoria è la memoria, l’orchestratore è il bus di sistema e gli strumenti sono le periferiche.

La differenza cruciale è il passaggio da una computazione deterministica – basata su sequenza, selezione e ripetizione – a una computazione probabilistica. In un sistema classico, se una fattura è sotto i 10.000 euro viene pagata, altrimenti passa all’uomo. Con un motore cognitivo, invece, lasciamo che il Large Language Model identifichi anomalie nella descrizione in modo probabilistico, supportando la decisione.

Tre prospettive di implementazione

La prima è quella centralizzata (Agent as a Service): tramite API ci si connette a un sistema “black box”, in un approccio simile a quello di OpenAI.
La seconda è pervasiva: i moduli vengono scorporati e integrati nelle soluzioni specifiche di un’azienda, in un approccio più vicino a Google.
La terza è open source: si utilizzano moduli e architetture completamente aperti, superando il vincolo del lock-in. Questo sposta l’azienda dal ruolo di semplice utilizzatore a quello di progettista e gestore di architetture di AI.

Le sfide dell’Agentic AI

In chiusura, l’Agentic AI deve ancora affrontare due grandi sfide. La prima è che si basa sui Large Language Model: finché non supereremo i loro limiti e le loro criticità, gli agenti rischieranno di fallire perché il motore interno non funziona in modo affidabile. È necessario integrare capacità logiche più robuste, seguendo il concetto di Sistema 1 e Sistema 2 di Kahneman.

La seconda sfida riguarda il passaggio dal controllo del cursore su siti pensati per gli esseri umani al cosiddetto Web of Machines, in cui gli agenti accedono a servizi e dati standardizzati per le macchine. Finché queste sfide non saranno risolte, la governance resterà sempre in capo all’uomo (human-in-the-loop), anche se l’agente gestirà la parte operativa.

Intervento tratto dal Convegno: “Artificial intelligence: adozione, trasformazione, equilibrio” dell’Osservatorio Artificial Intelligence del Politecnico di Milano – 5 febbraio 2026

@RIPRODUZIONE RISERVATA