L’agentic AI promette di trasformare l’intelligenza artificiale da strumento reattivo a sistema capace di pianificare, coordinare azioni e interagire con software, dati e altri agenti. È una promessa potente, ma porta con sé una domanda meno spettacolare e molto più industriale. Quanto costa davvero far lavorare un agente quando il suo compito non si esaurisce in una risposta, ma in una sequenza di decisioni, verifiche, chiamate a strumenti esterni e passaggi di controllo?
Nel primo ciclo della generative AI molte imprese hanno misurato il valore soprattutto sulla qualità dell’output. Con i sistemi agentici questo criterio non basta più. Un agente può scomporre un task, interrogare una base documentale, richiamare un’API, scrivere un piano, correggerlo, confrontarlo con una policy e chiedere l’intervento di un altro agente.
Ogni passaggio consuma token, tempo macchina, memoria, rete e supervisione. La tokenomics, letta in questo contesto, non è la vecchia economia dei token delle criptovalute. È la disciplina che misura il rapporto tra risorse linguistiche e computazionali consumate e valore operativo prodotto.
Indice degli argomenti:
Dal pilota brillante al costo per processo
La differenza tra una demo convincente e un processo industriale sta spesso nel costo unitario. In una dimostrazione si osserva il risultato. In produzione bisogna capire quante iterazioni sono servite per ottenerlo, quali modelli sono stati coinvolti, quanto contesto è stato inviato, quante chiamate a strumenti sono state generate e quanta supervisione umana è rimasta necessaria. Un workflow agentico può sembrare efficace su scala ridotta e diventare fragile quando viene eseguito migliaia di volte al giorno.
La survey globale 2025 di McKinsey descrive bene questa fase intermedia. L’uso dell’AI è ormai esteso, ma la transizione dal pilota all’impatto su scala resta incompleta per molte organizzazioni. Il dato sugli agenti è indicativo. Una quota crescente di imprese sta sperimentando o scalando sistemi agentici, ma l’adozione diffusa nelle funzioni aziendali è ancora limitata. Questo scarto tra entusiasmo e maturità operativa rende centrale la misurazione dei costi. Senza unit economics del caso d’uso, la scala rischia di trasformare un successo tecnico in una perdita ricorrente.
Il token come metrica incompleta ma indispensabile
Il token non racconta tutto, ma rende visibile molto. Nei modelli linguistici è l’unità pratica con cui si misurano input, output e spesso fatturazione. In un sistema agentico diventa anche una spia della complessità architetturale. Troppi token in ingresso possono indicare contesto sovradimensionato. Troppi token in uscita possono rivelare passaggi inutilmente verbosi. Troppe iterazioni possono segnalare un agente mal progettato o un task non sufficientemente delimitato.
Per questo il costo per task è più utile del costo astratto per milione di token. Un processo reale include prompt di sistema, istruzioni, memoria conversazionale, documenti recuperati, descrizioni degli strumenti, output intermedi, log e controlli. La quantità di token cresce soprattutto quando l’agente non riceve solo una domanda, ma deve mantenere uno stato operativo lungo una sequenza di azioni. La progettazione economica inizia qui, distinguendo il contesto necessario dal rumore che accompagna il sistema per abitudine o prudenza eccessiva.
Contesto, caching e strumenti caricati con misura
Uno dei principali fattori di spreco è il contesto caricato senza selezione. La paura che l’agente sappia troppo poco induce spesso a fornirgli documenti interi, cronologie estese, policy ridondanti e descrizioni di strumenti non pertinenti. Il risultato può essere un costo più alto, una latenza maggiore e una qualità non necessariamente migliore. Nei workflow agentici, questo spreco si moltiplica perché ogni passaggio può ereditare o ampliare il contesto precedente.
Le tecniche di prompt caching mostrano perché il design del contesto sia ormai lavoro di architettura, non semplice prompt engineering.
OpenAI e Anthropic documentano approcci che riutilizzano porzioni stabili del prompt, riducendo latenza e costo quando istruzioni, esempi o contesti ricorrenti restano invariati. Google, nella progettazione di framework multi-agente per la produzione, descrive una separazione tra prefissi stabili e contenuto variabile che consente di trattare la cache come vincolo di sistema.
Anche la gestione degli strumenti segue la stessa logica. Se tutte le definizioni dei tool vengono caricate in anticipo, l’agente consuma token prima ancora di iniziare il lavoro. La scoperta selettiva degli strumenti riduce overhead e rischio di scelta errata.
Non tutti i task meritano il modello più costoso
La tokenomics diventa più matura quando smette di guardare solo alla quantità di token e considera la gerarchia dei modelli. Non ogni attività richiede lo stesso livello di ragionamento, la stessa finestra di contesto o la stessa latenza. Classificazione, estrazione strutturata, riassunto preliminare, ricerca documentale e validazione formale possono spesso essere assegnati a modelli diversi o a componenti deterministici. La qualità va preservata, ma non sempre il modello più potente è la scelta più razionale.
Le linee guida cloud più recenti insistono su questo punto. AWS raccomanda di scegliere modelli e paradigmi di inferenza coerenti con i requisiti reali, evitando capacità eccedenti che non producono valore proporzionato. Google Cloud descrive l’ottimizzazione dell’inferenza come una combinazione di scelte infrastrutturali, compressione dei modelli, batching, gestione della memoria e monitoraggio. In un sistema agentico, queste tecniche entrano nella logica dell’orchestrazione. Il routing decide quale modello usare, quando fermare una catena di ragionamento, quando passare a un tool e quando chiedere una validazione umana.
Il costo fisico dell’AI non resta fuori dal bilancio
La tokenomics non può essere separata dall’infrastruttura che la sostiene. Dietro ogni inferenza ci sono data center, acceleratori, sistemi di raffreddamento, connessioni di rete e approvvigionamento elettrico. Secondo l’Agenzia Internazionale dell’Energia, la domanda elettrica dei data center è cresciuta del 17 per cento nel 2025, mentre quella dei data center focalizzati sull’AI è aumentata più rapidamente. La stessa analisi indica che il consumo dei data center potrebbe raddoppiare entro il 2030, con una crescita ancora più marcata per le strutture dedicate all’AI.
Il rapporto Energy and AI dell’IEA stima inoltre che l’elettricità necessaria ad alimentare i data center globali possa passare da 460 TWh nel 2024 a oltre 1.000 TWh nel 2030 nello scenario base. Sono numeri che non trasformano automaticamente ogni applicazione AI in un problema ambientale, ma chiariscono una tendenza. L’efficienza per task sta migliorando, mentre l’uso complessivo cresce ancora più rapidamente. Gli agenti contribuiscono a questa dinamica perché possono aumentare il numero di inferenze per processo, soprattutto quando autonomia, tool calling e cicli di verifica vengono usati senza disciplina.
FinOps per AI, quando la spesa diventa osservabile
La gestione economica dell’Agentic AI richiede strumenti diversi da quelli usati per il software tradizionale. Le pratiche FinOps per AI nascono proprio per collegare team tecnici, finanza, prodotto e management attorno a una visione condivisa dei costi. La FinOps Foundation segnala che la spesa AI è ormai gestita da una quota crescente di practitioner, con un passaggio netto rispetto all’anno precedente. Il problema non è solo stimare il budget, ma renderlo attribuibile a casi d’uso, team, applicazioni e decisioni architetturali.
Questa trasparenza cambia il comportamento dei team. Quando il costo è visibile, diventa più facile individuare prompt troppo lunghi, retry anomali, modelli sovradimensionati, tool chiamati senza necessità o processi che richiedono più supervisione del previsto. Il controllo della spesa non è un freno all’innovazione. Nei casi migliori diventa una forma di igiene progettuale, perché costringe a definire meglio i task, misurare la qualità utile e separare ciò che serve da ciò che aggiunge solo complessità.
Scalare senza bruciare margini e fiducia
La sfida dell’Agentic AI non sarà solo costruire agenti più autonomi. Sarà capire quanta autonomia conviene concedere, a quale costo e con quali limiti. Un sistema che usa molti passaggi per produrre un beneficio marginale può essere affascinante dal punto di vista tecnico e debole dal punto di vista industriale. Al contrario, un’architettura sobria, capace di scegliere il modello giusto, recuperare solo il contesto necessario, riutilizzare ciò che può essere cached e fermarsi quando il risultato è sufficiente, può scalare con maggiore credibilità.
La tokenomics diventa così una grammatica economica della nuova automazione cognitiva. Non sostituisce la valutazione qualitativa, la governance o la sicurezza, ma le affianca con una metrica concreta. Quanto costa pensare, richiamare memoria, usare strumenti, verificare e decidere? La risposta a questa domanda determinerà quali sistemi agentici resteranno esperimenti brillanti e quali diventeranno infrastrutture affidabili dell’impresa digitale.
Bibliografia
Anthropic, Introducing advanced tool use on the Claude Developer Platform
International Energy Agency, Data centre electricity use surged in 2025
International Energy Agency, Energy and AI
International Energy Agency, Energy supply for AI
FinOps Foundation, State of FinOps Report 2025
FinOps Foundation, Cost Estimation of AI Workloads
FinOps Foundation, Effect of Optimization on AI Forecasting
McKinsey, The State of AI: Global Survey 2025
OECD, The agentic AI landscape and its conceptual foundations
AWS, Cost optimization – Generative AI Lens
AWS, Effective cost optimization strategies for Amazon Bedrock
Google Cloud, What is inference optimization?
Google Developers Blog, Architecting efficient context-aware multi-agent framework for production






