analisi

Modelli AI, dal costo per token al costo per task: la nuova competizione



Indirizzo copiato

Aziende e startup stanno combinando modelli frontier, modelli open-weight e sistemi interni per ridurre i costi dell’AI. La pressione sui prezzi cambia il mercato e costringe OpenAI, Anthropic e gli altri fornitori a difendere il valore dei modelli premium

Pubblicato il 12 giu 2026



LLM efficienti futuro
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti


La competizione sull’intelligenza artificiale generativa sta entrando in una fase meno spettacolare e più decisiva: quella dei costi unitari. Dopo due anni dominati dalla corsa ai modelli più potenti, aziende e startup stanno iniziando a trattare l’AI come una voce industriale da ottimizzare, scegliendo di volta in volta il modello più economico capace di completare un compito con qualità sufficiente.

La pressione investe direttamente i fornitori frontier. Secondo il Wall Street Journal, OpenAI starebbe valutando tagli significativi ai prezzi dei propri servizi, mentre anche Anthropic sarebbe attesa a una revisione delle tariffe. Il segnale arriva mentre imprese e sviluppatori adottano strumenti di model routing, sistemi che distribuiscono le richieste tra modelli premium, modelli low-cost e soluzioni interne costruite su modelli a pesi aperti.

Perché i prezzi dei modelli AI diventano un problema industriale

Il costo dell’AI non si misura più solo nella tariffa per milione di token. Per un’impresa che usa agenti software, assistenti di coding, sistemi di customer care o automazioni documentali, il conto dipende da quante chiamate vengono eseguite, dalla lunghezza dei contesti, dai tentativi falliti, dalle verifiche successive e dal modello usato in ogni passaggio.

Il divario resta ampio. I listini ufficiali indicano per OpenAI GPT-5.5 un prezzo standard di 5 dollari per milione di token in input e 30 dollari per milione di token in output. Anthropic indica per Claude Fable 5, disponibile dal 9 giugno 2026, 10 dollari per milione di token in input e 50 dollari in output. DeepSeek, nella propria documentazione API, mostra invece per DeepSeek V4 Pro 0,435 dollari per milione di token in input non cache e 0,87 dollari in output; per DeepSeek V4 Flash si scende a 0,14 dollari in input e 0,28 dollari in output.

Questa forbice spiega perché molte aziende non stanno sostituendo integralmente i modelli frontier, ma stanno segmentando i carichi di lavoro.

ModelloPrezzo input per 1 milione di tokenPrezzo output per 1 milione di tokenLettura industriale
Anthropic Claude Fable 510 dollari50 dollariModello premium per reasoning e agenti complessi
OpenAI GPT-5.55 dollari30 dollariModello frontier per attività ad alta complessità
Anthropic Claude Sonnet 4.63 dollari15 dollariFascia intermedia per velocità e qualità
DeepSeek V4 Pro0,435 dollari0,87 dollariAlternativa low-cost per workload ad alto volume
DeepSeek V4 Flash0,14 dollari0,28 dollariOpzione economica per task ripetitivi e routing

Dal prezzo per token al costo per task

La metrica più rilevante per le imprese sta diventando il costo per task completato. Un modello più caro può risultare conveniente se conclude un’attività complessa con meno passaggi, meno errori e meno interventi umani. Un modello economico diventa preferibile quando il compito è ripetibile, misurabile e tollera controlli automatici o fallback verso un modello superiore.

I dati di produzione pubblicati da Vercel nell’AI Gateway Production Index di giugno 2026 mostrano bene questa dinamica. A maggio, i token totali gestiti dal gateway sono cresciuti del 20% mese su mese e la spesa del 43%. Nello stesso periodo, la quota di DeepSeek è salita da meno dell’1% al 17% dei token, mentre la sua quota di spesa è rimasta intorno all’1%. Anthropic, al contrario, ha mantenuto una forte concentrazione della spesa: dal 61% al 65% nel mese, con il 70-80% dei costi nei casi d’uso più sensibili, tra coding agent, back-office agent e generazione di applicazioni AI.

La conseguenza è chiara: i modelli economici assorbono volume, i modelli premium catturano ancora una parte rilevante del valore. Il punto di equilibrio dipende dalla capacità delle imprese di misurare qualità, latenza, affidabilità e costo complessivo del processo.

Il ruolo dei modelli a pesi aperti

La pressione competitiva arriva soprattutto dai modelli a pesi aperti e dai provider che li rendono disponibili tramite API a basso costo. DeepSeek è il caso più evidente, ma il fenomeno coinvolge anche modelli cinesi, modelli occidentali open-weight e nuove famiglie progettate per essere specializzate o integrate in agenti.

Il preprint State of AI: An Empirical 100 Trillion Token Study with OpenRouter, pubblicato su arXiv nel dicembre 2025 da Malika Aubakirova, Alex Atallah, Chris Clark, Justin Summerville e Anjney Midha, analizza oltre 100 trilioni di token su OpenRouter attraverso metadati anonimizzati. Lo studio osserva una crescita rilevante dei modelli open-weight e descrive un mercato ormai plurale, in cui gli utenti scelgono lungo più assi: capacità, prezzo, latenza, disponibilità e fiducia.

La stessa ricerca segnala che i modelli proprietari restano forti nei workload ad alto valore, mentre i modelli aperti presidiano l’area low-cost e high-volume. È una distinzione importante per le imprese: la riduzione dei costi non nasce solo dal cambiare fornitore, ma dalla progettazione di architetture capaci di assegnare il modello corretto a ogni sotto-attività.

La risposta dei grandi fornitori

OpenAI e Anthropic non sono ferme. Entrambe offrono già modelli con livelli di prezzo diversi, caching, batch processing e opzioni pensate per ridurre il costo effettivo. Il problema è che la concorrenza sta accelerando anche fuori dal perimetro dei laboratori frontier.

Microsoft AI ha annunciato il 2 giugno 2026 una famiglia di sette modelli sviluppati internamente, a partire da MAI-Thinking-1. Nvidia spinge su Nemotron, una famiglia di modelli aperti con pesi, dati e ricette di training disponibili, presentata come infrastruttura efficiente per agenti specializzati. Nel comunicato su Nemotron 3, Nvidia indica per Nemotron 3 Nano un’architettura pensata per ridurre i costi di inferenza, con throughput fino a quattro volte superiore rispetto a Nemotron 2 Nano e una riduzione fino al 60% dei token di reasoning generati.

Queste mosse mostrano che la competizione non si limita ai listini. Si gioca su efficienza architetturale, disponibilità di modelli specializzati, integrazione con cloud e hardware, strumenti di valutazione e capacità di controllare i dati aziendali.

Cosa cambia per imprese e fornitori

Per i chief information officer e i responsabili AI, la nuova fase richiede una disciplina più vicina al FinOps che alla sperimentazione pura. Ogni applicazione dovrebbe distinguere tra task commodity, task sensibili, task ad alto rischio e task che richiedono capacità frontier. Senza questa classificazione, il rischio è usare modelli costosi dove non servono o, al contrario, modelli economici dove l’errore costa più del risparmio.

Citadel Securities, nel commento Tokenomics del 10 giugno 2026 firmato Frank Flight, interpreta il recente calo del Silicon Data LLM Expenditure Index come un possibile effetto dello spostamento verso modelli meno costosi. Il segnale non indica necessariamente una frenata dell’adozione dell’AI: può indicare una fase in cui le aziende imparano a comprare capacità in modo più selettivo.

Per OpenAI, Anthropic e gli altri laboratori frontier, la sfida diventa difendere il premium price con risultati misurabili. I benchmark generali contano meno quando i clienti valutano un modello sulla base di task reali: ticket risolti, codice accettato, email classificate correttamente, documenti elaborati senza revisione, agenti completati entro budget.

La guerra dei prezzi dei modelli AI non riduce l’importanza dei sistemi più avanzati. Riduce però lo spazio per venderli come scelta predefinita. Nel mercato che si sta formando, il valore si sposta verso chi sa orchestrare modelli diversi, misurare il costo per risultato e mantenere controllo su qualità, sicurezza e governance.

Fonti:

Wall Street Journal sulla price war AI (wsj.com);

OpenAI API pricing (openai.com);

Anthropic Claude models and pricing (docs.anthropic.com);

DeepSeek API pricing (api-docs.deepseek.com);

Vercel AI Gateway Production Index giugno 2026 (vercel.com);

OpenRouter State of AI / arXiv (arxiv.org);

Citadel Securities, Tokenomics (citadelsecurities.com);

Microsoft AI, sette nuovi modelli MAI (microsoft.ai);

Nvidia Nemotron (nvidianews.nvidia.com)

Partecipa alla community

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x