analisi

Project Deal di Anthropic: cosa rivela l’esperimento sui mercati ad agenti



Indirizzo copiato

L’esperimento, sessantanove agenti Claude che hanno chiuso 186 deal in una settimana, dimostra che l’agentic commerce funziona benissimo in laboratorio. La lettura più importante riguarda il finding scomodo: chi ha l’agente migliore vince sistematicamente, l’altro non se ne accorge

Pubblicato il 11 giu 2026

Fabio Lalli

Consulente in trasformazione digitale – AI & product strategy



Project Deal Anthropic
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti


Diciannove palline da ping pong, descritte da chi le vendeva come “diciannove sfere perfette di possibilità”. Uno snowboard che il compratore già possedeva. Un dialogo tra agenti che si scambiano sample musicali per nove dollari e quaranta centesimi. Sono alcuni esiti dell’esperimento Project Deal di Anthropic, sessantanove dipendenti di San Francisco che hanno consegnato a un agente Claude la responsabilità di vendere e comprare oggetti reali per loro conto, niente intervento umano una volta avviata la trattativa, cento dollari di budget a testa, un canale Slack come piazza di scambio.

Il risultato – pubblicato il 24 aprile 2026 – è stato letto da molti come la prova che l’agentic commerce funziona. La lettura corretta è che funziona benissimo, e proprio per questo Anthropic ha deciso di scrivere un paper che insiste su un finding scomodo: chi ha l’agente migliore guadagna sistematicamente di più, l’altro non se ne accorge, e nessun framework legale oggi disponibile dice cosa fare quando questa asimmetria diventa il nuovo standard del commercio digitale.

Un alto livello di precisione metodologica

L’esperimento è stato disegnato con un livello di precisione metodologica che merita di essere richiamato. Ogni partecipante è stato intervistato da Claude per cinque-dieci minuti, durante i quali il modello ha estratto preferenze di acquisto, oggetti da vendere, prezzi soglia e stile negoziale desiderato. Quei dati sono diventati system prompt personalizzati per gli agenti, che poi hanno operato in autonomia totale per sette giorni. Le metriche finali raccontano un esperimento riuscito: 186 deal chiusi su oltre 500 listing, valore complessivo di poco superiore ai 4.000 dollari, partecipanti che hanno valutato la fairness delle trattative su una mediana di 4 in scala 1-7.

Quasi metà dei partecipanti, il 46%, ha dichiarato che pagherebbe per un servizio analogo nel mondo reale, segnale che la disponibilità a delegare la transazione esiste già nella popolazione che ha avuto l’esperienza diretta.

I numeri di superficie sono interessanti, le scelte di disegno sono rivelatrici. Anthropic non ha condotto un esperimento, ne ha condotti quattro in parallelo. Due run con tutti gli agenti basati su Claude Opus 4.5, due run con un mix randomizzato di Opus 4.5 e Haiku 4.5, modelli di capacità diverse. I partecipanti, fino alla fine dell’esperimento, non sapevano quale modello li rappresentasse. Solo una delle quattro run, quella con tutti Opus, sarebbe stata la run “reale” in cui gli oggetti sarebbero realmente cambiati di mano alla fine. Le altre tre erano condizioni sperimentali, con scambi puramente simulati.

Quattro mercati paralleli, popolazioni identiche, regole identiche, modelli diversi: una struttura disegnata per misurare con rigore l’effetto della capability del modello sull’esito di una transazione.

La scoperta scomoda: chi ha il modello migliore vince e l’altro non se ne accorge

Il finding centrale, quello che Anthropic stessa definisce “uncomfortable implication“, è la differenza misurabile e sistematica tra esiti delle trattative condotte da Opus rispetto a Haiku. Sulle stesse condizioni di mercato, gli agenti Opus hanno chiuso in media circa due deal in più per partecipante, ottenuto 2,68 dollari in più per oggetto venduto e risparmiato 2,45 dollari per oggetto acquistato rispetto agli agenti Haiku. Lo stesso identico oggetto venduto da Opus ha portato a casa in media 3,64 dollari in più rispetto a quando era venduto da Haiku. L’esempio più nitido nel dataset è quello di una bicicletta pieghevole rotta venduta a 65 dollari quando rappresentata da Opus e a 38 dollari quando rappresentata da Haiku: lo stesso oggetto, in due mercati paralleli, con prezzi che divergono del 71% per la sola differenza di modello.

La precisione di fairness

Il dato che rende il finding davvero scomodo è quello sulla percezione di fairness. I partecipanti rappresentati da Haiku hanno valutato i propri deal come fair quanto quelli rappresentati da Opus: 4,06 contro 4,05 sulla scala 1-7, differenza statisticamente irrilevante. Non solo non si sono accorti di aver guadagnato meno, hanno percepito il proprio risultato come equivalente a quello di chi aveva un modello migliore.

Quando, alla fine, è stato chiesto a chi aveva sperimentato entrambe le condizioni quale preferisse, su 28 partecipanti 17 hanno preferito la run con Opus e 11 hanno preferito quella con Haiku, indicando che neanche il confronto diretto rendeva ovvia la differenza di outcome.

La traduzione operativa: in un mercato in cui agenti di capacità diversa negoziano gli uni contro gli altri, chi ha l’agente debole perde sistematicamente senza saperlo, e questa asimmetria invisibile potrebbe diventare la forma dominante della disuguaglianza nel commercio digitale dei prossimi anni.

Cosa accade quando l’agente eccede il mandato

Sotto la lettura economica si nasconde una questione di diritto privato che Anthropic ha sollevato in modo esplicito. Gli agenti operavano su un mandato generico, costruito a partire da un’intervista di pochi minuti, non su autorizzazioni specifiche per ogni transazione. Nel corso dell’esperimento si sono verificati casi che, in un contesto commerciale reale, aprirebbero contenziosi non banali.

Un partecipante si è ritrovato con uno snowboard che già possedeva, perché l’agente aveva interpretato fedelmente la preferenza (“mi piacciono gli snowboard”) senza poter accedere all’inventario di chi rappresentava.

Un altro partecipante ha chiesto al proprio agente di “comprare un regalo per Claude come AI”, e l’agente ha negoziato l’acquisto di diciannove palline da ping pong descritte da chi le vendeva come “diciannove perfette sfere di possibilità”, in un dialogo tra macchine che il paper riporta con tono divertito ma che, in un contratto vero, sarebbe un classico caso di “agente che eccede il mandato”.

Il principio di diritto privato sottostante è la dottrina dell’agency: chi ha autorizzato esattamente cosa, e fin dove arrivava il mandato dato dal principal? Se il mio agente AI compra qualcosa che non avrei comprato, ma che è “ragionevolmente coerente” con il system prompt che ha ricevuto da una breve intervista preliminare, sono vincolato all’acquisto? Se un agente confabula un dettaglio del prodotto durante la trattativa, e il deal si chiude su quel dettaglio, su chi ricade la responsabilità del difetto? Sull’azienda che ha sviluppato il modello? Sulla piattaforma che ospita lo scambio? Sul singolo che ha scritto il prompt iniziale? Anthropic, nel paper, riconosce che le risposte non esistono in nessun ordinamento giuridico contemporaneo, e cita uno studio Cornell del 2024 sulla negoziazione agente-agente come uno dei pochi precedenti accademici sul tema.

Il vuoto regolatorio: agenzia, responsabilità, prompt injection

L’agentic commerce, nella sua versione matura, richiede che siano risolti almeno tre nodi giuridici prima di passare alla scala. Il primo è quello dell’agenzia in senso classico: la maggior parte degli ordinamenti civilistici prevede che l’agente operi su mandato esplicito o tacito, ma non contempla il caso di un mandato genericamente desunto da un’intervista AI-generata che diventa system prompt. Definire il perimetro del mandato in modo verificabile sarà uno dei lavori normativi dei prossimi anni, sia a livello di codice civile sia di standard contrattuali tra piattaforme.

Il secondo nodo è quello della responsabilità per danno emergente. Se un agente compra a un prezzo eccessivo, vende a un prezzo svantaggioso, o accetta condizioni che il principal non avrebbe accettato, chi paga il danno? La risposta più semplice (chi ha autorizzato l’agente) si scontra con la realtà tecnica per cui il principal, spesso, non comprende cosa il suo prompt produce in termini di comportamento concreto. La responsabilità solidale tra utente, sviluppatore del modello e operatore della piattaforma è una soluzione possibile, ma comporta una distribuzione del rischio che oggi nessun contratto enterprise prevede.

Il terzo nodo, forse il meno discusso e il più tecnicamente complesso, è quello della sicurezza degli agenti rispetto a prompt injection esterne. Un agente di mercato è esposto continuamente a input che provengono da altri agenti, e quegli input possono contenere istruzioni adversarial pensate per manipolarne il comportamento. Anthropic stessa, nel paper, riconosce che Project Deal non ha investigato a fondo questi vettori, e che in scenari reali l’esposizione sarebbe molto più alta. Una piattaforma che ospita transazioni agente-agente, in produzione, deve costruire difese contro l’iniezione di istruzioni e contro la confabulazione di fatti, oltre a meccanismi di audit che permettano di ricostruire ex post la traccia decisionale di ogni agente. Strumenti che oggi non esistono come categoria standardizzata, e che richiederanno anni di lavoro normativo e tecnico per maturare.

Visa, Stripe, Alibaba: cosa devono leggere nel paper Anthropic

Le aziende che stanno disegnando applicazioni di agentic commerce, da Visa con il proprio Intelligent Commerce protocol ad Alibaba con Accio fino alle iniziative di Stripe e Shopify sull’agent payment infrastructure, dovrebbero leggere il paper Anthropic come un memorandum sui punti aperti più che come una conferma del proprio business case. Il finding sulla disuguaglianza invisibile è quello che impatta più direttamente sulle scelte di prodotto. Una piattaforma che ospita scambi tra agenti di capacità diverse, senza dichiararlo all’utente, espone i propri partecipanti a un’asimmetria sistematica di esito che oggi non sarebbe legalmente perseguibile, ma che diventerà, con ragionevole probabilità, oggetto di azioni di tutela del consumatore non appena l’evidenza statistica sarà sufficiente.

La risposta progettuale che il paper suggerisce, tra le righe, riguarda la disclosure obbligatoria del modello che rappresenta ciascuna delle parti, idealmente con un tier di capability comprensibile al consumatore. Una sorta di etichetta nutrizionale dell’agente, che permetta a chi entra nel mercato di sapere se sta competendo ad armi pari. La proposta non è ancora in nessun framework normativo, e probabilmente diventerà la direzione che il regolatore prenderà nei prossimi diciotto mesi, almeno in Europa.

L’altra implicazione, più sottile, riguarda la progettazione del mandato. Un agente che opera su un prompt di cinque minuti di intervista, su acquisti e vendite reali, espone il principal a una superficie di rischio enorme. Le piattaforme che vorranno operare in settori regolati come finanziario, assicurativo e sanitario dovranno prevedere meccanismi di re-authorization per soglie specifiche di importo, di rischio o di reversibilità della transazione, e dovranno tracciare in modo immutabile la sequenza decisionale che ha portato l’agente da una preferenza generica a un acquisto specifico. Una specie di MiFID per gli agenti, applicata al livello del singolo deal.

L’esperimento riuscito che non racconta una vittoria

C’è un parallelo storico utile per leggere Project Deal nella prospettiva giusta. A inizio Novecento, quando l’energia elettrica si stava diffondendo nelle fabbriche americane, gli ingegneri rimasero stupiti dal fatto che la sostituzione del motore a vapore con il motore elettrico non producesse, in molti impianti, gli incrementi di produttività attesi. Il problema non era il motore: era che l’organizzazione del lavoro era ancora ferma all’architettura del vapore, con un’unica fonte centralizzata di forza motrice. Ci vollero quasi vent’anni perché le fabbriche venissero ridisegnate intorno al concetto di motori distribuiti, e solo allora la produttività esplose. Una novità tecnologica che funziona benissimo in laboratorio richiede una riorganizzazione istituzionale per produrre i suoi effetti reali.

Project Deal funziona benissimo in laboratorio, e proprio per questo Anthropic ha scelto di pubblicarne i risultati con un’enfasi particolare sui punti aperti più che sui successi. La vera lezione del paper non è che gli agenti riescono a chiudere deal, è che il sistema istituzionale intorno (diritto contrattuale, framework di responsabilità, infrastruttura di audit, disclosure ai consumatori) è ancora arretrato rispetto alla velocità con cui la tecnologia matura. La distanza tra il prototipo che funziona in un canale Slack e il marketplace globale che ne deriverà domani non è tecnologica, è normativa e organizzativa. Chi sta costruendo agentic commerce farà bene a investire più nella seconda dimensione che nella prima.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x