Le stime con cui economisti, governi e imprese cercano di capire quali lavori potrebbero essere travolti dall’intelligenza artificiale hanno un problema di fondo: non sempre sono solide quanto sembrano. E una parte del problema, secondo una nuova ricerca, nasce proprio dall’intelligenza artificiale usata per produrle.
Il punto è rilevante perché il mercato del lavoro è uno dei terreni su cui si concentrano le attese e le paure più forti legate all’AI. I decisori pubblici vogliono capire quali categorie di lavoratori potrebbero essere sostituite o avere bisogno di sostegno. Le scuole, le università, gli studenti e le famiglie cercano segnali su quali percorsi possano garantire una maggiore tenuta nel medio periodo. Le aziende, dal canto loro, valutano dove investire, quali competenze assumere e quali attività automatizzare.
Su questi interrogativi si è costruito negli ultimi anni un filone di ricerca molto ampio, che prova a misurare l’esposizione di un’occupazione all’AI. Il principio è semplice: ogni mestiere è composto da una serie di compiti e, se una quota crescente di quei compiti può essere svolta o accelerata da sistemi di intelligenza artificiale, quel mestiere risulta più esposto. Il problema, però, è capire con precisione come attribuire quel punteggio. Ed è qui che i conti iniziano a non tornare.
Indice degli argomenti:
Che cos’è il punteggio di esposizione all’AI
Per stimare il rischio di sostituzione o trasformazione di un lavoro, gli economisti usano spesso un approccio basato sulle mansioni. Negli Stati Uniti il Dipartimento del Lavoro mantiene un database dettagliato delle attività effettivamente svolte nelle diverse professioni. Un panettiere, per esempio, deve impastare, preparare i prodotti e gestire la cottura. Un analista finanziario valuta bilanci, società, scenari e investimenti. Ogni mestiere può quindi essere scomposto in operazioni concrete.
La domanda successiva è: quante di queste operazioni possono essere eseguite meglio, più rapidamente o a costi inferiori da un sistema di AI? Se la quota è elevata, cresce l’esposizione della professione. Se è limitata, il lavoro appare più resistente all’automazione cognitiva.
Questo metodo ha avuto un enorme successo perché offre un numero sintetico, facilmente utilizzabile nei report di ricerca, nelle note delle società di consulenza, nei documenti di advocacy e nelle analisi di policy. Ma la semplicità del numero nasconde una catena di valutazioni molto più fragile. Il punteggio finale, infatti, dipende da chi decide se un compito sia davvero automatizzabile e da come viene posto il quesito.
I tre metodi usati dagli economisti
La ricerca economica ha seguito soprattutto tre strade per costruire questi indicatori.
La prima si basa su valutatori umani. Esperti o ricercatori esaminano le mansioni associate a una professione e giudicano in quale misura l’intelligenza artificiale possa svolgerle. È un metodo intuitivo, ma esposto a un margine elevato di soggettività. Persone diverse possono avere opinioni molto diverse sulla stessa attività, soprattutto in una fase in cui le capacità dei modelli cambiano rapidamente.
La seconda strada consiste nei sondaggi rivolti ai lavoratori che già usano strumenti di AI. In questo caso il vantaggio è evidente: si osserva l’uso concreto della tecnologia. Ma anche qui il rischio di distorsione è forte. Chi risponde al sondaggio è spesso un sottoinsieme particolare della forza lavoro: utenti precoci, più digitalizzati, più formati, spesso concentrati in alcuni settori e in alcune grandi aziende. Le loro esperienze non sempre rappresentano l’intero mercato.
La terza via affida direttamente all’AI il compito di classificare quali lavori siano più esposti all’AI. A prima vista è una soluzione efficiente. I modelli linguistici hanno accesso a enormi quantità di testo, conoscono la descrizione delle professioni e possono fornire valutazioni in tempi rapidi. Ma è proprio su questo passaggio che si concentra la critica di un nuovo studio.
Lo studio che mette in discussione i risultati
Secondo una ricerca pubblicata lo scorso mese sul sito del National Bureau of Economic Research, gli stessi modelli generativi usati per misurare l’esposizione dei lavori all’AI possono produrre valutazioni molto diverse tra loro.
Le economiste Michelle Yin e Hoa Vu della Northwestern University, insieme a Claudia Persico dell’American University, hanno chiesto a tre modelli di intelligenza artificiale quali occupazioni fossero più esposte all’automazione. I modelli presi in esame erano OpenAI ChatGPT-5, Google Deepmind Gemini 2.5 e Anthropic Claude 4.5. A parità di domanda, le risposte si sono spesso discostate in modo netto.
Il dato più significativo è proprio questo: non si tratta di lievi differenze di graduatoria, ma di divergenze che possono cambiare la lettura del fenomeno. In alcuni casi un modello considera una professione altamente vulnerabile, mentre un altro la colloca molto più in basso. Questo rende più difficile usare quei risultati come base affidabile per decisioni pubbliche o private.
Le autrici osservano inoltre che il paper è ancora un working paper e non ha quindi concluso il processo di revisione scientifica tra pari. Ma il punto sollevato resta centrale: se strumenti già entrati nel dibattito pubblico sono meno robusti di quanto si creda, il rischio di errore aumenta proprio nel momento in cui quei numeri iniziano a orientare scelte reali.
Concordanza tra valutatori nei modelli di linguaggio di frontiera

Questa tabella riporta la percentuale di attività che hanno ricevuto classificazioni identiche da ciascuna coppia di modelli e il kappa di Cohen che misura la concordanza al di là del caso.
“Concordanza” riporta la percentuale di compiti che ricevono classificazioni E0/E1/E2 identiche da entrambi gli annotatori. Il kappa di Cohen è calcolato dalla tabella incrociata completa 3×3. I valori di kappa variano da 0,36 (discreto) a 0,56 (moderato), secondo i benchmark di McHugh (2012).
La colonna “disaccordo principale” identifica quale confine di classificazione è responsabile del maggior disaccordo in ciascuna coppia.
Contabili, manager, Ceo: dove i modelli litigano
Tra gli esempi citati nello studio c’è quello dei contabili. Claude li ha classificati tra i lavori con un’alta vulnerabilità all’intelligenza artificiale, mentre Gemini ha assegnato alla stessa professione un livello di esposizione molto più basso. Non è una differenza marginale: per un mestiere collocato al centro di molte attività amministrative, fiscali e di reporting, un simile scarto modifica la percezione del rischio di sostituzione.
Disaccordi consistenti emergono anche su figure come i responsabili pubblicitari e gli amministratori delegati. In altre parole, non sono coinvolte soltanto professioni ripetitive o standardizzabili, ma anche ruoli in cui contano giudizio, coordinamento, relazione, responsabilità e decisione strategica.
ChatGPT e Gemini, secondo lo studio, risultano i due modelli più vicini tra loro. Eppure anche in questo caso la convergenza non è piena: le due intelligenze artificiali hanno fornito valutazioni diverse in circa un quarto dei casi. Per un indicatore che pretende di offrire una mappa del rischio occupazionale, una distanza di questa ampiezza non è trascurabile.
Il nodo è evidente. Se tre modelli di punta non trovano un accordo stabile su quali professioni siano più esposte, il punteggio prodotto da uno solo di essi non può essere trattato come un dato oggettivo. Al massimo, può essere considerato un’indicazione parziale, dipendente dal modello impiegato, dal modo in cui è stato addestrato e dal tipo di utilizzo che gli utenti ne hanno già fatto.
Il peso dei dati con cui l’AI impara
Una parte di queste divergenze dipende dalle differenze strutturali tra i modelli. Architettura, dati di training, istruzioni di sistema e scelte di sviluppo possono spingere un sistema a valutare in modo diverso la stessa attività. Ma le economiste indicano anche un altro meccanismo, meno ovvio e forse più interessante.
Le letture dei modelli sembrano essere influenzate da quali lavoratori stanno già usando l’AI. Gli early adopters, come per esempio gli analisti finanziari, adottano questi strumenti in modo intenso e generano più dati, più esempi e più tracce di utilizzo. Questo materiale finisce, direttamente o indirettamente, per alimentare i modelli futuri. Di conseguenza, una professione che già usa molto l’AI potrebbe apparire ancora più “compatibile” o più “esposta” nei giudizi successivi dei modelli.
Si crea così un circuito potenzialmente distorsivo. Non si misura soltanto quanto un lavoro sia automatizzabile in astratto; si misura anche quanto quella professione sia già rappresentata nei dati che i modelli hanno assorbito. Il rischio è confondere la diffusione attuale di uno strumento con la sua capacità intrinseca di sostituire o trasformare un’intera categoria professionale.
Questa osservazione ha implicazioni importanti. Se una professione è molto presente nei dati digitali e negli usi iniziali dell’AI, potrebbe ricevere una valutazione più severa non perché sia davvero più a rischio, ma perché lascia più tracce nel sistema che la giudica. Al contrario, lavori meno digitalizzati o meno documentati potrebbero risultare sottostimati.
Perché la politica economica deve fare attenzione
Il problema, secondo le autrici, è che una parte del dibattito pubblico usa questi punteggi con troppa sicurezza. Policy maker, datori di lavoro e osservatori possono essere tentati di trasformare graduatorie ancora incerte in strumenti quasi definitivi per decidere dove allocare risorse, quali corsi finanziare, quali lavoratori riqualificare e quali settori proteggere.
In materia di lavoro, però, un errore di diagnosi ha effetti concreti. Se una categoria viene giudicata più esposta di quanto sia davvero, si può generare allarme ingiustificato, scoraggiare investimenti formativi o accelerare processi di ristrutturazione non necessari. Se invece una professione viene sottovalutata, i lavoratori rischiano di arrivare impreparati a cambiamenti rapidi.
La questione riguarda anche le famiglie. Quando uno studente sceglie un percorso universitario o tecnico, spesso cerca informazioni su salari, prospettive occupazionali e resistenza all’automazione. Se questi dati vengono costruiti su basi poco stabili, diventano una bussola imprecisa proprio dove servirebbe più affidabilità.
Anche le imprese devono leggere con cautela questi indicatori. L’idea che un punteggio alto equivalga automaticamente a licenziamenti o sostituzioni è semplicistica. In molti casi l’AI non elimina il lavoro, ma ne cambia il contenuto, redistribuisce le mansioni, riduce i tempi e aumenta la produttività. La differenza tra sostituzione totale, affiancamento e riorganizzazione è decisiva, ma spesso si perde nelle classifiche.
Non solo macchine contro persone
Lo studio non sostiene che l’intelligenza artificiale sia inutile per misurare l’esposizione dei lavori. Né afferma che gli altri metodi siano migliori in assoluto. Le valutazioni umane restano soggettive. I sondaggi sui lavoratori fotografano usi incompleti e spesso selezionati. L’AI, dal canto suo, offre rapidità e ampiezza, ma introduce incoerenze e bias specifici.
Il punto, semmai, è che nessun metodo oggi disponibile merita di essere trattato come definitivo. In una tecnologia ancora in rapida evoluzione, il disaccordo tra strumenti diversi non è sorprendente. Sarebbe sorprendente il contrario: ottenere una misura stabile, condivisa e durevole mentre cambiano i modelli, i costi, le applicazioni e le competenze richieste.
Le autrici indicano una prima correzione di rotta: i ricercatori dovrebbero confrontare più modelli, non fermarsi a uno solo, e dichiarare in modo esplicito il grado di incertezza delle stime generate dall’AI. In altri termini, non basta pubblicare una classifica. Serve spiegare quanto quella classifica dipenda dal metodo scelto e quanto potrebbe mutare usando strumenti diversi.
Alla base c’è un’esigenza di trasparenza. Se il numero finale è il risultato di assunzioni controverse, quelle assunzioni devono essere visibili. Il dibattito sull’AI nel lavoro è troppo rilevante per essere guidato da indicatori opachi o da punteggi che sembrano neutri ma incorporano scelte arbitrarie.
Che cosa può funzionare meglio
Secondo le ricercatrici, risposte più affidabili potrebbero arrivare da indagini sistematiche su come l’intelligenza artificiale viene davvero introdotta nell’economia e su quali compiti venga usata in pratica. È un approccio meno spettacolare delle classifiche automatiche, ma probabilmente più aderente alla realtà.
Osservare l’implementazione concreta dell’AI significa distinguere tra settori, dimensioni d’impresa, livello di competenze e organizzazione del lavoro. Significa capire se uno strumento viene usato per scrivere testi, riassumere documenti, programmare, analizzare dati, assistere il servizio clienti o supportare attività decisionali. E significa anche misurare se quell’uso riduce occupazione, sposta mansioni o aumenta la domanda di competenze complementari.
In questa prospettiva, il lavoro non va letto come un blocco unico. Anche all’interno della stessa professione esistono differenze profonde. Un contabile che svolge attività standardizzate e ripetitive può essere esposto in modo molto diverso da un professionista che integra consulenza, relazione con il cliente e interpretazione normativa. Lo stesso vale per manager, analisti, progettisti, addetti amministrativi e professioni creative.
La vera sfida, quindi, non è soltanto stabilire quali lavori spariranno, ma quali compiti cambieranno, quali competenze si deprezzeranno e quali acquisteranno valore. È un’analisi più complessa e meno adatta ai titoli allarmistici, ma decisamente più utile per chi deve decidere.
La cautela che manca nel dibattito pubblico
La frase più netta del paper è affidata a Michelle Yin, una delle autrici. Yin dice di non affidarsi mai a una sola misura per decidere se cambiare lavoro o persino il corso di studi del proprio figlio. È un richiamo alla prudenza che andrebbe esteso ben oltre le scelte individuali.
Il dibattito sull’AI tende spesso a oscillare tra due estremi: da una parte la promessa di produttività e crescita, dall’altra l’idea di una distruzione imminente del lavoro impiegatizio e cognitivo. Ma tra questi due poli c’è un’area vasta, fatta di trasformazioni graduali, sostituzioni parziali, adattamento delle imprese, resistenze organizzative e nuove specializzazioni.
Per questo le classifiche secche sui “mestieri più a rischio” vanno maneggiate con cura. Possono essere utili come punto di partenza, non come sentenza. E quando provengono da modelli di AI che non concordano tra loro, la cautela deve aumentare, non diminuire.
La questione sollevata dallo studio tocca un nervo scoperto dell’economia contemporanea: stiamo usando l’intelligenza artificiale per prevedere l’effetto dell’intelligenza artificiale sul lavoro. Se lo strumento di misura è instabile, anche le conclusioni rischiano di esserlo. E in un passaggio così delicato per il mercato del lavoro, scambiare una stima incerta per una previsione solida può costare più di quanto oggi si voglia ammettere.






