scenari

La Cina sorpassa gli Usa nei video creati con AI



Indirizzo copiato

ByteDance e Kuaishou stanno guadagnando terreno sugli Stati Uniti nella generazione video. Il vantaggio nasce dai dati dei social, da modelli più flessibili e da costi più accessibili. La corsa coinvolge pubblicità, ecommerce, intrattenimento e apre un nuovo scontro su copyright e controllo dei contenuti

Pubblicato il 18 mag 2026



Ai video Cina Usa
Immagine tratta da un video generato con Kling Video 3.0
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti

La gara globale sull’intelligenza artificiale non si gioca più soltanto sui chatbot e sui modelli linguistici. Nella generazione video, che sta entrando con velocità crescente nella pubblicità, nell’ecommerce e nell’intrattenimento, i gruppi cinesi stanno prendendo vantaggio sui concorrenti americani.

È il punto emerso negli ultimi giorni da sviluppatori, classifiche d’uso e annunci societari: ByteDance, la casa madre di TikTok, e Kuaishou, proprietaria del modello Kling, stanno imponendo il passo in un segmento che richiede molta più potenza di calcolo, più dati proprietari e maggiore capacità di controllo su immagini, audio, movimenti di macchina e coerenza visiva.

La divergenza è netta. OpenAI, Google e Anthropic restano centrali nei grandi modelli linguistici e negli strumenti per scrittura e coding, ma sul video la fotografia è diversa. Seedance 2.0 di ByteDance, Kling di Kuaishou e altri modelli cinesi sono descritti da molti operatori come più efficaci nell’esecuzione dei prompt, più stabili nelle scene veloci e più adatti all’uso commerciale quotidiano. Google mantiene una posizione competitiva con Veo 3 e con i successivi aggiornamenti Veo 3.1, ma il vantaggio non è più americano per definizione.

Il vantaggio nasce dai dati dei video brevi

Per addestrare un modello video non bastano grandi quantità di testo. Servono archivi enormi di filmati di qualità, con movimenti, volti, audio, ambienti, cambi di luce, gesti, montaggi e variazioni di stile. È qui che i gruppi cinesi hanno costruito un vantaggio difficile da replicare. ByteDance controlla TikTok e altre piattaforme video; Kuaishou gestisce uno dei più grandi ecosistemi di short video in Cina. Questi servizi generano ogni giorno una mole di dati proprietari che può essere usata per allenare sistemi capaci di riprodurre dinamiche realistiche, ritmo visivo e linguaggio nativo delle piattaforme social.

Il punto è economico e industriale insieme. Il testo si può raccogliere in rete con relativa facilità, anche se con molti limiti legali. Il video, invece, è più difficile da reperire, da etichettare e da processare su larga scala. Chi possiede le piattaforme da cui quei contenuti provengono parte con un vantaggio strutturale.

Google può contare su YouTube, e infatti Veo 3 resta uno dei rivali più solidi, ma nel video breve e nel formato pensato per social e commerce i gruppi cinesi stanno sfruttando un patrimonio di dati più vicino ai casi d’uso commerciali che oggi muovono il mercato.

Seedance e Kling, perché piacciono ai creator

Le ragioni del successo non stanno solo nella quantità di dati. ByteDance ha lanciato ufficialmente Seedance 2.0 il 12 febbraio 2026, presentandolo come un modello multimodale in grado di lavorare su input testuali, immagini, audio e video. La società sostiene che il sistema offre un controllo più fine su movimenti di camera, luci, ombre, montaggio e coerenza del personaggio.

Nei mesi successivi la tecnologia è stata portata anche dentro CapCut, il software di editing che ByteDance usa come ponte naturale verso creator e aziende.

Kuaishou ha risposto con il rafforzamento della famiglia Kling. A febbraio 2026 ha annunciato Kling AI 3.0, descritto come un salto dalla generazione video di base a una regia più articolata, con miglioramenti nella precisione narrativa, nel controllo cinematografico e nell’orchestrazione multimodale. In parallelo, già dalla fine del 2025 la società aveva presentato Kling O1 come un modello unificato per generazione, editing e comprensione video. In altre parole: non solo creare clip da zero, ma anche modificarle e capirne la struttura con un unico motore.

Kling

Gli sviluppatori che lavorano con questi strumenti segnalano due vantaggi pratici. Il primo è la qualità percepita: volti meno instabili, migliori transizioni, sincronizzazione audio più credibile, maggiore tenuta nelle scene rapide. Il secondo è la fruibilità: meno blocchi, meno limiti nelle richieste, più possibilità di sperimentazione con formule a consumo o abbonamenti più accessibili.

È un fattore che pesa soprattutto per studi creativi, piccole agenzie e produttori indipendenti, che scelgono il modello meno per fedeltà al marchio e più per rapporto tra costo, velocità e resa finale.

Le classifiche d’uso e il problema dei benchmark

In questo mercato le classifiche contano, ma non tutte allo stesso modo. I benchmark costruiti dai laboratori possono essere ottimizzati dalle stesse aziende che producono i modelli e non sempre riflettono l’uso reale. Per questo molti operatori guardano con attenzione alle classifiche basate sul voto degli utenti o sugli scontri diretti tra modelli.

La piattaforma Arena, citata da più osservatori, mostra Seedance, Kling e altri modelli cinesi ai vertici delle graduatorie image-to-video. È una conferma importante, perché misura la preferenza degli utenti più che la performance su test interni.

Questo non significa che l’Occidente sia fuori gara. Google ha spinto molto su Veo 3, annunciato a I/O 2025, e poi su Veo 3.1 e Veo 3.1 Lite, portando nei suoi sistemi una qualità audio-video più alta, un’aderenza al prompt migliorata e una disponibilità anche per sviluppatori via Gemini API.

È il tentativo più solido di recuperare terreno con una piattaforma più controllata e integrata nei servizi Google. Ma il nodo, per molti utenti, resta la combinazione tra qualità e libertà operativa: ed è qui che i modelli cinesi vengono spesso percepiti come più comodi da usare.

Il freno americano: costi, limiti, moderazione

Il video generativo è molto più costoso del testo. Ogni secondo di filmato richiede l’elaborazione di una quantità di token e di parametri molto superiore rispetto a una risposta scritta o a un file audio. Questo pesa sui conti dei laboratori e sulla disponibilità commerciale dei prodotti. OpenAI, per esempio, ha chiuso il prodotto Sora come esperienza autonoma il 26 aprile 2026 e sta portando il proprio modello video in una nuova forma su sora.com, dopo aver già lanciato Sora 2 nell’autunno 2025 con limiti legati alla capacità di calcolo.

La questione non è soltanto tecnica. Diversi sviluppatori sostengono che i modelli americani rifiutino più spesso richieste che vengono considerate borderline rispetto ai termini d’uso, senza fornire spiegazioni chiare. Questo rende più difficile la produzione iterativa, che nel video richiede molti tentativi, correzioni, scarti e varianti. Google punta molto sulla sicurezza, e Veo è presentato con forti protezioni.

OpenAI, dal canto suo, ha sempre insistito su red teaming e cautele. Dal punto di vista industriale, però, regole più restrittive possono tradursi in un’esperienza meno fluida rispetto a concorrenti che lasciano più spazio ai creator, almeno finché non intervengono problemi legali.

Pubblicità ed ecommerce sono il vero motore

La parte più rilevante della storia non riguarda il cinema sperimentale o i video virali, ma la pubblicità. Le aziende stanno iniziando a usare questi modelli per produrre contenuti personalizzati a una scala che, con troupe, attori, studi e montaggio tradizionale, sarebbe proibitiva.

Firework, società che fornisce infrastrutture video per siti ecommerce, ha raccontato che un singolo retailer ha chiesto la creazione di 100mila video per pagine prodotto diverse. In questo scenario, l’AI consente di avere un video per ogni articolo, con varianti diverse per target, lingua, piattaforma o profilo del cliente.

Qui si vede bene perché il video generativo interessa così tanto ByteDance e Kuaishou. Entrambe arrivano da ecosistemi dove il commercio digitale, il live shopping e il contenuto breve sono già fusi in un unico modello di business. Un sistema capace di creare clip promozionali in modo automatico, rapido e a basso costo diventa un’estensione naturale di quelle piattaforme. Non è solo una funzione creativa: è un pezzo della filiera pubblicitaria, del software per merchant e del marketing performance-based.

L’integrazione di Seedance in CapCut va letta anche così. CapCut è uno dei principali strumenti di editing usati da creator, piccole imprese e brand digitali. Portare un modello video avanzato dentro quel flusso di lavoro significa avvicinare la generazione automatica alla pubblicazione, alla sponsorizzazione e alla misurazione dei risultati. ByteDance, in sostanza, non vende soltanto un modello: costruisce una catena che parte dal dato, passa per la creazione e arriva alla distribuzione.

Kling può diventare una società separata

Il mercato sta già attribuendo un valore finanziario a questa corsa. Negli ultimi giorni è emerso che Kuaishou sta valutando lo spin-off di Kling, con una raccolta fino a 2 miliardi di dollari e una valutazione che, secondo il Wall Street Journal, potrebbe arrivare a 20 miliardi. La prospettiva discussa è una quotazione a Hong Kong nel 2027. Se questo scenario si concretizzasse, sarebbe uno dei segnali più forti della trasformazione del video generativo da funzione sperimentale a business autonomo con metriche proprie, ricavi ricorrenti e investitori dedicati. (Fonte: Wall Street Journal)

Secondo il quotidiano americano, l’interesse degli investitori è sostenuto anche dalla crescita del fatturato ricorrente della piattaforma, salito in pochi mesi da 150 a 500 milioni di dollari annualizzati. Sono numeri da prendere con cautela, perché riflettono una fase iniziale di mercato e non equivalgono a profitti consolidati. Ma indicano che la domanda esiste, soprattutto in Stati Uniti, Europa e Giappone, dove Kling si sta espandendo come strumento per produzioni pubblicitarie, social e audiovisive.

Il nodo del copyright è già esploso

La parte più delicata resta il diritto d’autore. A febbraio 2026 ByteDance ha promesso nuove protezioni contro l’uso non autorizzato di proprietà intellettuale su Seedance 2.0, dopo minacce legali da parte di studi hollywoodiani, fra cui Disney. Agenzie di stampa e media internazionali hanno riferito di video generati con personaggi riconoscibili e di accuse legate all’impiego di contenuti protetti e di somiglianze con attori reali. L’Associated Press ha raccolto anche le critiche della Motion Picture Association e di SAG-AFTRA, il sindacato degli attori.

Il contenzioso è importante per due motivi.

Il primo è giuridico: capire quali materiali siano stati usati per l’addestramento e quali filtri debbano impedire la generazione di personaggi, marchi o volti senza autorizzazione.

Il secondo è industriale: se le piattaforme cinesi hanno corso più in fretta anche grazie a regole meno strette sul materiale di training, il vantaggio competitivo potrebbe essere messo in discussione da cause, risarcimenti o accordi di licenza onerosi. Fin qui il mercato ha premiato la qualità dell’output. Ma la partita vera si giocherà anche nei tribunali e nelle trattative con gli studios.

La nuova mappa dell’AI passa dal video

Per un anno abbondante il racconto dominante sull’AI è stato concentrato sugli LLM: chi aveva il chatbot migliore, il modello più forte nei test, la maggiore capacità di scrivere codice. La corsa ai video sposta il baricentro. Qui contano infrastruttura, dati proprietari, diritti sui contenuti, relazione con i creator e accesso ai budget pubblicitari.

In questo campo, Cina e Stati Uniti partono con risorse diverse.

Gli americani hanno ricerca di frontiera, cloud e grandi piattaforme.

I cinesi hanno ecosistemi video nativi, più densamente integrati con commercio e intrattenimento.

Il risultato, almeno oggi, è che il video generativo non ha più un centro unico. ByteDance avanza con Seedance, Kuaishou monetizza Kling, Google tenta il recupero con Veo e OpenAI riorganizza la propria offerta dopo aver chiuso il prodotto Sora. Per le aziende che comprano tecnologia la questione non è ideologica: scelgono il modello che produce clip migliori, costa meno, si integra meglio nei flussi e blocca meno richieste. È una logica che favorisce chi trasforma l’AI in strumento operativo e non soltanto in dimostrazione tecnica.

Se questa tendenza continuerà, il prossimo scatto dell’intelligenza artificiale non arriverà dalla tastiera ma dalla timeline. La piattaforma che controllerà la generazione di video su larga scala controllerà anche una parte crescente della pubblicità digitale, del commercio visuale e della produzione di contenuti commerciali. La superiorità nei modelli linguistici non basta più a definire chi guida l’AI. Nel video, oggi, la Cina è riuscita ad aprire un fronte in cui gli Stati Uniti non sono più davanti per inerzia.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x