SeamlessM4T–V2 è il nuovo modello di intelligenza artificiale rilasciato da Meta in grado di tradurre il parlato di 101 lingue diverse. Si tratta di un passo avanti verso l’interpretazione simultanea in tempo reale, in cui le parole vengono tradotte non appena escono dalla bocca di qualcuno.
Dietro a SeamlessM4T c’è il data mining parallelo
In genere, i modelli di traduzione del parlato utilizzano un approccio a più fasi. Prima traducono il parlato in testo; poi traducono il testo in un’altra lingua. Infine, il testo tradotto viene trasformato in parlato nella nuova lingua. Questo metodo può essere inefficiente e in ogni fase possono insinuarsi errori e traduzioni errate. Ma la nuova versione del modello di Meta (la prima risale al 2023) consente una traduzione più diretta dal parlato in una lingua al parlato in un’altra. Il modello è descritto in un articolo pubblicato su Nature.
Seamless è in grado di tradurre il testo con un’accuratezza superiore del 23% rispetto ai migliori modelli esistenti. E sebbene un altro modello, AudioPaLM di Google, sia tecnicamente in grado di tradurre un maggior numero di lingue – 113, contro le 101 di Seamless – può tradurle solo in inglese. SeamlessM4T-V2 può tradurre in altre 36 lingue.
La chiave è un processo chiamato data mining parallelo, che trova i casi in cui il suono di un video o di un audio corrisponde a un sottotitolo in un’altra lingua dai dati web raccolti. Il modello ha imparato ad associare i suoni in una lingua con le parti di testo corrispondenti in un’altra. In questo modo, il modello ha scoperto una nuova serie di esempi di traduzioni.

Il numero di lingue supportate da SeamlessM4T-V2 è rilevante
“Meta ha fatto un ottimo lavoro con un’ampia gamma di funzioni supportate, come il text-to-speech, lo speech-to-text e persino il riconoscimento vocale automatico”, ha dichiarato a MIT Technology Review Chetan Jaiswal, professore di informatica presso la Quinnipiac University, che non è stato coinvolto nella ricerca. “Il solo numero di lingue supportate è un risultato straordinario”.
I traduttori umani sono ancora una parte vitale del processo di traduzione, affermano i ricercatori nel documento, perché possono confrontarsi con contesti culturali diversi e assicurarsi che lo stesso significato sia trasmesso da una lingua all’altra. Questo passaggio è importante, afferma Lynne Bowker, Canada Research Chair in Translation, Technologies and Society presso l’Université Laval in Quebec, che non ha lavorato a Seamless. “Le lingue sono il riflesso delle culture e le culture hanno i loro modi di conoscere le cose”, afferma la Bowker.
Quando si tratta di applicazioni come la medicina o la legge, le traduzioni automatiche devono essere accuratamente controllate da un essere umano. In caso contrario, potrebbero verificarsi dei malintesi. Ad esempio, quando Google Translate è stato utilizzato per tradurre le informazioni sulla salute pubblica relative al vaccino covid-19 del Dipartimento della Salute della Virginia nel gennaio 2021, ha tradotto “non obbligatorio” in inglese in “non necessario” in spagnolo, cambiando l’intero significato del messaggio.
Tutte le lingue parlate da SeamlessM4T-V2
Afrikaans, Amarico, Arabo standard moderno, Arabo marocchino, Arabo egiziano, Assamese, Asturiano, Azerbaigiano settentrionale, Bielorusso, Bengalese, Bosniaco, Bulgaro, Catalano, Cebuano, Ceco, Curdo centrale, Cinese mandarino, Cinese mandarino, Gallese, Danese, Tedesco, Greco, Inglese, Estone, Basco, Finlandese, Francese, Fulfulde nigeriano, Oromo centro-occidentale, Irlandese, Galiziano, Gujarati, Ebraico, Hindi, Croato, Ungherese, Armeno, Igbo, Indonesiano, Islandese, Italiano, Giavanese, Giapponese, Kamba, Kannada, Georgiano, Kazako, Capoverdiano, Mongolo Halh, Khmer, Kirghiso, Coreano, Lao, Lituano, Lussemburghese, Ganda, Luo, Lettone standard, Maithili, Malayalam, Marathi, Macedone, Maltese, Meitei, Birmano, Olandese, Norvegese Nynorsk, Norvegese Bokmål, Nepalese, Nyanja, Occitano, Odia, Punjabi, Pashto meridionale, Persiano occidentale, Polacco, Portoghese, Rumeno, Russo, Slovacco, Sloveno, Shona, Sindhi, Somalo, Spagnolo, Serbo, Svedese, Swahili, Tamil, Telugu, Tagiko, Tagalog, Thai, Turco, Ucraino, Urdu, Uzbeko settentrionale, Vietnamita, Xhosa, Yoruba, Cantonese, Malese colloquiale, Malese standard, Zulu.
Milioni di ore di pre-addestramento su audio parlato in lingue diverse
I modelli di intelligenza artificiale hanno molti più esempi su cui allenarsi in alcune lingue rispetto ad altre. Ciò significa che gli attuali modelli speech-to-speech possono essere in grado di tradurre una lingua come il greco in inglese, dove ci sono molti esempi, ma non possono tradurre dallo swahili al greco. Il team di Seamless ha cercato di risolvere questo problema pre-addestrando il modello su milioni di ore di audio parlato in diverse lingue. Questo pre-addestramento gli ha permesso di riconoscere modelli generali di linguaggio, rendendo più facile l’elaborazione di lingue meno diffuse perché aveva già una base di riferimento per il suono della lingua parlata.
Il sistema è open-source e i ricercatori sperano che questo incoraggi altri a sviluppare le sue capacità attuali. Ma alcuni sono scettici sulla sua utilità rispetto alle alternative disponibili. “Il modello di traduzione di Google non è open-source come Seamless, ma è molto più reattivo e veloce, e non costa nulla come accademico”, dice Jaiswal.
Meta verso l’interpretazione istantanea tra le lingue
L’aspetto più entusiasmante del sistema di Meta è la possibilità di un’interpretazione istantanea tra le lingue in un futuro non troppo lontano, come il pesce di Babele del romanzo cult di Douglas Adams Guida galattica per gli autostoppisti.
SeamlessM4T è più veloce dei modelli esistenti, ma non è ancora istantaneo. Meta sostiene di avere una nuova versione di Seamless che è veloce quanto gli interpreti umani. “Sebbene questo tipo di traduzione ritardata sia utile e corretta, credo che la traduzione simultanea sarà ancora più utile”, afferma Kenny Zhu, direttore dell’Arlington Computational Linguistics Lab dell’Università del Texas ad Arlington, che non è affiliato alla nuova ricerca.
Approfondimento: come è fatto SeamlessM4T di Meta
Sviluppato dal team Seamless Communication, questo sistema innovativo supporta la traduzione vocale, la traduzione da voce a testo, la traduzione da testo a voce, la traduzione testuale e il riconoscimento vocale automatico. La vera rivoluzione di SeamlessM4T risiede nella sua capacità di operare come un unico modello integrato, superando i limiti dei sistemi di traduzione convenzionali che tipicamente utilizzano più sottosistemi in cascata. Questo approccio unificato non solo semplifica l’architettura del sistema, ma migliora anche significativamente le prestazioni complessive.
Il modello è stato addestrato utilizzando un nuovo corpus multimodale di traduzioni vocali allineate automaticamente, denominato Seamlessalign, che comprende oltre 470mila ore di dati audio allineati. Questa vasta base di dati, combinata con altre risorse pubblicamente disponibili, ha permesso a SeamlessM4T di raggiungere una copertura linguistica senza precedenti, posizionandosi come uno dei primi sistemi multilingue in grado di tradurre da e verso l’inglese sia per il parlato che per il testo.
Architettura e innovazioni chiave del modello SeamlessM4T
L’architettura di SeamlessM4T si basa su una serie di innovazioni chiave che ne definiscono le capacità. Il cuore del sistema è costituito dal framework multitask Unity, che integra diverse componenti specializzate in un unico modello coerente. Una delle innovazioni principali è l’utilizzo di un encoder conformer per l’input vocale, affiancato da un encoder transformer per l’input testuale, entrambi collegati a un decoder testuale comune. Questa configurazione permette al modello di processare efficacemente sia input vocali che testuali, mantenendo una rappresentazione interna unificata.
Un elemento cruciale dell’architettura è il modulo X2T, che è stato preaddestrato per ottimizzare congiuntamente i compiti di riconoscimento vocale automatico (ASR), traduzione vocale-testo (S2TT) e traduzione testo-testo (T2TT). Questo preaddestramento multitask ha permesso di ottenere un encoder vocale più robusto e un decoder testuale di qualità superiore.
Un’altra innovazione significativa è l’introduzione di un modello text-to-unit (T2U) non autoregressivo e più profondo, che ha sostituito il modello T2U autoregressivo precedente. Questo nuovo componente, basato su un’architettura transformer con sei strati, è stato preaddestrato su dati ASR e ha dimostrato di gestire meglio la generazione di unità multilingue senza interferenze. Il passaggio a un decoder T2U non autoregressivo ha inoltre migliorato notevolmente la velocità di inferenza per la traduzione vocale, triplicandola rispetto al modello precedente.
Seamless4T utilizza anche unità acustiche discrete multilingue come target per la traduzione vocale diretta, una tecnica che ha dimostrato di raggiungere prestazioni all’avanguardia. Queste unità sono estratte utilizzando rappresentazioni vocali continue da XLS-R e mappate su token discreti attraverso un algoritmo k-means.
Per la conversione da unità a voce, il sistema impiega un vocoder multilingue addestrato sulle unità apprese, capace di sintetizzare audio di alta qualità. Un’ulteriore innovazione è rappresentata dal preaddestramento non supervisionato dell’encoder vocale, che segue un approccio W2V-BERT 2.0 migliorato, combinando l’apprendimento contrastivo con l’apprendimento predittivo mascherato e utilizzando quantizzatori a proiezione casuale. Questo preaddestramento, effettuato su un vasto corpus di 4,5 milioni di ore di audio in oltre 143 lingue, ha dotato SeamlessM4T di una comprensione profonda e multilingue del parlato, contribuendo significativamente alle sue prestazioni superiori.
Prestazioni e confronto con i sistemi di traduzione esistenti
Le prestazioni di SeamlessM4T rappresentano un notevole salto in avanti rispetto ai sistemi di traduzione esistenti, sia in termini di qualità che di versatilità.
Traduzione vocale-testo
Nei compiti di traduzione vocale-testo (S2TT), SeamlessM4T supera i modelli a cascata di riferimento con un margine significativo. Per le direzioni di traduzione X-eng (da altre lingue verso l’inglese), SeamlessM4T-V2 ottiene un punteggio BLEU di 26,6, superando di 4,6 punti il miglior sistema a cascata con meno di 3 miliardi di parametri.
Nelle direzioni eng-X (dall’inglese verso altre lingue), il modello raggiunge un punteggio BLEU di 22,2, superando di 1 punto i sistemi a cascata comparabili. Questi risultati sono particolarmente impressionanti considerando che SeamlessM4T-V2 utilizza un unico modello unificato invece di combinare più sottosistemi specializzati.
Traduzione vocale-vocale
Nel campo della traduzione vocale-vocale (S2ST), i progressi sono ancora più marcati. Su FLEURS X-eng, SeamlessM4T -V2 raggiunge un punteggio ASR-BLEU di 29,7, superando di 12,1 punti i sistemi a cascata a due stadi e di 6 punti i sistemi a tre stadi più avanzati. Su CVSS, il divario è ancora più ampio, con SeamlessM4T-V2 che supera il miglior sistema a cascata di 9,6 punti ASR-BLEU. Nelle direzioni eng-X per S2ST, SeamlessM4T -V2 ottiene un punteggio ASR-BLEU medio di 26,1, superando del 15% il miglior sistema a cascata. Questi risultati dimostrano non solo la superiorità di SeamlessM4T M4T in termini di qualità della traduzione, ma anche la sua capacità di gestire efficacemente diverse coppie linguistiche e direzioni di traduzione.

Riconoscimento vocale automatico
Nel riconoscimento vocale automatico (ASR), SeamlessM4T -V2 riduce il tasso di errore di parola (WER) del 56% rispetto a Whisper-Large-V2 su 77 lingue sovrapposte.
Traduzione testo-testo
Nella traduzione testo-testo (T2TT), il modello si dimostra competitivo con NLLB-3.3B, uno dei sistemi di riferimento più avanzati. Un aspetto particolarmente notevole è la capacità di SeamlessM4T di eseguire traduzioni testo-voce (T2ST) in modo zero-shot, ottenendo prestazioni paragonabili ai sistemi supervisionati. Questi risultati sono stati confermati non solo attraverso metriche automatiche, ma anche mediante valutazioni umane estensive, che hanno evidenziato la superiorità di SeamlessM4T-V2 in termini di accuratezza semantica e qualità del parlato generato.
Responsabilità e mitigazione dei rischi etici
Lo sviluppo di SeamlessM4T ha posto una notevole enfasi sulla responsabilità e sulla mitigazione dei rischi etici associati ai sistemi di traduzione automatica su larga scala. Il team di ricerca ha affrontato in modo proattivo diverse questioni critiche, tra cui la tossicità aggiunta, i pregiudizi di genere e la robustezza del sistema.
Per quanto riguarda la tossicità, sono state implementate due strategie principali: un filtraggio preventivo durante la fase di addestramento e una tecnica di mitigazione chiamata MinTox durante l’inferenza. Il filtraggio preventivo elimina le coppie di addestramento con tossicità sbilanciata, mentre MinTox utilizza un approccio di beam filtering per evitare la generazione di contenuti tossici. Queste tecniche hanno dimostrato di ridurre significativamente la tossicità aggiunta, con diminuzioni fino al 5% in termini di MuTox e fino all’80% in termini di ETOX.
Per valutare e mitigare i pregiudizi di genere, il team ha utilizzato il framework Multilingual Holisticbias, estendendolo anche alla modalità vocale. Le valutazioni hanno mostrato che SeamlessM4T -V2 migliora costantemente la robustezza alle variazioni di genere rispetto ai modelli precedenti e ai sistemi di riferimento esterni. Tuttavia, sono emerse alcune sfide nell’overgeneralizzazione verso un genere specifico, indicando la necessità di tecniche più mirate per contrastare questo fenomeno. La robustezza del sistema è stata testata in scenari di rumore di fondo e variazioni del parlante, dimostrando che SeamlessM4T-V2 è in media circa il 42% e il 66% più resiliente rispetto a Whisper-Large-V2 in queste condizioni rispettivamente. Questi risultati sottolineano l’impegno del team nel creare un sistema non solo potente ma anche eticamente responsabile.
Inoltre, il team ha posto grande attenzione alla trasparenza e alla riproducibilità della ricerca, rendendo pubblicamente disponibili per uso non commerciale i dati, gli strumenti, il codice e due versioni di SeamlessM4T. Questa apertura non solo facilita ulteriori ricerche nel campo, ma permette anche un esame critico e indipendente del sistema, promuovendo un approccio collaborativo e responsabile allo sviluppo dell’intelligenza artificiale nel campo della traduzione automatica.
Impatto sociale e potenziali applicazioni
L’impatto sociale di SeamlessM4T si prospetta come potenzialmente rivoluzionario, con implicazioni che si estendono ben oltre il mero ambito tecnologico. Il sistema promette di ridefinire il concetto di “world-readiness”, un termine che descrive la competenza di un individuo nel navigare un mondo sempre più multilingue e interconnesso. In un’era caratterizzata dalla proliferazione di Internet, dispositivi mobili e piattaforme di comunicazione globali, SeamlessM4T si pone come uno strumento chiave per democratizzare l’accesso alla comunicazione multilingue.
Le applicazioni basate su questo sistema potrebbero fungere da meccanismo di co-pilotaggio, supportando gli utenti in conversazioni multilingue e aumentando la loro fiducia in interazioni ad alta intensità vocale. Questo potrebbe avere un impatto significativo in vari contesti, dall’istruzione al commercio internazionale, dalle relazioni diplomatiche al turismo.
Inclusività
Un aspetto particolarmente rilevante è il potenziale di SeamlessM4T nel migliorare l’inclusività. Per le persone con esigenze di accessibilità, come coloro che hanno difficoltà di lettura o scrittura, o per i non vedenti e gli ipovedenti, la capacità di tradurre il parlato offre un accesso più completo all’informazione, non solo oltre le barriere linguistiche ma anche in una modalità più adatta alle loro esigenze comunicative. Inoltre, il sistema potrebbe essere particolarmente vantaggioso per le lingue che possono essere trascritte con sistemi di scrittura multipli, offrendo una flessibilità senza precedenti nella comunicazione scritta e orale.
Contesto professionale
Nel contesto professionale, SeamlessM4T potrebbe rivoluzionare settori come la traduzione simultanea, il customer service internazionale e la localizzazione di contenuti multimediali. Le aziende potrebbero espandere più facilmente la loro portata globale, mentre le organizzazioni internazionali potrebbero beneficiare di una comunicazione più fluida e immediata tra membri di diverse nazionalità.
Istruzione
Nel campo dell’istruzione, il sistema potrebbe facilitare l’apprendimento delle lingue e l’accesso a risorse educative in lingue straniere, promuovendo uno scambio culturale e accademico più ricco e diversificato. Tuttavia, è importante sottolineare che SeamlessM4T non si propone come un sostituto dell’apprendimento linguistico o degli interpreti umani professionisti, specialmente in contesti ad alto rischio come quelli legali o medici. Piuttosto, dovrebbe essere visto come uno strumento di potenziamento che assiste nella traduzione, ampliando le possibilità di comunicazione interculturale e facilitando l’accesso a una varietà più ampia di esperienze multilingue.
Sfide future e direzioni di ricerca per la traduzione automatica
Nonostante i notevoli progressi rappresentati da SeamlessM4T, il campo della traduzione automatica multilingue e multimodale presenta ancora numerose sfide e promettenti direzioni di ricerca. Una delle principali aree di sviluppo futuro riguarda il miglioramento della traduzione per le lingue a basse risorse. Sebbene SeamlessM4T abbia fatto passi significativi in questa direzione, estendendo la copertura a oltre 100 lingue, c’è ancora un ampio margine di miglioramento per le lingue meno rappresentate nei dataset di addestramento. La ricerca futura potrebbe concentrarsi su tecniche di transfer learning più avanzate e su metodi di apprendimento con pochi esempi (few-shot learning) per migliorare le prestazioni su queste lingue.
Un’altra sfida cruciale è il perfezionamento della traduzione vocale-vocale (S2ST) in tempo reale. Mentre SeamlessM4T ha dimostrato prestazioni impressionanti in questo ambito, la latenza rimane un ostacolo significativo per l’uso in scenari di conversazione in tempo reale. Lo sviluppo di sistemi di traduzione incrementale, capaci di iniziare la traduzione prima che l’input sia completamente disponibile, rappresenta una promettente direzione di ricerca. Questo approccio potrebbe ridurre drasticamente la latenza, avvicinando l’esperienza d’uso a quella di una conversazione naturale. La preservazione degli aspetti prosodici e emotivi del parlato nella traduzione vocale è un’altra area che richiede ulteriori ricerche. Il parlato non è semplicemente testo pronunciato, ma comprende una serie di elementi come ritmo, stress, intonazione e tono che veicolano informazioni cruciali. Sviluppare sistemi capaci di preservare questi elementi nella traduzione potrebbe migliorare significativamente la naturalezza e l’efficacia comunicativa delle traduzioni vocali. La robustezza dei sistemi di traduzione in condizioni reali rimane una sfida importante.
Sebbene SeamlessM4T abbia dimostrato una buona resilienza al rumore di fondo e alle variazioni del parlante, c’è ancora spazio per miglioramenti, specialmente in ambienti acusticamente difficili o con accenti fortemente marcati. La ricerca futura potrebbe esplorare tecniche di augmentation dei dati più sofisticate e architetture di rete neurale specificamente programmate.