News

Nvidia lancia nuovo ecosistema di AI speech

L’ecosistema è stato sviluppato attraverso una partnership con Mozilla Common Voice. Le due aziende mirano ad accelerare la crescita di modelli di riconoscimento vocale automatico che funzionino universalmente per ogni lingua parlata in tutto il mondo

Pubblicato il 03 Nov 2022

nvidia Ai speech

Nvidia ha annunciato durante il suo AI Speech Summit, il 2 novembre 2022, un nuovo ecosistema di intelligenza artificiale vocale, sviluppato attraverso una partnership con Mozilla Common Voice. L’ecosistema si concentra sullo sviluppo di corpus vocali multilingue crowdsourcing e modelli pre-addestrati open source. Nvidia e Mozilla Common Voice mirano ad accelerare la crescita di modelli di riconoscimento vocale automatico che funzionino universalmente per ogni lingua parlata in tutto il mondo.

La gara nel settore dell’AI speech

Nvidia ha scoperto che gli assistenti vocali standard, come Amazon Alexa e Google Home, supportano meno dell’1% delle lingue parlate nel mondo. Per risolvere questo problema, l’azienda mira a migliorare l’inclusione linguistica nell’AI vocale e a espandere la disponibilità dei dati vocali per le lingue globali e con risorse limitate.

Nvidia si unisce a una gara che Meta e Google stanno già correndo: di recente, entrambe le società hanno rilasciato modelli di intelligenza artificiale vocale per aiutare la comunicazione tra persone che parlano lingue diverse. Il modello di traduzione AI speech-to-speech di Google, Translation Hub, può tradurre un grande volume di documenti in molte lingue diverse. Google ha anche appena annunciato che sta costruendo un traduttore vocale universale, addestrato su oltre 400 lingue, con l’affermazione che è la “più grande copertura di modelli linguistici vista oggi in un modello vocale”.

Allo stesso tempo, il progetto Universal Speech Translator (UST) di Meta AI aiuta a creare sistemi di intelligenza artificiale che consente la traduzione speech-to-speech in tempo reale in tutte le lingue, anche quelle parlate ma non comunemente scritte.

Un ecosistema per gli utenti di qualsiasi lingua

Il nuovo ecosistema di intelligenza artificiale vocale aiuta gli sviluppatori a creare, mantenere e migliorare i modelli e i set di dati di intelligenza artificiale vocale per l’inclusione linguistica, l’usabilità e l’esperienza. Gli utenti possono addestrare i propri modelli sui set di dati di Mozilla Common Voice e quindi offrire tali modelli pre-addestrati come architetture di riconoscimento vocale automatico di alta qualità. Quindi, altre organizzazioni e individui in tutto il mondo possono adattare e utilizzare tali architetture per costruire le loro applicazioni di intelligenza artificiale vocale.

“La diversità demografica è fondamentale per catturare la diversità linguistica”, ha dichiarato Caroline de Brito Gottlieb, product manager di Nvidia. “Ci sono diversi fattori vitali che influenzano la variazione del linguaggio, come dialetti e accenti. Attraverso questa partnership, miriamo a creare un ecosistema di set di dati che aiuti le comunità a costruire set di dati e modelli vocali per qualsiasi lingua o contesto”.

La piattaforma Mozilla Common Voice attualmente supporta 100 lingue, con 24mila ore di dati vocali disponibili da 500mila collaboratori in tutto il mondo. L’ultima versione del set di dati Common Voice include anche sei nuove lingue: tigre, taiwanese (Minnan), Meadow Mari, bengalese, Toki Pona e cantonese.

Attraverso la piattaforma Mozilla Common Voice, gli utenti possono fornire i loro set di dati audio registrando frasi come brevi clip vocali, che Mozilla convalida per garantire la qualità del set di dati al momento dell’invio.

Image Source: Mozilla Common Voice.

“L’ecosistema dell’intelligenza artificiale vocale si concentra non solo sulla diversità delle lingue, ma anche sugli accenti e sui profili di rumore che i diversi parlanti di lingue in tutto il mondo hanno”, ha dichiarato Siddharth Sharma, responsabile del marketing di prodotto, AI e deep learning di Nvidia. “Questo è stato il nostro obiettivo in Nvidia e abbiamo creato una soluzione che può essere personalizzata per ogni aspetto della pipeline del modello di intelligenza artificiale vocale”.

Le attuali implementazioni di AI Speech di Nvidia

L’azienda sta sviluppando l’intelligenza artificiale vocale per diversi casi d’uso, come il riconoscimento vocale automatico (ASR), la traduzione vocale artificiale (AST) e la sintesi vocale. Nvidia Riva, parte della piattaforma AI Nvidia, fornisce flussi di lavoro ottimizzati per GPU all’avanguardia per la creazione e l’implementazione di pipeline AI in tempo reale completamente personalizzabili per applicazioni come l’assistenza degli agenti dei contact center, gli assistenti virtuali, gli avatar digitali, le voci del marchio e la trascrizione delle videoconferenze. Le applicazioni sviluppate tramite Riva possono essere implementate su tutti i tipi di cloud e data center, all’edge o su dispositivi embedded.

NCS, una multinazionale e partner tecnologico dei trasporti del governo di Singapore, ha personalizzato il modello Riva FastPitch di Nvidia e ha costruito il proprio motore di sintesi vocale per l’inglese-Singapore utilizzando i dati vocali dei parlanti locali. NCS ha recentemente progettato Breeze, un’app per conducenti che traduce lingue come mandarino, hokkien, malese e tamil in inglese singaporiano con la stessa chiarezza ed espressività di un nativo di Singapore.

Il futuro focus di Nvidia sull’AI vocale

Nvidia mira a inserire gli attuali sviluppi di AST e dell’AI vocale di prossima generazione in casi d’uso di metaverso in tempo reale.

“Oggi ci limitiamo a offrire solo traduzioni lente da una lingua all’altra, e quelle traduzioni devono passare attraverso il testo”, ha detto. “Ma in futuro ci saranno persone nel metaverso in così tante lingue diverse che saranno tutte in grado di avere una traduzione istantanea l’una con l’altra”, commenta Siddharth Sharma. “Il prossimo passo”, aggiunge, “è lo sviluppo di sistemi che consentiranno interazioni fluide con persone in tutto il mondo attraverso il riconoscimento vocale per tutte le lingue e la sintesi vocale in tempo reale”.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 3