EVENTI

Nvidia apre la nuova era dell’AI fisica e digitale



Indirizzo copiato

Presentata al NeurIPS una nuova ondata di modelli e strumenti open source per l’AI fisica e digitale. Nuovi benchmark premiano l’apertura dei modelli Nemotron, mentre l’azienda amplia l’offerta per ricerca, sicurezza, robotica e autonomia. Arrivano nuovi modelli e dataset per il parlato e per la sicurezza dell’AI

Pubblicato il 2 dic 2025



Nvidia NeurIPS

I ricercatori di tutto il mondo fanno affidamento sulle tecnologie open-source come base dei loro lavori. Per offrire strumenti aggiornati alla comunità, Nvidia amplia ulteriormente la propria collezione di modelli, dataset e tool aperti, con applicazioni che spaziano praticamente in ogni campo di ricerca.

Alla conferenza NeurIPS – uno degli eventi globali più importanti dedicati all’AI l’azienda ha presentato nuovi modelli di AI fisica e strumenti per la ricerca, incluso Alpamayo-R1, il primo modello aperto di reasoning VLA (Vision-Language-Action) su scala industriale per la guida autonoma.

Nell’ambito della digital AI arrivano nuovi modelli e dataset per il parlato e per la sicurezza dell’AI.

Oltre 70 paper, talk e workshop firmati Nvidia coprono temi come AI reasoning, ricerca medica, sviluppo dei veicoli autonomi e molto altro.

Nvidia NeurIPS

Un nuovo Openness Index realizzato da Artificial Analysis riconosce l’impegno dell’azienda nell’open source: la famiglia di tecnologie Nvidia Nemotron risulta tra le più aperte dell’ecosistema, grazie alle licenze permissive, alla trasparenza dei dati e alla ricchezza dei dettagli tecnici forniti.


Nvidia NeurIPS
Esempi di output dal modello LidarGen, basato su Cosmos. La riga superiore mostra i dati di input con i dati lidar generati sovrapposti. La riga centrale mostra le mappe di portata lidar generate e reali. In basso a sinistra è visibile la nuvola di punti lidar reale, mentre in basso a destra è visibile la nuvola di punti generata da LidarGen.

Cosmos: la cassetta degli attrezzi per la Physical AI

Gli sviluppatori possono apprendere come utilizzare e post-addestrare i modelli Cosmos grazie al Cosmos Cookbook, una guida completa che copre:

  • cura dei dati;
  • generazione di dati sintetici;
  • workflow avanzati di post-training;
  • valutazione dei modelli.
Nvidia NeurIPS

Le applicazioni basate su Cosmos sono praticamente illimitate. Tra gli esempi più recenti:

  • LidarGen: primo world model capace di generare dati lidar per simulazione AV.
  • Omniverse NuRec Fixer: modello per simulazione AV e robotica che corregge artefatti in ricostruzioni neurali.
  • Cosmos Policy: framework per trasformare video-model pretrained in robuste policy robotiche.
  • ProtoMotions3: framework open-source accelerato GPU per addestrare umani digitali e robot umanoidi in scenari realistici generati da modelli WFM Cosmos.
Nvidia NeurIPS
Policy umanoide addestrata con ProtoMotions3 in Isaac Sim, con scena di sfondo 3D generata da Lyra con Cosmos WFM.

Le policy possono essere addestrate in Isaac Lab e Isaac Sim, e i dati generati possono post-addestrare modelli GR00T N per la robotica.

L’ecosistema Nvidia si muove di concerto: aziende come Voxel51, 1X, Figure AI, Foretellix, Gatik, Oxa, PlusAI e X-Humanoid utilizzano i modelli Cosmos per le loro applicazioni più avanzate. Ricercatori dell’ETH Zurich hanno presentant un paper su come Cosmos consenta la creazione di scene 3D realistiche e coerenti.


Nemotron e NeMo: nuovi strumenti per l’AI digitale e la sicurezza

Nvidia ha rilasciato anche nuovi modelli speech multi-speaker, modelli con capacità di reasoning e dataset per la sicurezza dell’AI, insieme a strumenti open per generare dataset sintetici di alta qualità.

Le novità includono:

  • MultiTalker Parakeet: ASR per audio in streaming capace di riconoscere più speaker anche in conversazioni sovrapposte.
  • Sortformer: modello all’avanguardia per la diarizzazione in tempo reale.
  • Nemotron Content Safety Reasoning: modello di sicurezza con reasoning dinamico basato su policy personalizzabili.
  • Nemotron Content Safety Audio Dataset: dataset sintetico per addestrare modelli capaci di rilevare contenuti audio non sicuri.
  • NeMo Gym: libreria open-source che accelera la creazione di ambienti di reinforcement learning per l’addestramento di LLM.
  • NeMo Data Designer Library: ora open sotto Apache 2.0, fornisce strumenti end-to-end per generare e validare dataset sintetici per AI generativa.

Partner come CrowdStrike, Palantir e ServiceNow utilizzano Nemotron e NeMo per costruire agenti AI sicuri e specializzati.

NVIDIA MultiTalker ASR Demo: Real-Time, Multi-Speaker Transcription Made Easy

Ricerca Nvidia: nuovi confini per i modelli linguistici

Tra i paper più rilevanti presentati a NeurIPS:

  • Audio Flamingo 3: modello audio-linguistico aperto capace di ragionare su parlato, suoni e musica, con contesti audio fino a 10 minuti.
  • Minitron-SSM: metodo di pruning per comprimere modelli ibridi, che dimezza Nemotron-H 8B mantenendo prestazioni superiori.
  • Jet-Nemotron: pipeline di post-training per architetture ibride efficienti e ad alta velocità di generazione.
  • Nemotron-Flash: nuova architettura SLM ottimizzata per la latenza reale, non solo per il numero di parametri.
  • ProRL: tecnica di reinforcement learning prolungato che amplia le capacità di reasoning dei modelli linguistici.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati