I ricercatori di tutto il mondo fanno affidamento sulle tecnologie open-source come base dei loro lavori. Per offrire strumenti aggiornati alla comunità, Nvidia amplia ulteriormente la propria collezione di modelli, dataset e tool aperti, con applicazioni che spaziano praticamente in ogni campo di ricerca.
Alla conferenza NeurIPS – uno degli eventi globali più importanti dedicati all’AI – l’azienda ha presentato nuovi modelli di AI fisica e strumenti per la ricerca, incluso Alpamayo-R1, il primo modello aperto di reasoning VLA (Vision-Language-Action) su scala industriale per la guida autonoma.
Nell’ambito della digital AI arrivano nuovi modelli e dataset per il parlato e per la sicurezza dell’AI.
Oltre 70 paper, talk e workshop firmati Nvidia coprono temi come AI reasoning, ricerca medica, sviluppo dei veicoli autonomi e molto altro.

Un nuovo Openness Index realizzato da Artificial Analysis riconosce l’impegno dell’azienda nell’open source: la famiglia di tecnologie Nvidia Nemotron risulta tra le più aperte dell’ecosistema, grazie alle licenze permissive, alla trasparenza dei dati e alla ricchezza dei dettagli tecnici forniti.

Indice degli argomenti:
Cosmos: la cassetta degli attrezzi per la Physical AI
Gli sviluppatori possono apprendere come utilizzare e post-addestrare i modelli Cosmos grazie al Cosmos Cookbook, una guida completa che copre:
- cura dei dati;
- generazione di dati sintetici;
- workflow avanzati di post-training;
- valutazione dei modelli.

Le applicazioni basate su Cosmos sono praticamente illimitate. Tra gli esempi più recenti:
- LidarGen: primo world model capace di generare dati lidar per simulazione AV.
- Omniverse NuRec Fixer: modello per simulazione AV e robotica che corregge artefatti in ricostruzioni neurali.
- Cosmos Policy: framework per trasformare video-model pretrained in robuste policy robotiche.
- ProtoMotions3: framework open-source accelerato GPU per addestrare umani digitali e robot umanoidi in scenari realistici generati da modelli WFM Cosmos.

Le policy possono essere addestrate in Isaac Lab e Isaac Sim, e i dati generati possono post-addestrare modelli GR00T N per la robotica.
L’ecosistema Nvidia si muove di concerto: aziende come Voxel51, 1X, Figure AI, Foretellix, Gatik, Oxa, PlusAI e X-Humanoid utilizzano i modelli Cosmos per le loro applicazioni più avanzate. Ricercatori dell’ETH Zurich hanno presentant un paper su come Cosmos consenta la creazione di scene 3D realistiche e coerenti.
Nemotron e NeMo: nuovi strumenti per l’AI digitale e la sicurezza
Nvidia ha rilasciato anche nuovi modelli speech multi-speaker, modelli con capacità di reasoning e dataset per la sicurezza dell’AI, insieme a strumenti open per generare dataset sintetici di alta qualità.
Le novità includono:
- MultiTalker Parakeet: ASR per audio in streaming capace di riconoscere più speaker anche in conversazioni sovrapposte.
- Sortformer: modello all’avanguardia per la diarizzazione in tempo reale.
- Nemotron Content Safety Reasoning: modello di sicurezza con reasoning dinamico basato su policy personalizzabili.
- Nemotron Content Safety Audio Dataset: dataset sintetico per addestrare modelli capaci di rilevare contenuti audio non sicuri.
- NeMo Gym: libreria open-source che accelera la creazione di ambienti di reinforcement learning per l’addestramento di LLM.
- NeMo Data Designer Library: ora open sotto Apache 2.0, fornisce strumenti end-to-end per generare e validare dataset sintetici per AI generativa.
Partner come CrowdStrike, Palantir e ServiceNow utilizzano Nemotron e NeMo per costruire agenti AI sicuri e specializzati.
Ricerca Nvidia: nuovi confini per i modelli linguistici
Tra i paper più rilevanti presentati a NeurIPS:
- Audio Flamingo 3: modello audio-linguistico aperto capace di ragionare su parlato, suoni e musica, con contesti audio fino a 10 minuti.
- Minitron-SSM: metodo di pruning per comprimere modelli ibridi, che dimezza Nemotron-H 8B mantenendo prestazioni superiori.
- Jet-Nemotron: pipeline di post-training per architetture ibride efficienti e ad alta velocità di generazione.
- Nemotron-Flash: nuova architettura SLM ottimizzata per la latenza reale, non solo per il numero di parametri.
- ProRL: tecnica di reinforcement learning prolungato che amplia le capacità di reasoning dei modelli linguistici.








