Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

NVIDIA: Amala Sanjay Deshmukh; Kateryna Chumachenko; Tuomas Rintamaki; Matthieu Le; Tyler Poon; Danial Mohseni Taheri; Ilia Karmanov; Guilin Liu; Jarno Seppanen; Arushi Goel; Mike Ranzinger; Greg Heinrich; Guo Chen; Lukas Voegtle; Philipp Fischer; Timo Roman; Karan Sapra; Collin McCarthy; Shaokun Zhang; Fuxiao Liu; Hanrong Ye; Yi Dong; Mingjie Liu; Yifan Peng; Piotr Zelasko; Zhehuai Chen; Nithin Rao Koluguri; Nune Tadevosyan; Lilit Grigoryan; Ehsan Hosseini Asl; Pritam Biswas; Leili Tavabi; Yuanhang Su; Zhiding Yu; Peter Jin; Alexandre Milesi; Netanel Haber; Yao Xu; Sarah Amiraslani; Nabin Mulepati; Eric Tramel; Jaehun Jung; Ximing Lu; Brandon Cui; Jin Xu; Zhiqi Li; Shihao Wang; Yuanguo Kuang; Shaokun Zhang; Huck Yang; Boyi Li; Hongxu Yin; Song Han; Bilal Kartal; Pavlo Molchanov; Adi Renduchintala; Charles Wang; David Mosallanezhad; Soumye Singhal; Luis Vega; Katherine Cheung; Sreyan Ghosh; Yian Zhang; Alexander Bukharin; Venkat Srinivasan; Johnny Greco; Andre Manoel; Maarten Van Segbroeck; Suseella Panguliri; Rohit Watve; Divyanshu Kakwani; Shubham Pachori; Jeffrey Glick; Radha Sri-Tharan; Aileen Zaman; Khanh Nguyen; Shi Chen; Jiaheng Fang; Qing Miao; Wenfei Zhou; Yu Wang; Zaid Pervaiz Bhat; Varun Praveen; Arihant Jain; Ramanathan Arunachalam; Tomasz Kornuta; Ashton Sharabiani; Amy Shen; Wei Huang; Yi-Fu Wu; Ali Roshan Ghias; Huiying Li; Brian Yu; Nima Tajbakhsh; Chen Cui; Wenwen Gao; Li Ding; Terry Kong; Manoj Kilaru; Anahita Bhiwandiwalla; Marek Wawrzos; Daniel Korzekwa; Pablo Ribalta; Grzegorz Chlebus; Besmira Nushi; Ewa Dobrowolska; Maciej Jakub Mikulski; Kunal Dhawan; Steve Huang; Jagadeesh Balam; Yongqiang Wang; Nikolay Karpov; Valentin Mendelev; George Zelenfroynd; Meline Mkrtchyan; Qing Miao; Omri Almog; Bhavesh Pawar; Rameshwar Shivbhakta; Sudeep Sabnis; Ashrton Sharabiani; Negar Habibi; Geethapriya Venkataramani; Pamela Peng; Prerit Rodney; Serge Panev; Richard Mazzarese; Nicky Liu; Michael Fukuyama; Andrii Skliar; Roger Waleffe; Duncan Riach; Yunheng Zou; Jian Hu; Hao Zhang; Binfeng Xu; Yuhao Yang; Zuhair Ahmed; Alexandre Milesi; Carlo del Mundo; Chad Voegele; Zhiyu Cheng; Nave Assaf; Andrii Skliar; Daniel Afrimi; Natan Bagrov; Ran Zilberstein; Ofri Masad; Eugene Khvedchenia; Natan Bagrov; Borys Tymchenko; Tomer Asida; Daniel Afrimi; Parth Mannan; Victor Cui; Michael Evans; Katherine Luna; Jie Lou; Pinky Xu; Guyue Huang; Negar Habibi; Michael Boone; Pradeep Thalasta; Adeola Adesoba; Dina Yared; Christopher Parisien; Leon Derczynski; Shaona Ghosh; Wes Feely; Micah Schaffer; Radha Sri-Tharan; Jeffrey Glick; Barnaby Simkin; George Zelenfroynd; Tomasz Grzegorzek; Rishabh Garg; Aastha Jhunjhunwala; Sergei Kolchenko; Farzan Memarian; Haran Kumar; Shiv Kumar; Isabel Hulseman; Anjali Shah; Kari Briski; Padmavathy Subramanian; Joey Conway; Udi Karpas; Jane Polak Scowcroft; Annie Surla; Shilpa Ammireddy; Ellie Evans; Jesse Oliver; Tom Balough; Chia-Chih Chen; Sandip Bhaskar; Alejandra Rico; Bardiya Sadeghi; Seph Mard; Katherine Cheung; Meredith Price; Laya Sleiman; Saori Kaji; Wesley Helmholz; Wendy Quan; Michael Lightstone; Jonathan Cohen; Jian Zhang; Oleksii Kuchaiev; Boris Ginsburg; Jan Kautz; Eileen Long; Mohammad Shoeybi; Mostofa Patwary; Oluwatobi Olabiyi; Andrew Tao; Bryan Catanzaro; Udi Karpas

arXiv:2604.24954·cs.LG·May 12, 2026

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

NVIDIA: Amala Sanjay Deshmukh, Kateryna Chumachenko, Tuomas Rintamaki, Matthieu Le, Tyler Poon, Danial Mohseni Taheri, Ilia Karmanov, Guilin Liu, Jarno Seppanen, Arushi Goel, Mike Ranzinger, Greg Heinrich, Guo Chen, Lukas Voegtle, Philipp Fischer, Timo Roman, Karan Sapra

PDF

10 Models 1 Video

TL;DR

Nemotron 3 Nano Omni is a multimodal AI model supporting audio, text, images, and video, with improved accuracy, efficiency, and open access to checkpoints and training data.

Contribution

It introduces a new multimodal model with native audio support, enhanced accuracy, and innovative token-reduction techniques for lower latency and higher throughput.

Findings

01

Achieves leading results in document understanding, audio-video comprehension, and agentic computer use.

02

Delivers lower inference latency and higher throughput than comparable models.

03

Provides open access to model checkpoints, training data, and code for research.

Abstract

We introduce Nemotron 3 Nano Omni, the latest model in the Nemotron multimodal series and the first to natively support audio inputs alongside text, images, and video. Nemotron 3 Nano Omni delivers consistent accuracy improvements over its predecessor, Nemotron Nano V2 VL, across all modalities, enabled by advances in architecture, training data and recipes. In particular, Nemotron 3 delivers leading results in real-world document understanding, long audio-video comprehension, and agentic computer use. Built on the highly efficient Nemotron 3 Nano 30B-A3B backbone, Nemotron 3 Nano Omni further incorporates innovative multimodal token-reduction techniques to deliver substantially lower inference latency and higher throughput than other models of similar size. We are releasing model checkpoints in BF16, FP8, and FP4 formats, along with portions of the training data and codebase to…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Videos

NVIDIA New AI Is An Efficiency Monster· youtube