Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA: Aaron Blakeman; Aaron Grattafiori; Aarti Basant; Abhibha Gupta; Abhinav Khattar; Adi Renduchintala; Aditya Vavre; Akanksha Shukla; Akhiad Bercovich; Aleksander Ficek; Aleksandr Shaposhnikov; Alex Kondratenko; Alexander Bukharin; Alexandre Milesi; Ali Taghibakhshi; Alisa Liu; Amelia Barton; Ameya Sunil Mahabaleshwarkar; Amir Klein; Amit Zuker; Amnon Geifman; Amy Shen; Anahita Bhiwandiwalla; Andrew Tao; Ann Guan; Anubhav Mandarwal; Arham Mehta; Ashwath Aithal; Ashwin Poojary; Asif Ahamed; Asma Kuriparambil Thekkumpate; Ayush Dattagupta; Banghua Zhu; Bardiya Sadeghi; Barnaby Simkin; Ben Lanir; Benedikt Schifferer; Besmira Nushi; Bilal Kartal; Bita Darvish Rouhani; Boris Ginsburg; Brandon Norick; Brandon Soubasis; Branislav Kisacanin; Brian Yu; Bryan Catanzaro; Carlo del Mundo; Chantal Hwang; Charles Wang; Cheng-Ping Hsieh; Chenghao Zhang; Chenhan Yu; Chetan Mungekar; Chintan Patel; Chris Alexiuk; Christopher Parisien; Collin Neale; Damon Mosk-Aoyama; Dan Su; Dane Corneil; Daniel Afrimi; Daniel Rohrer; Daniel Serebrenik; Daria Gitman; Daria Levy; Darko Stosic; David Mosallanezhad; Deepak Narayanan; Dhruv Nathawani; Dima Rekesh; Dina Yared; Divyanshu Kakwani; Dong Ahn; Duncan Riach; Dusan Stosic; Edgar Minasyan; Edward Lin; Eileen Long; Eileen Peters Long; Elena Lantz; Ellie Evans; Elliott Ning; Eric Chung; Eric Harper; Eric Tramel; Erick Galinkin; Erik Pounds; Evan Briones; Evelina Bakhturina; Faisal Ladhak; Fay Wang; Fei Jia; Felipe Soares; Feng Chen; Ferenc Galko; Frankie Siino; Gal Hubara Agam; Ganesh Ajjanagadde; Gantavya Bhatt; Gargi Prasad; George Armstrong; Gerald Shen; Gorkem Batmaz; Grigor Nalbandyan; Haifeng Qian; Harsh Sharma; Hayley Ross; Helen Ngo; Herman Sahota; Hexin Wang; Himanshu Soni; Hiren Upadhyay; Huizi Mao; Huy C Nguyen; Huy Q Nguyen; Iain Cunningham; Ido Shahaf; Igor Gitman; Ilya Loshchilov; Ivan Moshkov; Izzy Putterman; Jan Kautz; Jane Polak Scowcroft; Jared Casper; Jatin Mitra; Jeffrey Glick; Jenny Chen; Jesse Oliver; Jian Zhang; Jiaqi Zeng; Jie Lou; Jimmy Zhang; Jining Huang; Joey Conway; Joey Guman; John Kamalu; Johnny Greco; Jonathan Cohen; Joseph Jennings; Joyjit Daw; Julien Veron Vialard; Junkeun Yi; Jupinder Parmar; Kai Xu; Kan Zhu; Kari Briski; Katherine Cheung; Katherine Luna; Keshav Santhanam; Kevin Shih; Kezhi Kong; Khushi Bhardwaj; Krishna C. Puvvada; Krzysztof Pawelec; Kumar Anik; Lawrence McAfee; Laya Sleiman; Leon Derczynski; Li Ding; Lucas Liebenwein; Luis Vega; Maanu Grover; Maarten Van Segbroeck; Maer Rodrigues de Melo; Makesh Narsimhan Sreedhar; Manoj Kilaru; Maor Ashkenazi; Marc Romeijn; Mark Cai; Markus Kliegl; Maryam Moosaei; Matvei Novikov; Mehrzad Samadi; Melissa Corpuz; Mengru Wang; Meredith Price; Michael Boone; Michael Evans; Miguel Martinez; Mike Chrzanowski; Mohammad Shoeybi; Mostofa Patwary; Nabin Mulepati; Natalie Hereth; Nave Assaf; Negar Habibi; Neta Zmora; Netanel Haber; Nicola Sessions; Nidhi Bhatia; Nikhil Jukar; Nikki Pope; Nikolai Ludwig; Nima Tajbakhsh; Nirmal Juluru; Oleksii Hrinchuk; Oleksii Kuchaiev; Olivier Delalleau; Oluwatobi Olabiyi; Omer Ullman Argov; Ouye Xie; Parth Chadha; Pasha Shamis; Pavlo Molchanov; Pawel Morkisz; Peter Dykas; Peter Jin; Pinky Xu; Piotr Januszewski; Pranav Prashant Thombre; Prasoon Varshney; Pritam Gundecha; Qing Miao; Rabeeh Karimi Mahabadi; Ran El-Yaniv; Ran Zilberstein; Rasoul Shafipour; Rich Harang; Rick Izzo; Rima Shahbazyan; Rishabh Garg; Ritika Borkar; Ritu Gala; Riyad Islam; Roger Waleffe; Rohit Watve; Roi Koren; Ruoxi Zhang; Russell J. Hewett; Ryan Prenger; Ryan Timbrook; Sadegh Mahdavi; Sahil Modi; Samuel Kriman; Sanjay Kariyappa; Sanjeev Satheesh; Saori Kaji; Satish Pasumarthi; Sean Narentharen; Sean Narenthiran; Seonmyeong Bak; Sergey Kashirsky; Seth Poulos; Shahar Mor; Shanmugam Ramasamy; Shantanu Acharya; Shaona Ghosh; Sharath Turuvekere Sreenivas; Shelby Thomas; Shiqing Fan; Shreya Gopal; Shrimai Prabhumoye; Shubham Pachori; Shubham Toshniwal; Shuoyang Ding; Siddharth Singh; Simeng Sun; Smita Ithape; Somshubra Majumdar; Soumye Singhal; Stefania Alborghetti; Stephen Ge; Sugam Dipak Devare; Sumeet Kumar Barua; Suseella Panguluri; Suyog Gupta; Sweta Priyadarshi; Syeda Nahida Akter; Tan Bui; Teodor-Dumitru Ene; Terry Kong; Thanh Do; Tijmen Blankevoort; Tom Balough; Tomer Asida; Tomer Bar Natan; Tugrul Konuk; Twinkle Vashishth; Udi Karpas; Ushnish De; Vahid Noorozi; Vahid Noroozi; Venkat Srinivasan; Venmugil Elango; Vijay Korthikanti; Vitaly Kurin; Vitaly Lavrukhin; Wanli Jiang; Wasi Uddin Ahmad; Wei Du; Wei Ping; Wenfei Zhou; Will Jennings; William Zhang; Wojciech Prazuch; Xiaowei Ren; Yashaswi Karnati; Yejin Choi; Yev Meyer; Yi-Fu Wu; Yian Zhang; Ying Lin; Yonatan Geifman; Yonggan Fu; Yoshi Subara; Yoshi Suhara; Yubo Gao; Zach Moshe; Zhen Dong; Zihan Liu; Zijia Chen; Zijie Yan

arXiv:2512.20848·cs.CL·December 25, 2025

Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA: Aaron Blakeman, Aaron Grattafiori, Aarti Basant, Abhibha Gupta, Abhinav Khattar, Adi Renduchintala, Aditya Vavre, Akanksha Shukla, Akhiad Bercovich, Aleksander Ficek, Aleksandr Shaposhnikov, Alex Kondratenko, Alexander Bukharin, Alexandre Milesi, Ali Taghibakhshi

PDF

Open Access 10 Models

TL;DR

Nemotron 3 Nano is an advanced mixture-of-experts language model that achieves higher accuracy and throughput with fewer activated parameters, supporting long contexts and demonstrating improved reasoning and agentic capabilities.

Contribution

Introduces Nemotron 3 Nano, a hybrid Mamba-Transformer model with efficient parameter activation, large-scale training, and superior performance on benchmarks and reasoning tasks.

Findings

01

Achieves up to 3.3x higher inference throughput.

02

Outperforms previous models in accuracy on benchmarks.

03

Supports context lengths up to 1 million tokens.

Abstract

We present Nemotron 3 Nano 30B-A3B, a Mixture-of-Experts hybrid Mamba-Transformer language model. Nemotron 3 Nano was pretrained on 25 trillion text tokens, including more than 3 trillion new unique tokens over Nemotron 2, followed by supervised fine tuning and large-scale RL on diverse environments. Nemotron 3 Nano achieves better accuracy than our previous generation Nemotron 2 Nano while activating less than half of the parameters per forward pass. It achieves up to 3.3x higher inference throughput than similarly-sized open models like GPT-OSS-20B and Qwen3-30B-A3B-Thinking-2507, while also being more accurate on popular benchmarks. Nemotron 3 Nano demonstrates enhanced agentic, reasoning, and chat abilities and supports context lengths up to 1M tokens. We release both our pretrained Nemotron 3 Nano 30B-A3B Base and post-trained Nemotron 3 Nano 30B-A3B checkpoints on Hugging Face.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Topic Modeling · Artificial Intelligence in Healthcare and Education