Voxtral TTS

Mistral-AI: Alexander H. Liu; Alexis Tacnet; Andy Ehrenberg; Andy Lo; Chen-Yo Sun; Guillaume Lample; Henry Lagarde; Jean-Malo Delignon; Jaeyoung Kim; John Harvill; Khyathi Raghavi Chandu; Lorenzo Signoretti; Margaret Jennings; Patrick von Platen; Pavankumar Reddy Muddireddy; Rohin Arora; Sanchit Gandhi; Samuel Humeau; Soham Ghosh; Srijan Mishra; Van Phung; Abdelaziz Bounhar; Abhinav Rastogi; Adrien Sad\'e; Alan Jeffares; Albert Jiang; Alexandre Cahill; Alexandre Gavaudan; Alexandre Sablayrolles; Am\'elie H\'eliou; Amos You; Andrew Bai; Andrew Zhao; Angele Lenglemetz; Anmol Agarwal; Anton Eliseev; Antonia Calvi; Arjun Majumdar; Arthur Fournier; Artjom Joosen; Avi Sooriyarachchi; Aysenur Karaduman Utkur; Baptiste Bout; Baptiste Rozi\`ere; Baudouin De Monicault; Benjamin Tibi; Bowen Yang; Charlotte Cronj\"ager; Cl\'emence Lanfranchi; Connor Chen; Corentin Barreau; Corentin Sautier; Cyprien Courtot; Darius Dabert; Diego de las Casas; Elizaveta Demyanenko; Elliot Chane-Sane; Emmanuel Gottlob; Enguerrand Paquin; Etienne Goffinet; Fabien Niel; Faruk Ahmed; Federico Baldassarre; Gabrielle Berrada; Ga\"etan Ecrepont; Gauthier Guinet; Genevieve Hayes; Georgii Novikov; Giada Pistilli; Guillaume Kunsch; Guillaume Martin; Guillaume Raille; Gunjan Dhanuka; Gunshi Gupta; Han Zhou; Harshil Shah; Hope McGovern; Hugo Thimonier; Indraneel Mukherjee; Irene Zhang; Jacques Sun; Jan Ludziejewski; Jason Rute; J\'er\'emie Dentan; Joachim Studnia; Jonas Amar; Jos\'ephine Delas; Josselin Somerville Roberts; Julien Tauran; Karmesh Yadav; Kartik Khandelwal; Kilian Tep; Kush Jain; Laurence Aitchison; Laurent Fainsin; L\'eonard Blier; Lingxiao Zhao; Louis Martin; Lucile Saulnier; Luyu Gao; Maarten Buyl; Manan Sharma; Marie Pellat; Mark Prins; Martin Alexandre; Mathieu Poir\'ee; Mathieu Schmitt; Mathilde Guillaumin; Matthieu Dinot; Matthieu Futeral; Maxime Darrin; Maximilian Augustin; Mert Unsal; Mia Chiquier; Mikhail Biriuchinskii; Minh-Quang Pham; Mircea Lica; Morgane Rivi\`ere; Nathan Grinsztajn; Neha Gupta; Olivier Bousquet; Olivier Duchenne; Patricia Wang; Paul Jacob; Paul Wambergue; Paula Kurylowicz; Philippe Pinel; Philom\`ene Chagniot; Pierre Stock; Piotr Mi{\l}o\'s; Prateek Gupta; Pravesh Agrawal; Quentin Torroba; Ram Ramrakhya; Randall Isenhour; Rishi Shah; Romain Sauvestre; Roman Soletskyi; Rosalie Millner; Rupert Menneer; Sagar Vaze; Samuel Barry; Samuel Belkadi; Sandeep Subramanian; Sean Cha; Shashwat Verma; Siddhant Waghjale; Siddharth Gandhi; Simon Lepage; Sumukh Aithal; Szymon Antoniak; Tarun Kumar Vangani; Teven Le Scao; Th\'eo Cachet; Theo Simon Sorg; Thibaut Lavril; Thomas Chabal; Thomas Foubert; Thomas Robert; Thomas Wang; Tim Lawson; Tom Bewley; Tom Edwards; Tyler Wang; Umar Jamil; Umberto Tomasini; Valeriia Nemychnikova; Vedant Nanda; Victor Jouault; Vincent Maladi\`ere; Vincent Pfister; Virgile Richard; Vladislav Bataev; Wassim Bouaziz; Wen-Ding Li; William Havard; William Marshall; Xinghui Li; Xingran Guo; Xinyu Yang; Yannic Neuhaus; Yassine El Ouahidi; Yassir Bendou; Yihan Wang; Yimu Pan; Zaccharie Ramzi; Zhenlin Xu

arXiv:2603.25551·cs.AI·April 7, 2026

Voxtral TTS

Mistral-AI: Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Henry Lagarde, Jean-Malo Delignon, Jaeyoung Kim, John Harvill, Khyathi Raghavi Chandu, Lorenzo Signoretti, Margaret Jennings, Patrick von Platen, Pavankumar Reddy Muddireddy

PDF

12 Models

TL;DR

Voxtral TTS is a novel multilingual text-to-speech model that produces natural, expressive speech from minimal reference audio, utilizing a hybrid architecture and a custom speech tokenizer.

Contribution

It introduces a hybrid auto-regressive and flow-matching architecture with a new speech tokenizer trained from scratch, enabling high-quality multilingual voice cloning from limited data.

Findings

01

Voxtral TTS outperforms ElevenLabs Flash v2.5 in human evaluations for naturalness and expressivity.

02

The model achieves a 68.4% win rate in preference tests.

03

It can generate expressive speech from as little as 3 seconds of reference audio.

Abstract

We introduce Voxtral TTS, an expressive multilingual text-to-speech model that generates natural speech from as little as 3 seconds of reference audio. Voxtral TTS adopts a hybrid architecture that combines auto-regressive generation of semantic speech tokens with flow-matching for acoustic tokens. These tokens are encoded and decoded with Voxtral Codec, a speech tokenizer trained from scratch with a hybrid VQ-FSQ quantization scheme. In human evaluations conducted by native speakers, Voxtral TTS is preferred for multilingual voice cloning due to its naturalness and expressivity, achieving a 68.4\% win rate over ElevenLabs Flash v2.5. We release the model weights under a CC BY-NC license.

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.