Aya Vision: Advancing the Frontier of Multilingual Multimodality

Saurabh Dash; Yiyang Nan; John Dang; Arash Ahmadian; Shivalika Singh; Madeline Smith; Bharat Venkitesh; Vlad Shmyhlo; Viraat Aryabumi; Walter Beller-Morales; Jeremy Pekmez; Jason Ozuzu; Pierre Richemond; Acyr Locatelli; Nick Frosst; Phil Blunsom; Aidan Gomez; Ivan Zhang; Marzieh Fadaee; Manoj Govindassamy; Sudip Roy; Matthias Gall\'e; Beyza Ermis; Ahmet \"Ust\"un; Sara Hooker

arXiv:2505.08751·cs.CL·May 14, 2025

Aya Vision: Advancing the Frontier of Multilingual Multimodality

Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang

PDF

Open Access

TL;DR

Aya Vision introduces innovative data and modeling techniques to develop high-performing multilingual multimodal models, effectively addressing challenges like data scarcity, translation distortion, and catastrophic forgetting, and achieving state-of-the-art results.

Contribution

The paper presents a synthetic annotation framework and a cross-modal model merging technique to enhance multilingual multimodal models while preserving text-only capabilities.

Findings

01

Aya Vision-8B outperforms larger models like Llama-3.2-90B-Vision.

02

Aya Vision-32B surpasses models more than twice its size.

03

The methods improve multilingual multimodal performance efficiently.

Abstract

Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsMultimodal Machine Learning Applications · Natural Language Processing Techniques · Topic Modeling