MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application

Xueqing Peng; Lingfei Qian; Yan Wang; Ruoyu Xiang; Yueru He; Yang Ren; Mingyang Jiang; Vincent Jim Zhang; Yuqing Guo; Jeff Zhao; Huan He; Yi Han; Yun Feng; Yuechen Jiang; Yupeng Cao; Haohang Li; Yangyang Yu; Xiaoyu Wang; Penglei Gao; Shengyuan Lin; Keyi Wang; Shanshan Yang; Yilun Zhao; Zhiwei Liu; Peng Lu; Jerry Huang; Suyuchen Wang; Triantafillos Papadopoulos; Polydoros Giannouris; Efstathia Soufleri; Nuo Chen; Zhiyang Deng; Heming Fu; Yijia Zhao; Mingquan Lin; Meikang Qiu; Kaleb E Smith; Arman Cohan; Xiao-Yang Liu; Jimin Huang; Guojun Xiong; Alejandro Lopez-Lira; Xi Chen; Junichi Tsujii; Jian-Yun Nie; Sophia Ananiadou; Qianqian Xie

arXiv:2506.14028·cs.CL·October 14, 2025

MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application

Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Vincent Jim Zhang, Yuqing Guo, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang

PDF

5 Datasets

TL;DR

MultiFinBen is a comprehensive benchmark for evaluating large language models in realistic financial scenarios involving multiple languages and modalities, revealing significant gaps in current model capabilities.

Contribution

It introduces the first expert-annotated multilingual and multimodal financial benchmark with new tasks and a structured evaluation approach, highlighting current model limitations.

Findings

01

Frontier models like GPT-4o achieve only 46% overall performance.

02

Models perform better on vision and audio tasks than multilingual reasoning.

03

Persistent challenges remain in multilingual, multimodal, and expert-level financial reasoning.

Abstract

Real-world financial analysis involves information across multiple languages and modalities, from reports and news to scanned filings and meeting recordings. Yet most existing evaluations of LLMs in finance remain text-only, monolingual, and largely saturated by current models. To bridge these gaps, we present MultiFinBen, the first expert-annotated multilingual (five languages) and multimodal (text, vision, audio) benchmark for evaluating LLMs in realistic financial contexts. MultiFinBen introduces two new task families: multilingual financial reasoning, which tests cross-lingual evidence integration from filings and news, and financial OCR, which extracts structured text from scanned documents containing tables and charts. Rather than aggregating all available datasets, we apply a structured, difficulty-aware selection based on advanced model performance, ensuring balanced challenge…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.