When Meaning Isn't Literal: Exploring Idiomatic Meaning Across Languages and Modalities

Sarmistha Das; Shreyas Guha; Suvrayan Bandyopadhyay; Salisa Phosit; Kitsuchart Pasupa; Sriparna Saha

arXiv:2604.10787·cs.CL·April 14, 2026

When Meaning Isn't Literal: Exploring Idiomatic Meaning Across Languages and Modalities

Sarmistha Das, Shreyas Guha, Suvrayan Bandyopadhyay, Salisa Phosit, Kitsuchart Pasupa, Sriparna Saha

PDF

TL;DR

This paper introduces Mediom, a multilingual multimodal idiom corpus, and HIDE, a framework for improving idiom understanding in AI models through iterative reasoning and error feedback.

Contribution

It provides a new multilingual multimodal idiom dataset and a hinting-based explanation framework to enhance figurative language comprehension in AI systems.

Findings

01

Large language models struggle with idiomatic and metaphorical reasoning.

02

Vision-language models show systematic failures in figurative disambiguation.

03

HIDE improves idiom explanation accuracy through iterative hinting and feedback.

Abstract

Idiomatic reasoning, deeply intertwined with metaphor and culture, remains a blind spot for contemporary language models, whose progress skews toward surface-level lexical and semantic cues. For instance, the Bengali idiom \textit{\foreignlanguage{bengali}{\char"0986\char"0999\char"09CD\char"0997\char"09C1 \char"09B0 \char"09AB\char"09B2 \char"099F\char"0995}} (angur fol tok, ``grapes are sour''): it encodes denial-driven rationalization, yet naive models latch onto the literal fox-and-grape imagery. Addressing this oversight, we present ``Mediom,'' a multilingual, multimodal idiom corpus of 3,533 Hindi, Bengali, and Thai idioms, each paired with gold-standard explanations, cross-lingual translations, and carefully aligned text--image representations. We benchmark both large language models (textual reasoning) and vision-language models (figurative disambiguation) on Mediom, exposing…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.