MemeLens: Multilingual Multitask VLMs for Memes

Ali Ezzat Shahroor; Mohamed Bayan Kmainasi; Abul Hasnat; Dimitar Dimitrov; Giovanni Da San Martino; Preslav Nakov; Firoj Alam

arXiv:2601.12539·cs.AI·May 5, 2026

MemeLens: Multilingual Multitask VLMs for Memes

Ali Ezzat Shahroor, Mohamed Bayan Kmainasi, Abul Hasnat, Dimitar Dimitrov, Giovanni Da San Martino, Preslav Nakov, Firoj Alam

PDF

1 Repo 1 Models 1 Datasets

TL;DR

MemeLens is a multilingual, multitask vision-language model that unifies 38 meme datasets to improve understanding of memes across various tasks and languages.

Contribution

It consolidates diverse meme datasets into a shared taxonomy and provides a comprehensive analysis of modeling paradigms and dataset interactions.

Findings

01

Multimodal training is essential for robust meme understanding.

02

Models vary significantly across semantic categories.

03

Fine-tuning on individual datasets can lead to over-specialization.

Abstract

Memes are a dominant medium for online communication and manipulation because meaning emerges from interactions between embedded text, imagery, and cultural context. Existing meme research is distributed across tasks (hate, misogyny, propaganda, sentiment, humour) and languages, which limits cross-domain generalization. To address this gap we propose MemeLens, a unified multilingual and multitask explanation-enhanced Vision Language Model (VLM) for meme understanding. We consolidate $38$ public meme datasets, filter and map dataset-specific labels into a shared taxonomy of $20$ tasks spanning harm, targets, figurative/pragmatic intent, and affect. We present a comprehensive empirical analysis across modeling paradigms, task categories, and datasets. Our findings suggest that robust meme understanding requires multimodal training, exhibits substantial variation across semantic…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

MohamedBayan/MemeLens
github

Models

🤗
QCRI/MemeLens-VLM
model· 599 dl· ♡ 1
599 dl♡ 1

Datasets

QCRI/MemeLens
dataset· 4.5k dl
4.5k dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.