LoRaLay: A Multilingual and Multimodal Dataset for Long Range and   Layout-Aware Summarization

Laura Nguyen; Thomas Scialom; Benjamin Piwowarski; Jacopo Staiano

arXiv:2301.11312·cs.CL·January 27, 2023

LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization

Laura Nguyen, Thomas Scialom, Benjamin Piwowarski, Jacopo Staiano

PDF

Open Access 2 Repos 5 Datasets

TL;DR

LoRaLay introduces a multilingual, multimodal dataset with visual and layout information for long-range summarization, enabling better modeling of complex documents across multiple languages.

Contribution

It provides new datasets with layout information in multiple languages and proposes combined layout-aware and long-range models achieving state-of-the-art results.

Findings

01

Layout information improves summarization quality.

02

Multilingual datasets facilitate cross-lingual research.

03

Combined models outperform existing approaches.

Abstract

Text Summarization is a popular task and an active area of research for the Natural Language Processing community. By definition, it requires to account for long input texts, a characteristic which poses computational challenges for neural models. Moreover, real-world documents come in a variety of complex, visually-rich, layouts. This information is of great relevance, whether to highlight salient content or to encode long-range interactions between textual passages. Yet, all publicly available summarization datasets only provide plain text content. To facilitate research on how to exploit visual/layout information to better capture long-range dependencies in summarization models, we present LoRaLay, a collection of datasets for long-range summarization with accompanying visual/layout information. We extend existing and popular English datasets (arXiv and PubMed) with layout…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

Datasets

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsTopic Modeling · Natural Language Processing Techniques · Handwritten Text Recognition Techniques