FicSim: A Dataset for Multi-Faceted Semantic Similarity in Long-Form Fiction

Natasha Johnson; Amanda Bertsch; Maria-Emil Deal; Emma Strubell

arXiv:2510.20926·cs.CL·January 21, 2026

FicSim: A Dataset for Multi-Faceted Semantic Similarity in Long-Form Fiction

Natasha Johnson, Amanda Bertsch, Maria-Emil Deal, Emma Strubell

PDF

1 Datasets 1 Video

TL;DR

FicSim introduces a novel dataset of long-form fiction with multi-faceted similarity annotations, enabling better evaluation of language models for literary analysis tasks, addressing limitations of existing datasets.

Contribution

The paper presents FICSIM, a new dataset with detailed similarity scores for long-form fiction, and evaluates embedding models, highlighting their focus on surface features over semantic understanding.

Findings

01

Models tend to focus on surface-level features.

02

FICSIM enables nuanced evaluation of semantic similarity.

03

Dataset creation involved author consent and expert validation.

Abstract

As language models become capable of processing increasingly long and complex texts, there has been growing interest in their application within computational literary studies. However, evaluating the usefulness of these models for such tasks remains challenging due to the cost of fine-grained annotation for long-form texts and the data contamination concerns inherent in using public-domain literature. Current embedding similarity datasets are not suitable for evaluating literary-domain tasks because of a focus on coarse-grained similarity and primarily on very short text. We assemble and release FICSIM, a dataset of long-form, recently written fiction, including scores along 12 axes of similarity informed by author-produced metadata and validated by digital humanities scholars. We evaluate a suite of embedding models on this task, demonstrating a tendency across models to focus on…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

ficsim/ficsim
dataset· 19 dl
19 dl

Videos

FicSim: A Dataset for Multi-Faceted Semantic Similarity in Long-Form Fiction· underline