Consistent Document-Level Relation Extraction via Counterfactuals

Ali Modarressi; Abdullatif K\"oksal; Hinrich Sch\"utze

arXiv:2407.06699·cs.CL·October 16, 2024

Consistent Document-Level Relation Extraction via Counterfactuals

Ali Modarressi, Abdullatif K\"oksal, Hinrich Sch\"utze

PDF

Open Access 1 Repo 1 Datasets 1 Video

TL;DR

This paper introduces CovEReD, a counterfactual data generation method for document-level relation extraction, which improves model consistency by reducing reliance on spurious signals without harming overall performance.

Contribution

The paper presents a novel counterfactual data augmentation approach for document-level RE that enhances model consistency and reduces bias from spurious correlations.

Findings

01

Models trained on factual data are inconsistent after entity replacement.

02

Counterfactual training maintains consistency with minimal performance loss.

03

Re-DocRED-CF dataset enables evaluation of model robustness against biases.

Abstract

Many datasets have been developed to train and evaluate document-level relation extraction (RE) models. Most of these are constructed using real-world data. It has been shown that RE models trained on real-world data suffer from factual biases. To evaluate and address this issue, we present CovEReD, a counterfactual data generation approach for document-level relation extraction datasets using entity replacement. We first demonstrate that models trained on factual data exhibit inconsistent behavior: while they accurately extract triples from factual data, they fail to extract the same triples after counterfactual modification. This inconsistency suggests that models trained on factual data rely on spurious signals such as specific entities and external knowledge $\unicode x 2013$ rather than on the input context $\unicode x 2013$ to extract triples. We show that by generating…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

amodaresi/CovEReD
pytorchOfficial

Datasets

amodaresi/Re-DocRED-CF
dataset· 79 dl
79 dl

Videos

Consistent Document-level Relation Extraction via Counterfactuals· underline

Taxonomy

TopicsNatural Language Processing Techniques · Digital Humanities and Scholarship · Web Data Mining and Analysis