Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

Adam Karvonen; James Chua; Cl\'ement Dumas; Kit Fraser-Taliente; Subhash Kantamneni; Julian Minder; Euan Ong; Arnab Sen Sharma; Daniel Wen; Owain Evans; Samuel Marks

arXiv:2512.15674·cs.CL·January 7, 2026

Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

Adam Karvonen, James Chua, Cl\'ement Dumas, Kit Fraser-Taliente, Subhash Kantamneni, Julian Minder, Euan Ong, Arnab Sen Sharma, Daniel Wen, Owain Evans, Samuel Marks

PDF

Open Access 9 Models 3 Datasets

TL;DR

This paper introduces Activation Oracles, trained to interpret LLM activations through natural language, demonstrating strong generalization and surpassing some existing interpretability methods across various tasks.

Contribution

It presents a generalist approach to understanding LLM activations using LatentQA-trained models called Activation Oracles, effective even in out-of-distribution scenarios.

Findings

01

Activation Oracles recover fine-tuned information not present in input text.

02

Adding diverse training data improves AO performance.

03

AO models match or outperform white-box baselines on multiple tasks.

Abstract

Large language model (LLM) activations are notoriously difficult to understand, with most existing techniques using complex, specialized methods for interpreting them. Recent work has proposed a simpler approach known as LatentQA: training LLMs to directly accept LLM activations as inputs and answer arbitrary questions about them in natural language. However, prior work has focused on narrow task settings for both training and evaluation. In this paper, we instead take a generalist perspective. We evaluate LatentQA-trained models, which we call Activation Oracles (AOs), in far out-of-distribution settings and examine how performance scales with training data diversity. We find that AOs can recover information fine-tuned into a model (e.g., biographical knowledge or malign propensities) that does not appear in the input text, despite never being trained with activations from a fine-tuned…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Models

Datasets

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsExplainable Artificial Intelligence (XAI) · Topic Modeling · Artificial Intelligence in Healthcare and Education