Conditioned Activation Transport for T2I Safety Steering

Maciej Chrab\k{a}szcz; Aleksander Szymczyk; Jan Dubi\'nski; Tomasz Trzci\'nski; Franziska Boenisch; Adam Dziedzic

arXiv:2603.03163·cs.CV·March 4, 2026

Conditioned Activation Transport for T2I Safety Steering

Maciej Chrab\k{a}szcz, Aleksander Szymczyk, Jan Dubi\'nski, Tomasz Trzci\'nski, Franziska Boenisch, Adam Dziedzic

PDF

Open Access 1 Datasets

TL;DR

This paper introduces Conditioned Activation Transport (CAT), a novel method to improve safety in Text-to-Image models by reducing unsafe content generation while preserving image quality, using a geometry-based conditioning framework.

Contribution

The paper proposes a new activation steering framework with a geometry-based conditioning mechanism and nonlinear transport maps to enhance safety in T2I models.

Findings

01

Significantly reduces Attack Success Rate of unsafe content generation.

02

Maintains high image fidelity comparable to unsteered models.

03

Effective across multiple state-of-the-art T2I architectures.

Abstract

Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Datasets

NASK-PIB/SafeSteerDataset
dataset· 26 dl
26 dl

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsAdversarial Robustness in Machine Learning · Generative Adversarial Networks and Image Synthesis · Digital Media Forensic Detection