MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

Csaba D\'ek\'any; Stefan Balauca; Robin Staab; Dimitar I. Dimitrov; Martin Vechev

arXiv:2505.16947·cs.LG·October 29, 2025

MixAT: Combining Continuous and Discrete Adversarial Training for LLMs

Csaba D\'ek\'any, Stefan Balauca, Robin Staab, Dimitar I. Dimitrov, Martin Vechev

PDF

1 Repo 9 Models 1 Video

TL;DR

MixAT introduces a novel adversarial training method for LLMs that combines discrete and continuous attacks, significantly improving robustness against harmful outputs while maintaining computational efficiency.

Contribution

The paper presents MixAT, a new approach that effectively combines discrete and continuous adversarial attacks during training to enhance LLM robustness.

Findings

01

MixAT reduces worst-case attack success rate to below 20%.

02

It maintains runtime efficiency comparable to continuous relaxation methods.

03

MixAT reveals additional vulnerabilities in deployment settings.

Abstract

Despite recent efforts in Large Language Model (LLM) safety and alignment, current adversarial attacks on frontier LLMs can still consistently force harmful generations. Although adversarial training has been widely studied and shown to significantly improve the robustness of traditional machine learning models, its strengths and weaknesses in the context of LLMs are less understood. Specifically, while existing discrete adversarial attacks are effective at producing harmful content, training LLMs with concrete adversarial prompts is often computationally expensive, leading to reliance on continuous relaxations. At the same time, despite their effectiveness and generalization capabilities, training with continuous perturbations does not always capture the full spectrum of vulnerabilities exploited by discrete attacks. In this work, we aim to bridge this gap by introducing MixAT, a novel…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

insait-institute/mixat
pytorchOfficial

Models

Videos

MixAT: Combining Continuous and Discrete Adversarial Training for LLMs· slideslive

Taxonomy

MethodsSparse Evolutionary Training