Learning to Poison Large Language Models for Downstream Manipulation

Xiangyu Zhou; Yao Qiang; Saleh Zare Zade; Mohammad Amin Roshani; Prashant Khanduri; Douglas Zytko; Dongxiao Zhu

arXiv:2402.13459·cs.LG·May 30, 2025·3 cites

Learning to Poison Large Language Models for Downstream Manipulation

Xiangyu Zhou, Yao Qiang, Saleh Zare Zade, Mohammad Amin Roshani, Prashant Khanduri, Douglas Zytko, Dongxiao Zhu

PDF

Open Access 1 Repo

TL;DR

This paper introduces a new data poisoning attack on large language models during supervised fine-tuning, demonstrating its effectiveness and proposing defenses to mitigate such security risks.

Contribution

It presents a gradient-guided backdoor trigger learning algorithm for efficient poisoning and evaluates defense strategies like in-context learning and continuous learning.

Findings

01

High success rate of poisoning across various tasks

02

Effective defenses reduce attack impact

03

Highlights security vulnerabilities in LLM fine-tuning

Abstract

The advent of Large Language Models (LLMs) has marked significant achievements in language processing and reasoning capabilities. Despite their advancements, LLMs face vulnerabilities to data poisoning attacks, where the adversary inserts backdoor triggers into training data to manipulate outputs. This work further identifies additional security risks in LLMs by designing a new data poisoning attack tailored to exploit the supervised fine-tuning (SFT) process. We propose a novel gradient-guided backdoor trigger learning (GBTL) algorithm to identify adversarial triggers efficiently, ensuring an evasion of detection by conventional defenses while maintaining content integrity. Through experimental validation across various language model tasks, including sentiment analysis, domain generation, and question answering, our poisoning strategy demonstrates a high success rate in compromising…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Code & Models

Repositories

rookiezxy/gbtl
pytorchOfficial

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.

Taxonomy

TopicsNatural Language Processing Techniques · Topic Modeling