Robustness Certificates for Neural Networks against Adversarial Attacks

Sara Taheri; Mahalakshmi Sabanayagam; Debarghya Ghoshdastidar; Majid Zamani

arXiv:2512.20865·cs.LG·May 13, 2026

Robustness Certificates for Neural Networks against Adversarial Attacks

Sara Taheri, Mahalakshmi Sabanayagam, Debarghya Ghoshdastidar, Majid Zamani

PDF

TL;DR

This paper presents a formal framework for certifying the robustness of neural networks against adversarial data poisoning and test-time attacks using control theory concepts, providing guarantees beyond empirical defenses.

Contribution

It introduces a novel certification method modeling training as a dynamical system and uses barrier certificates to guarantee robustness against worst-case poisoning.

Findings

01

Certifies non-trivial poisoning robustness radii on MNIST, SVHN, CIFAR-10.

02

Provides a unified framework for training and test-time attack certification.

03

Achieves model-agnostic guarantees without prior attack knowledge.

Abstract

The increasing use of machine learning in safety-critical domains amplifies the risk of adversarial threats, especially data poisoning attacks that corrupt training data to degrade performance or induce unsafe behavior. Most existing defenses lack formal guarantees or rely on restrictive assumptions about the model class, attack type, extent of poisoning, or point-wise certification, limiting their practical reliability. This paper introduces a principled formal robustness certification framework that models gradient-based training as a discrete-time dynamical system (dt-DS) and formulates poisoning robustness as a formal safety verification problem. By adapting the concept of barrier certificates (BCs) from control theory, we introduce sufficient conditions to certify a robust radius ensuring that the terminal model remains safe under worst-case $ℓ_{p}$ -norm based poisoning. To make…

Peer Reviews

No public reviews on file for this paper yet. If you reviewed it on a platform where reviews are public (OpenReview, ICLR, NeurIPS, ICML), you can paste yours below so the community can read it here.

Videos

No videos yet. Explain this paper in a talk, walkthrough, or lecture? Add one.