IBM/Gradient-Cuff - Gitstar Ranking

IBM

Fetched on 2026/05/31 09:45

Repo for NeurIPS 2024 paper "Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes" - View it on GitHub

Star

Rank

2493323

IBM

IBM / Gradient-Cuff