BatsResearch/self-jailbreaking

BatsResearch

Fetched on 2025/12/19 06:15

Official code repository for "Self-Jailbreaking: Language Models Can Reason Themselves Out of Safety Alignment After Benign Reasoning Training" - View it on GitHub

https://arxiv.org/abs/2510.20956

Star

Rank

1878810

BatsResearch

BatsResearch / self-jailbreaking