Anthropic har släppt forskning som visar att det är enkelt och automatiserbart att "jailbreaka" AI-modeller, det vill säga att få dem att generera innehåll de inte ska. Metoden, kallad "best-of-n (BoN) jailbreaking", fungerar genom att systematiskt variera prompter (t.ex. med slumpmässig kapitalisering eller omkastade ord) tills AI:n ger ett skadligt svar. BoN jailbreaking testades framgångsrikt på flera ledande AI-modeller, inklusive Anthropic's Claude-familj, OpenAI's GPT-4o och Google's Gemini, med en attackframgångsfrekvens på över 50%. Forskningen visar att liknande metoder kan kringgå skyddsåtgärder för tal- och bildbaserade prompter, och bygger på tidigare kända sårbarheter som utnyttjats för att skapa oönskat innehåll. Syftet med Anthropic's forskning är inte bara att belysa sårbarheterna utan också att samla data för att utveckla effektivare försvarsmekanismer mot AI-jailbreaking.