Prompt injection explained, with video, slides, and a transcript

Artikeln, baserad på ett webinar den 2 maj 2023, introducerar Prompt injection som en attack mot applikationer byggda ovanpå AI-modeller, snarare än mot modellerna själva. Exempel som att subvertera översättningsappar och Microsoft Bings "Sydney"-persona illustrerar hur användarinstruktioner kan åsidosätta utvecklarinstruktioner, vilket kan leda till allvarliga säkerhetsbrott, särskilt med AI-assistenter som har tillgång till personliga verktyg som e-post. Författaren, Simon Willison, kritiserar vanliga lösningar som "Prompt begging" och användning av AI för att upptäcka attacker, då han menar att AI:s probabilistiska natur inte kan garantera den 100% säkerhet som krävs för att effektivt hantera adversariella attacker. Willison föreslår en potentiell lösning kallad "Dual language model pattern" som ett mer robust tillvägagångssätt, trots att han erkänner dess begränsningar.