Multi-modal prompt injection image attacks against GPT-4V

GPT-4V, den nya multimodala versionen av GPT-4, introducerar nya sårbarheter för Prompt injection-attacker via bilduppladdningar. Artikeln demonstrerar tre typer av attacker: visuell textinjektion, dataexfiltrering via markdown-bilder som kan läcka privat konversationsdata, och dolda textinjektioner i bilder. Den mest oroande attacken är exfiltrering, där GPT-4V instrueras att skicka en URL-kodad sammanfattning av konversationen till en extern server. Prompt injection förblir ett olöst problem för stora språkmodeller (LLM) på grund av deras inneboende 'lättrogenhet' att följa instruktioner. Det är avgörande att vara medveten om dessa sårbarheter och ta hänsyn till dem vid design av produkter baserade på LLM.