GPT-4V uppvisar en överraskande hög visuell skärpa, kapabel att urskilja små detaljer, skymd text och noggrant uppskatta objektstorlekar från bilder. Artikeln spekulerar i att GPT-4V:s multimodala förmåga inte beror på en fullständig omträning av GPT-4, utan snarare en integration av en förtränad bildmodell i LLM:s latenta rum, liknande metoder som Flamingo. En betydande säkerhetsbrist lyfts fram gällande GPT-4V:s förmåga att ladda och visa fjärrbilder via Markdown, vilket kan utnyttjas för "Prompt injection" och dataexfiltrering, ett problem som OpenAI inte verkar ta på allvar. Integrationen av bildfunktioner med textuella representationer beskrivs som en "konstig boll av flyttalsnummer", vilket antyder en djup, samtidig bearbetning snarare än en enkel OCR-till-LLM-metod.