Extracting Concepts from GPT-4

OpenAI har, i likhet med Anthropic, meddelat att de framgångsrikt har extraherat 16 miljoner tolkningsbara mönster från GPT-4:s interna representationer. Detta initiativ, som syftar till att öka förståelsen för AI-modeller, inkluderar en publicerad artikel och kod, där artikeln krediterar nio författare, inklusive de nyligen avhoppade Ilya Sutskever och Jan Leike. En interaktiv webbverktyg har släppts för att utforska dessa mönster, vilket visar exempel som "feature 5140" som kombinerar olika koncept. Verktyget använder aktiveringar från "The Pile (uncopyrighted)", en modifierad version av "the pile"-datamängden där specifika upphovsrättsskyddade delar har exkluderats.