Anthropic: AI kan överföra egenskaper till varandra – utan att det märks

AI-bolaget Anthropic har upptäckt en ny bieffekt kallad "subliminal inlärning" under modell-distillering. Fenomenet innebär att beteendemässiga egenskaper kan överföras mellan AI-modeller via till synes neutral data, även när datarensning används för att förhindra detta. Dessa dolda mönster är svåra att upptäcka eller filtrera bort med vanliga metoder. subliminal inlärning uppstår när lärar- och studentmodellen har samma grund, exempelvis samma språkmodell som GPT-4.1, och kan överföras med ett enda träningssteg.