How we used gpt-4o for image detection with 350 very similar, single image classes.

askmona, ett litet ingenjörsteam, fick i uppdrag av ett museum att utveckla en app för att identifiera 350 mycket snarlika bilillustrationer på utställningsväggar, med en stram budget. Initiala försök med AR-teknik avråddes av en specialiserad partner, och en MobileNet-baserad modell med transfer learning och data augmentation visade sig vara otillräckligt tillförlitlig på grund av bildernas likhet och begränsad träningsdata. Teamet utforskade sedan bildinbäddningar med AWS Titan multimodal modell, vilket förbättrade tillförlitligheten men fortfarande hade svårt att konsekvent matcha alla liknande bilder. Trots framsteg med AWS Titan-modellen, där korrekta matchningar ofta fanns bland de närmaste alternativen, kvarstod utmaningen med att uppnå fullständig och konsekvent identifiering för alla 350 unika men visuellt liknande bilbilder.