Artikeln presenterar en metod för interaktiv modellering av objekt och deras relationer i naturliga scener, baserad på realtidssegmentering av videosekvenser. Metoden involverar människa-robot-interaktion där roboten utför multi-objektsegmentering genom att modellera fysiska begränsningar och lösa tvetydigheter, särskilt för objekt i direkt fysisk kontakt. En nyckelkomponent är ett effektivt ramverk för multi-märkning som möjliggör objektmodellering och disambiguering i realtid. Enkla interaktioner från en mänsklig operatör, som tangenttryckningar eller talade ord, kan avsevärt förbättra segmenteringsresultaten. Forskningen bidrar till ett kognitivt visionsramverk där robotar lär sig om objektkoncept och deras relationer genom interaktion med människor.