Video Architecture Search

Artikeln behandlar utmaningarna med videoanalys och behovet av effektiva neurala arkitekturer för att hantera spatio-temporal data. Den presenterar tre nya algoritmer för automatisk sökning efter optimala nätverksarkitekturer för video: Evanet, Assemblenet och TinyVideoNet. Evanet är den första arkitektursökningen för video på modulnivå, som utvecklar spatio-temporala konvolutionella lager och deras konfigurationer, vilket överträffar handgjorda modeller. Assemblenet fokuserar på att lära sig multi-stream-anslutningar för att smälta samman olika indatamodaliteter och uppnår banbrytande resultat på datasets som Charades och Moments-in-Time. TinyVideoNet utvecklar beräkningseffektiva nätverk för realtidsapplikationer, vilket ger betydligt snabbare körtider med bibehållen konkurrenskraftig noggrannhet.