Artikeln introducerar OnnxStream, ett nytt inferensbibliotek designat för att minimera minnesförbrukningen vid körning av stora maskininlärningsmodeller på resursbegränsade enheter som Raspberry Pi Zero 2. OnnxStream möjliggör fRAMgångsrikt körning av Stable Diffusion 1.5 och Stable Diffusion XL 1.0 (bas) på en Raspberry Pi Zero 2, trots att dessa modeller normalt kräver 8-12 GB RAM, genom att endast använda 512 MB RAM. Viktiga optimeringar inkluderar frikoppling av inferensmotorn från viktleverantörer, olika kvantiseringsmetoder (statisk och dynamisk), samt en ny "tiled decoding"-metod för VAE-avkodaren i Stable Diffusion XL 1.0 för att drastiskt minska minnesanvändningen. OnnxStream uppnår betydligt lägre minnesförbrukning (upp till 55 gånger mindre än ONNX Runtime för vissa modeller) samtidigt som den bibehåller konkurrenskraftiga inferenshastigheter, även om den ibland är långsammare. Projektet visar att det är möjligt att köra komplexa generativa AI-modeller på lågeffekts- och lågminnesenheter, vilket öppnar upp nya möjligheter för inbyggda AI-applikationer.