OmniParser är ett omfattande verktyg för att analysera skärmdumpar av användargränssnitt och omvandla dem till strukturerade element, vilket förbättrar GPT-4v:s förmåga att generera exakta åtgärder. Verktyget har uppdaterats till version 1.5, som inkluderar förbättrad detektering av små ikoner och förmågan att förutsäga om skärmelement är interagerbara. OmniParser har uppnått betydande framgångar, inklusive att vara den mest trendande modellen på Hugging Face Model Hub och uppnått bästa prestanda på Windows Agent Arena. Artikeln tillhandahåller detaljerade instruktioner för installation av OmniParser, inklusive miljöinställningar, nedladdning av modellvikter och körning av demoexempel. Modellvikterna för OmniParser distribueras under olika licenser, där icon_detect använder AGPL-licensen och icon_caption_BLIP2 samt icon_caption_florence använder MIT-licensen.