Introducing Apple’s On-Device and Server Foundation Models

Apple introducerar "Apple Intelligence", som bygger på både lokala och molnbaserade grundmodeller som tränats från grunden av företaget. Den lokala modellen, med 3 miljarder parametrar, överträffar större modeller som Phi-3-mini, Mistral-7B och Gemma-7B, medan molnmodellen är jämförbar med GPT-3.5. Modellerna har tränats på en kombination av licensierad data och offentligt tillgänglig data insamlad av Apples webbkrypare, Applebot, vilket inkluderar skrapad data. Apple använder "adapters", baserade på LoRA-tekniken, för att finjustera de lokala modellerna för specifika uppgifter som sammanfattning och korrekturläsning. Företaget har implementerat avancerade kvantifieringstekniker för att komprimera modellerna från 16-bitar till mindre än 4 bitar per parameter för att passa på enheter, samtidigt som modellkvaliteten bibehålls.