How to crawl the web politely with Scrapy - Zyte #1 Web Scraping Service

Artikeln betonar vikten av etisk och artig webbskrapning för att skydda webbplatser från överbelastning och skada. Den presenterar grundläggande regler för artiga skrapor, inklusive att respektera robots.txt, använda Crawl-delay och att identifiera skrapan med kontaktinformation via user-agent. För Scrapy-användare ges specifika inställningar som ROBOTSTXT_OBEY, DOWNLOAD_DELAY, CONCURRENT_REQUESTS_PER_DOMAIN och Autothrottle för att konfigurera artigt beteende. Artikeln rekommenderar även att använda en HTTP-cache för utveckling och att föredra webbplatsers API:er framför skrapning när sådana finns tillgängliga.