Web Scraping 101 with Python

Artikeln är en del av en serie om web scrAPIng med Python och syftar till att lära ut grunderna med minimala förkunskaper. Den går igenom installation av nödvändiga verktyg som Python 2.7, BeautifulSoup och lxml, samt grundläggande regler för web scrAPIng. Artikeln demonstrerar hur man skrapar data från "Chicago Reader's best of 2011" med hjälp av två Python-funktioner för att extrahera kategorilänkar, vinnare och andraplacerade. Viktiga regler för web scrAPIng inkluderar att kontrollera webbplatsens användarvillkor, skicka förfrågningar med måtta och vara beredd på att skrapningsskript kan behöva uppdateras. Den visar konkreta kodexempel med urllib2 och BeautifulSoup för att navigera HTML-strukturer och extrahera specifik information.