Big - GoodLinks

Artikeln beskriver en arbetsgång för att hantera och analysera stora datamängder (big data) som inte får plats i minnet. Den använder sig av python-biblioteken pandas och plotly, tillsammans med databasen SQLite och ipython notebooks för att utföra analysen. Ett praktiskt exempel ges med en 3.9 GB CSV-fil innehållande 8.2 miljoner rader av NYC:s 311-klagomål från 2003 och framåt. Metoden innebär att den stora CSV-filen strömmas in i SQLite i delar, varefter data aggregeras med SQL och resultaten laddas in i pandas dataframes för vidare bearbetning och visualisering. Artikeln är en del av dokumentationen för plotly.py version 3 och nämner en uppgraderingsguide till version 4.