Kanske är det så att Big Data är en hajp som inte motsvarar verkligheten. Computer Sweden publicerades nyligen en artikel där man beskriver detta och lyfter fram de amerikanska forskarna Ernest Davis och Gary Marcus artikel i Financial Review där ett antal problem med Big Data beskrivs. De svenska forskarna, Dan Hedlin, professor i statistisk vid Stockholms universitet, och Daniel Gillblad som forskar om big data på forskningsinstitutet Sics, har en nykter syn på Big Data som går hand i hand med min syn. Bland annat menar de att en av de viktigaste sakerna när man jobbar med de svar man får från Big data är att ställa frågan först för att sedan få svaret.

För mig är det självklart att Big Data inte motsvarar verkligheten. Utifrån Big Data kan vi skapa modeller av verkligheten, men de är just modeller! Modellerna kan efterlikna verkligheten mer eller mindre men de innehåller, eller saknar, faktorer som är för oss antingen inte är kända eller faktorer som inte riktigt visar på det som de är tänkta att visa på. Detta ger en diskrepans mellan modellen och verkligheten och brukar kallas ”brus” i analytiska sammanhang och betecknas oftast med ett ”E” i den matematiska ekvationen som beskriver modellen. Problemet kan ses som tvådelat. Det första är att man inte förstår det ingående datat som modellen bygger på och det andra är att man inte förstår själva modellen.

Big Data är en modell av verkligheten som på grund av brus, E, endast kan efterlikna verkligheten och inte vara verkligheten.
Big Data är en modell av verkligheten som på grund av brus, E, endast kan efterlikna verkligheten och inte vara verkligheten.

Hajpen runt Big Data har gjort att många beslutfattare litar blint på allt som kommer ut ur detta och har en övertro på vad som detta kan ge. Eller så känner de sig så skeptiska till detta så de helt enkelt låter bli att skapa modeller från sitt data. Båda sätten är lika förödande.

Här följer en sammanfattning av de begränsningar med Big Data som Computer Sweden beskriver samt mina personliga reflektioner på dessa: 
1.
 Det är enkelt att hitta korrelationer men det innebär inte att det går att utläsa om det finns något orsakssamband.

Svar: Med en korrekt analys och förståelse för de ingående faktorerna går det absolut att avgöra om ett bevisat samband endast är en slumpmässigt signifikant korrelation eller om det är ett adekvat orsakssamband. Användandet av sk ”black box” analyser, där man blint litar på algoritmerna är boven i detta drama, man lägger in många olika faktorer och funderar inte på vad de egentligen har att göra med frågeställningen och den typ av svar man önskar få från analysen. Med kemometriska projektionsmetoder så som Partial Least Square analys (PLS) där de ingående faktorerna får samverka är det lätt att avgöra vilka faktorer som är relevanta och man ser hur faktorerna samverkar.

2. Det går inte att lösa naturvetenskapliga problem enbart med hjälp av big data. Även om det kan vara ett bra verktyg så krävs det att man alltid börja med en analys som bygger på en förståelse för exempelvis fysik eller kemi.

Svar: Ingen människa är en ö och inte heller Big Data. För att kunna lösa naturvetenskapliga problem behövs stora datamängder, Big Data, som beskriver naturlagarna. Datat måste samlas in från just naturvetenskapliga experiment. De modeller som sedan byggs från experimentens resultat skall sedan verifieras mot verkligheten, benchmarking. Detta gäller alla modeller oavsett vilka problem de skall lösa. Om man inte verifierar modellen kan man aldrig heller veta hur väl man kan förlita sig på modellen.
3. En del big data-verktyg är enkla att överlista. Exempelvis finns program som bedömer studentuppsatser baserat på meningslängd och vilken typ av ord som används på ett sätt som överensstämmer med de bedömningar som gjorts av människor. Men när studenterna förstår mekanismerna så är risken stor att de bara anpassar sitt skrivande efter det.

Svar: Det är detta som kallas evolution. Än så länge är människan smartare än maskinerna och verktygens algoritmer utvecklas inte automatiskt. Men modeller är till för att ständigt förbättras. Precis som med olika säkerhetslösningar inom IT där hackers ständigt försöker överlista systemen vilket gör säkerhetssystemen i sin tur allt bättre måste även modellerna inom Big Data alltid förbättras där de överlistas.

4. Analyser som till en början ser ut att vara väldigt stabila håller inte alltid över tid. Ett exempel på det är Goggle Flu Trends som nämns i artikeln ovan.

Svar: Exakt så är det. Per definition är big data något strömmande som ständigt förändras. Datat ändrar betydelse och kvalitén på datat skiftar över tid. Att tro blint på en analysmodell över tid är förödande. Man måste känna sitt data, förstå sina modeller och ständigt utvärdera dem och jämföra dem med verkligheten.

5. Det kan uppstå en ekokammareffekt där informationen studsar runt och förstärker sig själv. Det kan exempelvis handla om verktyg som Google Translate som för att lära sig språkmönster använder sig av att jämföra samma text på olika språk – exempelvis genom att titta på samma uppslagsord på olika språk i Wikipedia. Men samtidigt används ofta Google Translate för att översätta uppslagsord in i Wikipedia. Det gör att fel som funnits i Google Translate från början går in i Google Translate igen och förstärks.

Svar: Även detta är ett problem för att man inte förstår det ingående datat. Förhoppningsvis kunde de som gjorde denna algoritm förutse problemet. Var ifrån hämtas det data som ens modeller ska byggas på? Det är en mycket viktig fråga.

6. För många korrelationer. Om man letar hundra gånger för att se om två kurvor samvarierar så kommer de att dyka upp fem tillfällen där de ser ut att verka statistiskt signifikanta även om det egentligen inte finns något samband.

Svar: Detta är ett mycket vanligt problem när man tittar på få faktorer samtidigt. Med multivariat dataanalys där flera tusen olika faktorer kan analyseras samtidigt får man fram de korrelationer som verkligen är samma. Man ska aldrig bara förlita sig på en analysmetod. Kurvorna i påståendet kan till exempel vara tidsserier av olika slag. Förutom tidsserieanalyser kan en principalkomponentsanalys avslöja om kurvorna verkligen skiljer sig åt eller har signifikanta likheter.

7. Big data kan ge skenbart tillförlitliga svar på imprecisa frågor. Exempelvis har försök att ranka personer efter deras historiska betydelse genom att analysera data från Wikipedia inte hamnat helt rätt. Allt för att frågan i grunden är alltför vag.

Svar: Big data är inget magiskt trollspö. Man måste veta vad man gör och man måste ha koll på vilket typ av svar man behöver för att kunna ställa adekvata frågor. En felaktig fråga ger ett felaktigt svar även om det är en korrekt algoritm bakom modellen.

8. Big data är som bäst när man ska analysera sådant som är vanligt förekommande men betydligt sämre när det gäller mindre vanliga saker. När exempelvis text analyseras används ofta så kallade trigram, tre ord i rad. Men datamängderna är helt enkelt aldrig tillräckligt stora för att rymma alla de möjliga kombinationer av tre ord som människor kan tänkas använda eftersom språket konstant förnyas.

Svar: Med de analyser vi gör kan vi förvisso förutspå framtiden, men endast utifrån den erfarenhet vi har skaffat oss historiskt. Världen är i ständig förändring, verkligheten är där vi är exakt i den stund vi är. En sekund sedan är dåtid och nästa kommande sekund är framtid. Vi vet var vi varit men vi kan aldrig med 100% säkerhet säga vad som ska komma. Det är exakt på samma sätt med data. Vi kan aldrig samla in data, och bygga modeller, på sådant som skall komma utan endast på det som redan finns. En sak vet vi dock, ju mer erfarenhet vi har desto säkrare kan vi förutse framtiden. Big Data är stort, men det blir allt större. Våra modeller blir säkrare och säkrare för varje dag och inom en snar framtid har vi tillräckligt mycket data för att det som nu är mindre vanligt förekommande har förekommit tillräckligt många gånger för att vi ska kunna förutse även liknande mindre vanliga saker. Detta, mina vänner, är alltså bara en fråga om tid.

Utan rätt råvara (data) och utan rätt verktyg (analysmetoder) kan man aldrig få det resultat man önskar. Men kan man, som i detta fall nöja sig med en halvtaskig äppeljuice så är både äpple och borrmaskin helt rätt. Bild © Ida Bodén

Utan rätt råvara (data) och utan rätt verktyg (analysmetoder) kan man aldrig få det resultat man önskar. Men kan man, som i detta fall nöja sig med en halvtaskig äppeljuice så är både äpple och borrmaskin helt rätt. Bild © Ida Bodén

Som med så mycket annat är kunskap nyckeln även till begränsningarna med Big Data. Mina tips för att konkret komma runt de ovan beskrivna begränsningarna är:

  1. Förstå ditt data. Datats natur och vad du kan få ut för något av datat du har.
  2. Förstå vad analysen egentligen gör och vilket typ av svar det ger och varför du får just det svaret.
  3. Förstå att datat, och därmed att de analyser du gör, inte är statiskt. Analyserna måste ständigt ses över och kontrolleras
  4. Förstå att den modell du sitter med är just en modell av verkligheten och inte verkligheten i sig. Det finns alltid något okänt som du antingen missar eller råkar få med dig i din modell.

Följer du dessa råd behöver ditt Big Data aldrig komma att bli begränsande!

PhD. Ida Bodén, iViDA