I ljuset av NSA-avslöjandena blir vi påminda om att vi är data. Världen likaså. Karim Jebari läser boken Big Data: A Revolution That Will Transform How We Live, Work and Think i nya numret av Magasinet Arena. 

När filmen Matrix skildrar den Messias-liknande huvudpersonens blick visar den hur allt består av datakod.

Den som förmår att se bortom sinnesvärldens illusioner kan, enligt den filosofi som filmen tycks förespråka, se att den sanna världen består av data.

I boken Big Data: A Revolution That Will Transform How We Live, Work and Think argumenterar författarna Viktor Mayer-Schönberger och Kenneth Cukier för en liknande tes. De gör detta i en bok som känns skriven för att säljas vid flygplatser till business-classresenärer.

Bakom modeordet Big data, som syftar på insamling, lagring och analys av allt större datamängder, framträder en klassisk upplysningsambition.

Den förutsätter antagandet att världen kan förstås i termer av data, och en längtan till att kunna se och manipulera ”existensprogrammets” kod. Den här visionen är förstås inte ny.

Ibn Khaldun, René Descartes och Karl Marx strävade alla efter att formulera en samhällsvetenskap med generella lagar och principer för att beskriva samhällsutvecklingen i syfte att kunna förbättra mänsklighetens villkor.

Skillnaden är snarare metodologisk: där gårdagens intellektuella sökte att formulera ”Teorin om Samhället” är dagens datadrivna analytiker ointresserade av teori som ett redskap att lösa praktiska problem.

En teoretisk approach handlar om att formulera en generell lag och utifrån den lagen generera förutsägelser om framtiden. Till exempel så försökte lingvister i decennier formulera en teori om språkets struktur som kunde översätta meningar från ett språk till ett annat.

Deras monumentala misslyckande ledde till att den då obskyra approachen, statistisk språkanalys, fick möjligheten att lösa problemet.

Den nya metodologin utgick från existerande texter som var översatta på flera språk och kunde med hjälp av statistiska modeller generera översättningar.

Resultatet heter Google Translate och är långt bättre än vad de teoridrivna översättningsprogrammen kunde åstadkomma. Så föddes big data.

Mindre elegant, men förmodligen mycket mer effektivt, särskilt i områden där verklighetens överväldigande komplexitet gång på gång förödmjukar teorierna som utger sig för att kunna beskriva den.

Mayer-Schönberger och Cukier beskriver big data-metodologin på ett lättöverskådligt och torrt humoristiskt sätt.

Det märks på språket att en av författarna är journalist på det brittiska nyhetsmagasinet The Economist till vardags. I korthet kan big data som metod sammanfattas med tre principer:

1. ”Mer är mer” är en anglicism som beskriver principen att samla in så mycket data som möjligt. Där tidigare samhällsanalys handlade om att titta på representativa urval, och därmed förlitade sig på teorier om varför urval X är mer representativt än urval Y, så förutsätter idén att samla in all data inte några särskilda teorier. Vill vi veta vad folk gillar för böcker? Small data ringer ett representativt urval och frågar: ”vad gillar du för böcker”? Big data samlar in data på böcker som folk köper och söker på. Det som är roligt är att skillnaden mellan resultaten är påfallande. Enligt small data är Krig och fred betydligt mer populär än enligt Big data.

2. ”Sluta ängslas och lär dig älska bruset.” Big data handlar inte om elegans eller enkelhet. Teoretiker har sedan Aristoteles dagar försökt att beskriva världen med symmetriska, väl avgränsade och logiska kategorier och hierarkier. Big data jobbar inte så. Om du ska kategorisera några miljarder uppladdade foton kan du inte diktera kategorierna till användarna. I stället får du lita på deras kategorisering, eller taggning, av bilderna. Detta leder förstås till en del brus i systemet, men samtidigt till att kategorin ”katter som ser ut som Hitler” korrekt kan identifieras.

Förmågan att, med datorers hjälp, kunna hantera gigantiska mängder data gör att kategorier kan konstrueras efter att datainsamlingen ägt rum. Alltså kan naturliga kategorier, baserade på statistisk överlappning, uppstå ur datamängderna.

3. ”Det är korrelationen, idiot.” Vår hjärna söker och ser orsakssamband hela tiden. När ett brott begås, vi blir sjuka eller ett krig bryter ut vill vi veta ”vad orsakade det”? Problemet är att svaret på den frågan sällan är entydigt och ibland omöjligt att veta. Trots att våra samhällsvetenskapliga teorier ofta kan skapa fängslande narrativ efter att en händelse ägt rum om varför det var oundvikligt att den skulle äga rum, tycks de vara betydligt sämre på  att förutse liknande händelser i framtiden. Big data-metodologins tredje princip handlar om att fokusera på korrelationer i stället för orsakssamband. I stället för att fråga ”vad leder till att brottsligheten ökar?” frågar big data ”vilka korrelationer finns mellan brottlighet och andra mätbara omständigheter?”.

Skillnaden är inte trivial. Där sökandet efter en orsak sannolikt kommer att sluta i en återvändsgränd av tilltagande komplexitet, kan vår fråga om korrelationen besvaras tämligen precist. Det gör att vi kan börja formulera hypoteser och skapa experiment där vi varierar de olika variablerna. I slutändan är sannolikheten att vi lyckas minska brottsligheten större, även om vi saknar en kausal förklaring om vad som orsakade den.

Världen som filmen Matrix utspelar sig i är en datorsimluation. Varje sten, hus, människa och träd är ett program. Är vår värld annorlunda?

Det beror på vem du frågar. Världen sedd ur ett big data-perspektiv är en värld som bara delvis har datafierats. Det innebär att bara delar av världen kan beskrivas matematiskt av en dator. Den delen är större än vad många tror och ökar allt mer.

Din personlighet datafierades för länge sedan. Fysiska platser likaså. Det Google hoppas göra med sin kommande produkt Google Glass är att datafiera den mänskliga blicken. Finns det aspekter av världen som inte kan datafieras? Finns det aspekter som inte bör datafieras? Dessa är två frågor som en mindre ytlig bok hade kunnat ställa.

En sak är dock klar: datafieringen av världen kan vara mycket lönsam. Varje företag som vill sälja dig någonting vill veta vad du vill ha vid varje givet ögonblick och vad du är beredd att betala för det. Men datafieringen av våra önskningar är bara början.

Google håller på att utveckla bilar som kan köra själva. De kan göra detta eftersom datafieringen av trafiken är mer eller mindre fulländad. Men det är datafieringen av människan som är isberget av värde.

Vi betalar i dag väldigt mycket pengar till människor för att de ska förklara saker för oss. Sätt på din tv så kan du höra att de alla säger: X inträffade eftersom Y inträffade. Det låter övertygande. Men det börjar bli allt mer uppenbart att de inte är bättre på att förutsäga om X kommer att inträffa än slumpen. Detta gäller för de allra flesta människor som vi kallar ”experter”.

Det amerikanska presidentvalet visade på ett för dessa experter förnedrande sätt hur big data kunde göra något de inte kunde: korrekt förutsäga framtiden. En statistiker med en relativt enkel metod lyckades förutsäga valresultaten bättre än några andra experter. På samma sätt håller kvantitativ forskning, utförd av obskyra analytiker, på att knuffa ned experterna från sina piedestaler.

Författarna är inte omedvetna om farorna med ett datafierat samhälle.

Data är trots allt makt, och absolut makt i händerna på anonyma myndigheter och företag kan hota vår frihet på ett sätt som inte ens George Orwell hade kunnat föreställa sig. När ett företag känner dig bättre än vad du känner dig själv, hur kan du då motstå deras reklam?

Om staten vet när, var och hur du kommer att bryta mot lagen, kommer den att straffa dig i preventivt syfte?

Men författarna anser att big data är ett verktyg som kan kontrolleras. Genom att ställa krav på transparens från de som använder sig av data kan vi ställa dem till svars när data används på ett sätt som skadar oss. Hade författarna varit mindre naiva hade de kunnat ta de frågor de själva ställer på större allvar.

I ljuset av NSA-avslöjandena tycks deras föreställning att myndigheter och företag på allvar kommer att gå med på att hållas ansvariga för den makt som informationen de äger om oss ger dem löjeväckande.

Karim Jebari, doktorand i filosofi vid KTH