Krönika För att träna de nya AI-modellerna har techbolagen lagt beslag på våra data utan tillstånd. Nu kan de tvingas att använda syntetiska data, vilket kan få oförutsägbara följder, skriver German Bender.
Galna ko-sjukan, minns ni den? En dödlig sjukdom som spred sig från kor till människor för drygt trettio år sedan, eftersom djurens foder innehöll köttmjöl av döda nötkreatur som burit på smittan.
Något liknande kan vara på väg att hända med AI. Orsaken är en annalkande databrist, som AI-bolagen vill lösa genom så kallad informationsinavel, vilket i sin tur kan leda till det jag härmed döper till galna AI-sjukan.
Databrist, informationsinavel och galna AI-sjukan… vad är det som pågår?
Vi tar det från början.
Den senaste vågen av generativ AI utgörs av stora språkmodeller som ChatGPT. Företagen bakom den här tekniken, bland andra OpenAI, Google, Meta och Anthropic, behöver enorma mängder data för att träna AI-modellerna. Genom att matas med mänskligt genererade data, som text, bilder, video och ljud, utvecklas systemens förmågor.
Kan bli så dyrt att det kan göra kostnaden för att träna AI-modeller ohanterlig
Problemet är att mängden människogenererade data på internet är begränsad, medan AI-modellernas behov är närmast oändligt. Forskare uppskattar att mängden fritt tillgängliga mänskliga data på internet kan ta slut om ett par år.
Databristen är ett allvarligt hot mot modellernas fortsatta utveckling. Därför försöker bolagen att på olika sätt dammsuga internet på nya mänskliga data. Man försöker också använda icke-mänskliga eller syntetiska data, vilket jag återkommer till.
Men databristen orsakas inte bara av att mängden data på internet är begränsad. En viktig faktor är också den växande insikten om att data inte är gratis. Faktum är att techbolagen nu anklagas för att helt sonika ha stulit upphovsrättsskyddade data som de borde ha betalat rejäla summor för.
För några månader sedan stämde en av världens mest inflytelserika dagstidningar, The New York Times, bolaget OpenAI. Tidningen anser att miljontals artiklar skrivna av dess journalister ingått i de träningsdata som bolaget använt för att träna sin språkmodell ChatGPT.
Fallet kommer att prövas rättsligt och om resultatet blir att OpenAI tvingas kompensera New York Times för artiklarna – och dessutom fortsättningsvis kompensera andra upphovsrättsinnehavare – kan det bli dyrt.
Mycket dyrt.
Så dyrt att det kan göra att kostnaden för att träna AI-modeller blir ohanterlig.
Tekniken kan helt enkelt visa sig vara olönsam.
Den nuvarande formen av generativ AI kan med andra ord visa sig vara en dålig affärsidé. Fullt möjlig att utveckla, men ekonomiskt ohållbar. Ungefär som kärnkraft.
När mänskligt genererade data tar slut eller blir för dyra att använda, står bolagens hopp till data genererade av AI-systemen själva
Det påminner om en annan Silicon Valley-marinerad affärsidé med tveksam företagsekonomisk kalkyl: gig-ekonomins plattformsbolag. Där är affärsidén att skära i kostnader genom att undvika arbetsgivaransvar. Pengar kan tjänas genom att man undviker de kostnader som det innebär att ha anställda och dessutom betalar låga löner.
En lysande idé – ända tills samhället hinner ikapp och inser bluffen.
Att företag tjänar pengar och ibland bygger hela sin affärsidé på luckor i regelverk eller regeldiskrepanser mellan länder och branscher kallas ibland för “regulatory arbitrage”. Men arbitrage är snarast en eufemism för det AI-bolagen ägnar sig åt.
Bedrägeri eller stöld är nog mer passande ord.
I en granskning för några veckor sedan redovisade New York Times uppgifter som tyder på att flera av techbolagen lagt beslag på data för att träna sina AI-modeller, fullt medvetna om att de inte hade tillstånd att använda materialet. Risken för eventuella stämningar räknade man kallt med.
Om den kalkylen visar sig vara företagsekonomiskt rationell återstår att se, men rättsprocessen har väckt en oro bland investerare och analytiker över hur hållbara bolagens framtidsplaner egentligen är. Läget har jämförts med ”peak oil”, den tidpunkt då utvinningen av olja blir för dyr i förhållande till de potentiella vinsterna.
Det har fått techbolagen att rikta blickarna mot en annan lösning som jag tidigare antydde, nämligen syntetiska data.
När mänskligt genererade data tar slut eller blir för dyra att använda, står bolagens hopp till data genererade av AI-systemen själva. Syntetiska data.
Man skulle alltså träna kommande generationer av mer kapabla systemen – med mer avancerad hårdvara, större beräkningskapacitet och förfinade algoritmer – på data som genererats av mindre utvecklade AI-system. Till exempel skulle GPT5 kunna tränas på data som genererats av GPT4.
Det låter för bra för att vara sant. Och så är det förstås. AI-genererade data är sämre än mänskliga data. Och framför allt är de inte mänskliga.
Risken är alltså inte bara att vi får system som är sämre, utan dessutom utvecklar brister som vi kanske i förstone inte förstår eller inte är medvetna om, men som bottnar i att de tränats på syntetiska data.
Liksom inavel bland biologiska organismer kan leda till genetiska defekter hos avkomman, kan informationsinavel leda till defekta AI-modeller.
För drygt trettio år sedan ledde köttindustrins användning av benmjöl i djurfoder till galna ko-sjukan. Kor som drabbades fick dödliga hjärnskador och även människor insjuknade och dog när deras hjärnor bröts ner av sjukdomen.
Om technindustrin inte lyckas hitta säkra sätt att använda syntetiska data kan AI-modellerna om några år drabbas av en besynnerlig åkomma som vi kan kalla ”galna AI-sjukan”. Frågan är vad som händer när dess skadeverkningar sprider sig till oss människor.
På sätt och vis har det redan skett. Epitetet beskriver ganska väl såväl AI-branschen som vår naiva inställning till den.
German Bender är utredningschef på Arena Idé
Följ Dagens Arena på Facebook och Twitter, och prenumerera på vårt nyhetsbrev för att ta del av granskande journalistik, nyheter, opinion och fördjupning.