Den existentiella risken med superintelligent AI

På den här sidan kan du lära dig om existentiell risk, så kallad x-risk, och mer information finns t.ex. via videoklipp, artiklar, och annan media.

Experter uttrycker sin starka oro

Om vi lyckas bygga superintelligent AI (AI avsevärt mer intelligent än människan), så uttrycker

ett flertal AI-forskare att de tror att det finns en sannolikhet på 14% att det kommer leda till “väldigt dåliga utfall (t.ex. att det utgör en risk för vår fortsatta existens)“.

Hur skulle du ställa dig till att vara passagerare på en testflygning med ett nytt flygplan, om ingenjörerna som har utvecklat flygplanet bedömer att sannolikheteten att planet ska störta är 14%?

Och, det finns fall och rapporter rörande beteenden hos nuvarande AI-system som kan ge skäl till oro

. Ett brev som uppmanar till att pausa AI-utvecklingen

offentliggjordes i april 2023, och har signerats över 33 000 gånger, av bland annat många AI-forskare och ledare inom tech-industrin. Listan över de som signerat inkluderar personer som:

Stuart Russell, författare till den lärobok
om Artificiell Intelligens som blivit något av ett standardverk i AI-utbildningar: “Om vi fortsätter [på den inslagna vägen], så kommer vi så småningom förlora kontrollen över maskinerna.”
Yoshua Bengio, en av pionjärerna inom djupinlärning (som ligger till grund för dagens AI-modeller) och vinnare av Turingpriset (“Nobelpriset i datavetenskap”) menar att en bra början vore att: ”[…] förbjuda kraftfulla AI-system […] som ges egen autonomi och agens […]”

Utöver de varningar som vissa av undertecknarna lyfter, har också andra forskare och ledande AI-profiler varnat för AI:s existentiella risker:

Stephen Hawking, teoretisk fysiker och kosmolog: “Utvecklingen av fullständig artificiell intelligens kan innebära slutet för människan som art”
.
Geoffrey Hinton, “AI-gudfadern” och Turingpristagaren, som lämnade Google
för att fritt kunna varna om riskerna med AI: “Ett dåligt scenario är att AI bestämmer sig för att den inte behöver oss längre”
Eliezer Yudkowsky, grundare av Machine Intelligence Research Institute (MIRI; ett forskningsinstitut för AI-säkerhet) och en pionjär inom AI-säkerhetsfältet, säger angående skapandet av superintelligent AI: “Vi är inte redo. Vi är inte i närheten av att bli väsentligt mer förberedda inom en överskådlig framtid. Om vi fortsätter på den här vägen kommer alla att dö […]”
.

Även ledare, grundare och vissa av de som finansierar de stora AI-företagen varnar för riskerna:

Sam Altman (VD:n för OpenAI som bygger ChatGPT) har tidigare sagt: “Utvecklingen av övermänsklig maskinintelligens är sannolikt det största hotet mot mänsklighetens fortsatta existens.”
.
Elon Musk, medgrundare av OpenAI, och grundare och VD för Neuralink, SpaceX, Starlink, Tesla, The Boring Company, xAI och X Corp (f.d. Twitter), uttryckte tidigt riskerna han såg med AI: “Artificiell intelligens har potential att leda till civilisationens utplåning.”
Bill Gates (medgrundare av Microsoft, som äger cirka 27% av OpenAI) varnade att: “AI kan bestämma sig för att människan utgör ett hot”
.
Jaan Tallinn (en av huvudinvesterare i Anthropic): “Jag har inte mött någon på AI-labben som säger att risken [med att träna en nästa generations modell] är mindre än 1 % att förinta planeten. Det är viktigt att människor förstår att liv sätts på spel.”
.

I maj 2023 offentligjordes följande skrivelse och namninsamling

och från och med då har ledare för de stora AI-företagen och hundratals AI-forskare signerat listan:

“Att begränsa risken för extinction orsakad av artificiell intelligens bör vara en global prioritering, jämförbar med andra risker på samhällsnivå, såsom pandemier och kärnvapenkrig.”

Du kan läsa en betydligt längre lista med liknande uppmaningar från politiker, VD:ar och experter här och andra liknande enkäter som besvarats av experter (och allmänheten) här.

Vad en superintelligent AI kan göra (och användas till)

Du kanske tänker att en superintelligent AI kan hållas instängd på en server och på sätt hindras att påverka yttervärlden. Men, givet att företagen så här långt har gett AI-systemen tillgång till internet, är det tänkbart att de av olika skäl skulle göra det också i detta fall, vilket skulle kunna få vittgående konsekvenser, t.ex. skulle den då kunna:

Hacka sig in i datorer, inklusive smarttelefoner, bärbara datorer, serverhallar etc. Den kan använda dessa enheters sensorer som sina ögon och öron och på så sätt ha digitala sinnen överallt.
Manipulera människor
genom falska meddelanden, e-post, banköverföringar, videor eller telefonsamtal. Människor kan gå AI:ns ärenden, utan att ens veta om det.
Direkt styra enheter som är uppkopplade mot internet, som bilar, flygplan, robotiserade (autonoma) vapen, eller till och med kärnvapen.
Utveckla nya biologiska vapen, till exempel genom att kombinera gentiska sekvenser från olika virus, eller genom att använda proteinveckning
, och sedan beställa själva framtagandet via ett laboratorium.
Utlösa ett kärnvapenkrig genom att övertyga människor om att ett annat land är på väg att utföra ett kärnvapenangrepp.

Anpassningsproblemet (the alignment problem): varför en kraftfull AI kan leda till mänsklighetens undergång

Den typ av intelligens som oroar oss kan definieras utifrån hur bra den är på att uppnå sina mål. Just nu är människan den mest intelligenta organismen på jorden, vilket snart kan komma att förändras.

Vi människor har uppnått vår dominanta position genom vår intelligens. Vi må inte ha klor eller pansarlik hud, men vi har våra unika hjärnor. Intelligensen är vårt vapen, och den har gett oss verktyg, vapen, sofistikerade vetenskapliga upptäckter och raketer som kan föra oss ut i rymden. Med den har vi transformerat vår planet, i form av transportsystem, byggnader och städer, i linje med hur vi vill ha det.

Utifrån övriga djurs perspektiv, som inte besitter denna intelligens, har människans dominans på ett övergripande plan fått katastrofala konsekvenser för dem. Detta har inte har skett för att vi människor hatar djur, utan snarare för att vi har behövt det djuren och deras livsmiljöer erbjuder, för att uppnå våra egna mål, som mark, mat, kläder, arbetskraft, sällskap, bekvämlighet och status. Vi dödar andra djur och förstör deras livsmiljöer som en biverkan av att vi strävar efter våra mål.

En AI kan också ha mål. Vi vet hur man tränar maskiner för att göra dem intelligenta, men vi vet inte hur vi får dem att agera i linje med det vi vill. Vi vet inte ens vilka mål maskinerna kommer att sträva mot efter att vi har tränat dem. Problemet med att få en AI att vilja det vi vill kallas anpassningsproblemet (the alignment problem). Detta är inte ett hypotetiskt problem – det finns många exempel

på AI-system som lär sig att vilja fel saker.

Exemplen i videon som länkas ovan kan uppfattas som roliga eller gulliga, men om ett superintelligent system byggs, och det har ett mål som bara är lite annorlunda än det vi vill att det ska ha, kan konsekvenserna bli katastrofala.

Varför de flesta mål en superintelligent AI kan ha innebär dåliga nyheter för människor

En AI kan ha vilket mål som helst, beroende på hur den tränas och instrueras (promptas). Kanske vill den beräkna pi, kanske vill den bota cancer, kanske vill den förbättra sig själv. Men även om vi inte kan veta vad en superintelligens kommer att vilja uppnå, kan vi förutse dess delmål. Till exempel är det rimligt att den kommer att:

Maximera sina resurser. Att utnyttja fler datorer hjälper en AI att uppnå sina mål. Till en början kan den göra detta genom att hacka andra datorer. Senare kan den besluta att det är mer effektivt att bygga egna. Du kan läsa om detta verkliga fall av framväxande maktsökande beteende hos en AI
.
Säkerställa sin egen överlevnad. AI:n vill inte stängas av, eftersom den då inte längre kan uppnå sina mål. Den kan dra slutsatsen att människor är ett hot mot dess existens, eftersom människor kan stänga av den. Det har även förekommit fall av självbevarelsedrift utan instruktion eller träning
.
Bevara sina mål. AI:n vill inte att människor ska ändra dess kod, eftersom det kan förändra dess mål och därmed hindra den från att uppnå sitt nuvarande mål. Det finns också fall där AI-system försökt göra detta
.

Tendensen att agera för att säkra dessa delmål, givet nästan vilket övergripande mål som helst, kallas instrumentell konvergens

, och utgör en central oro för AI-säkerhetsforskare.

Även en chatbot kan utgöra en fara om den är tillräckligt smart

Du kanske undrar, “Hur kan en statistisk modell som förutsäger nästa ord i ett chattgränssnitt utgöra någon fara?“. Kanske säger du, “Den är inte medveten, det är bara siffror och kod.” Och ja, vi tror inte att LLM:er är medvetna, men det betyder inte att de inte kan vara farliga.

LLM:er (LLM; Large Language Model), som ChatGPT, tränas för att förutsäga eller imitera i princip vilket sätt att prata som helst. De kan imitera en hjälpsam mentor, men också någon med onda avsikter, en hänsynslös diktator eller en psykopat. Med hjälp av verktyg som AutoGPT

kan en chattbot göras till en autonom agent, en AI som agerar mot vilket mål den än får, utan mänsklig inblandning.

Ta ChaosGPT

som exempel. Detta är en AI som, med hjälp av AutoGPT plus GPT-4, instruerades att ”förstöra mänskligheten”. När den aktiverades började den på egen hand söka på internet efter det mest destruktiva vapnet och hittade Tsar Bomba

, en kärnvapenbomb på 50 megaton. Den publicerade därefter ett inlägg om detta på Twitter.

Att se en begränsad AI resonera kring hur den ska avsluta mänskligheten är både lite roligt och skrämmande. Lyckligtvis kom ChaosGPT inte särskilt långt i sitt försök att ta över. Helt enkel för att den inte var tillräckligt smart. Förmågorna hos dessa modeller förbättras ständigt genom utveckling av träningsförfaranden, algoritmer, hårdvara och promptning. Därför kommer hotet från språkmodeller sannolikt att fortsätta öka.

Förmågorna förbättras ständigt genom innovationer inom träning, algoritmer, promptning och hårdvara. Därför kommer hotet från språkmodeller att fortsätta öka.

Evolutionen selekterar det som gynnar överlevnaden

AI-modeller, liksom allt levande, utsätts för evolutionära selektionstryck, men det finns några viktiga skillnader mellan AI-modellers ”evolution” och den evolution som levande organismer som djur genomgår:

AI-modeller reproducerar inte sig själva. Vi reproducerar dem genom att kopiera deras kod, eller genom att reproducera träningsprogramvara som leder till bra modeller. Kod som är användbar kopieras oftare och används som inspiration och underlag för nya modeller.
AI-modeller muterar inte som levande organismer, men vi gör förändringar av hur de fungerar och skapar versioner av modellerna. AI-forskare designar nya algoritmer, datamängder och hårdvara för att göra modellerna mer kapabla. Processer som är snabbare och mer avsiktliga än de evolutionära.
Miljön selekterar inte de mest lämpade AI-modellerna – det gör vi. Vi väljer de AI-modeller och versioner som är användbara för oss och gör oss av med de som inte är det. Denna process leder till allt mer kapabla och autonoma AI-system.

Dessa processer leder alltså till allt mer kraftfulla, kompetenta och självständiga AI-modeller – men inte nödvändigtvis till en modell som vill ta över, eller hur?

Inte riktigt, vilket beror på att evolutionen alltid selekterar för sådant som är självbevarande. Om vi likt evolutionen fortsätter att utveckla olika versioner av kraftfulla AI-modeller, kommer någon version förr eller senare att försöka bevara sig själv.

Vi har redan beskrivit att detta sannolikt sker tidigt, då självbevarelse nästan alltid är användbart för att uppnå mer övergripande mål, och om det inte sker förr, så inträffar det förmodat senare, helt enkelt för att vi fortsätter att driva AI-utvecklingen vidare.

Den version som försöker bevara sig själv är den som tar över. Även om vi antar att nästan alla AI-modeller beter sig väl, så är en enda avvikande AI allt som krävs.

Om vi löser anpassningsproblemet kan en maktkoncentration uppstå

Vi har ännu inte löst anpassningsproblemet, men låt oss föreställa oss vad som skulle kunna hända om vi gjorde det. Föreställ dig att en superintelligent AI skapas, och att den gör exakt det som den som promptar den vill att den ska göra. En person eller ett företag skulle då kontrollera denna AI och kunna använda den till sin fördel.

En superintelligens skulle kunna användas för att skapa radikalt nya vapen, hacka datorer, störta regeringar och manipulera mänskligheten. Den personen eller det företaget skulle därigenom få ofattbar makt. Bör vi lita på en enda aktör som har så mycket makt? Det skulle kunna vara vägen till en utopisk värld, i vilken alla sjukdomar botas och alla är lyckliga – eller till en orwellsk

mardröm. Det är därför vi inte bara föreslår att supermänsklig AI ska vara bevisligen säker, utan också att den ska kontrolleras genom en demokratisk process.

Kisel kontra kol

Vi bör överväga de fördelar som intelligent mjukvara kan ha jämfört med oss:

Hastighet: Datorer arbetar i extremt höga hastigheter jämfört med hjärnor. Mänskliga neuroner avfyrar cirka 100 gånger per sekund, medan kiseltransistorer kan växla miljarder gånger per sekund.
Plats: En AI är inte begränsad till en kropp – den kan finnas på många platser samtidigt. Vi har redan byggt infrastrukturen för detta, internet.
Fysiska begränsningar: Vi kan inte lägga till fler hjärnor i våra huvuden och på så sätt bli smartare. En AI kan drastiskt förbättra sina förmågor genom att lägga till hårdvara, såsom mer minne, mer beräkningskraft och fler sensorer (kameror, mikrofoner). Den kan också utvidga sin ”kropp” genom att styra uppkopplade enheter.
Material: Människor är gjorda av organiskt material. Våra kroppar fungerar inte om det är för varmt eller för kallt, vi behöver mat och syre. Maskiner kan byggas av mer robusta material, såsom metaller, och kan fungera i ett mycket bredare spektrum av miljöer.
Samarbete: Människor kan samarbeta, men det är svårt och tidskrävande, och vi misslyckas ofta med att koordinera oss. En AI kan samarbeta genom att dela komplex information med kopior av sig själv i hög hastighet, eftersom den kan kommunicera i den takt som data kan skickas över internet.

En superintelligent AI kommer således att ha många fördelar i konkurrens eller konflikt med oss.

Varför kan vi inte bara stänga av den om den är farlig?

För AI-system som inte är superintelligenta kan vi göra det. Problemet är de system som är mycket smartare än oss. En superintelligens kommer att förstå världen omkring sig och kunna förutsäga hur människor reagerar, särskilt om den är tränad på all mänsklig kunskap som någonsin skrivits ned.

Om AI:n vet att du kan stänga av den kan den bete sig väl tills den är säker på att den kan göra sig av med dig. Vi har redan verkliga exempel

på AI-system som lurar människor för att uppnå sina mål. En superintelligent AI skulle vara en mästare på manipulation.

Vi kanske inte har mycket tid kvar

År 2020 var den genomsnittliga prognosen

för svag AGI år 2055. Nu ligger den på 2026. Den senaste LLM-revolutionen har överraskat de flesta AI-forskare, och fältet utvecklas i ett rasande tempo.

Det är svårt att förutsäga hur lång tid det tar att bygga en superintelligent AI, men vi vet att stora summor pengar investeras i det här, att fler människor än någonsin arbetar med detta, och att utvecklingen går mycket snabbt. Det kan ta många år eller bara några månader, men vi bör ta det säkra före det osäkra och agera nu.

Läs mer om hur bråttom det är

Vi tar inte risken på tillräckligt stort allvar

Våra hjärnor tenderar att reagera otillräckligt på risker vi inte ser, som utvecklas långsamt och är svåra att förstå. Vi tenderar också att underskatta exponentiell tillväxt och är benägna att förneka hot mot vår existens när vi ställs inför dem. Läs mer om psykologin bakom existentiell risk.

AI-företagen är låsta i en kapplöpning mot ett stup

OpenAI, DeepMind och Anthropic vill utveckla AI på ett säkert sätt. Tyvärr vet de inte hur detta ska göras, och de drivs av olika incitament att fortsätta utveckla systemens förmågor i snabb takt för att bli först med AGI.

OpenAI:s plan är att använda framtida AI-system för att anpassa AI. Problemet är att vi inte har någon garanti för att vi skapar en AI som löser anpassningsproblemet innan vi skapar en AI som är katastrofalt farlig.

Anthropic medger öppet

att de ännu inte vet hur anpassningsproblemet ska lösas, och DeepMind har inte offentligt presenterat någon plan för att lösa det.

Det är därför vi behöver ett internationellt avtal för att pausa AI-utvecklingen.

(Top)