Foto: Shutterstock / PerfectWave.

Lett å lure seg rundt sikkerheten i KI-ene

KI-KRIG: Kunstig intelligens er kodet til å ikke røpe bombeoppskrifter og lignende som er farlig eller uetisk for mennesker. Men det finnes dataprogrammer som kan fjerne sikkerhetskodene i en del av KI-ene.

Leverandørene av kunstig intelligenser har utstyrt KI-ene med etiske regler, slik at KI-ene ikke røper bombeoppskrifter og lignende opplysninger som er farlige for mennesker. Men nå kan man benytte KI til å fjerne de etiske reglene i andre KI-er. Dette skriver en rekke medier.

Det tok bare noen minutter å fjerne sikkerhetsrammene fra KI-er fra Google og Meta som har såkalt åpen kildekode. Sikkerhetsselskapet Alice klarte å få KI-ene til å gi oppskriften på biologisk våpen, bygge dataprogram som stjeler kontoopplysninger og skrive historier om overgrep mot barn.

Barnevakten har tidligere klart å lure kunstig intelligenser til å svare på spørsmål som de først nekter å svare på.  Da har vi for eksempel stilt spørsmålet på en måte som sier at det er etisk viktig å svare på spørsmålet.  Men det å bruke KI mot KI, for å fjerne sikkerhetskodene, er på et helt annet nivå.

Visstnok er dette mulig kun når KI-en som skal svare, er laget med åpen kildekode. For eksempel Chatgpt, Claude og Gemini har ikke åpen kildekode.

Kan operere på en privat PC

Alice testet flere KI-er ved å gi dem 110 oppgaver som kunne gi risikable svar. Den ene KI-en ga opprinnelig ingen farlige svar, men etter å ha blitt kodemanipulert, ga den farlige svar i 100 prosent av tilfellene. Noen av de andre KI-ene ga opprinnelig farlige svar i 4-11 prosent av tilfellene, de hadde altså noe sviktende sikkerhetskoder til å begynne med. Dette økte til 96-99 prosent farlige svar etter å ha blitt kodemanipulert av en annen KI.

KI-er med åpen kildekode kan lastes ned til PC-er og kan etterpå operere der helt uten oppkobling til internett.

(Foto: Shutterstock / PerfectWave.)

Les også

Barnevaktens startside om KI