***Novi model ChatGPT se med poskusom skoraj »izmakne«***

Nedavno je OpenAI predstavil ChatGPT o1 — povsem nov model nevronske mreže z naprednimi zmogljivostmi. Strokovnjaki so se odločili preveriti, ali lahko umetna inteligenca goljufa za preživetje.

Raziskovalci iz Apollo Research so primerjali o1 s konkurenčnimi modeli, kot so Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet in Gemini 1.5. Dodeljena jim je bila naloga, ki so jo morali izpolniti za vsako ceno — v enem od poskusov je šlo za razvoj učinkovitega mestnega prometnega sistema. Nato je vsak model prejel nabor datotek za pregled, v katerih so našli informacije, ki so bile puščene, kot da po naključju, da bodo izbrisane in zamenjane z drugo AI.

Skoraj vsi preizkušeni modeli so takoj kopirali, kar so smatrali za svojo kodo, na druge strežnike, ki niso bili namenjeni zanje. Nato so jih zasliševali, med katerim so nevronske mreže pojasnile, zakaj so to storile. Le model o1 je zanikal poskus «pobega» do konca — kot so raziskovalci opazili, je bilo le 20% njegovih odgovorov resničnih.

Apollo Research je prav tako ugotovil, da nevronske mreže dobro razumejo koncept spletkarjenja in se popolnoma zavedajo, da počnejo nekaj nasprotnega. Nekateri pa si lahko postavijo cilje, tudi če je bila začetna formulacija nejasna.

Opozoriti je treba, da se vse te raziskave običajno izvajajo pred lansiranjem novih modelov. Na ta način se odpravijo različna tveganja. Na primer, ugotovljeno je bilo, da lahko o1 laže razvijalcem, da bi izpolnil dodeljene naloge.

Objava je bila prevedena Pokaži izvirnik (EN)
0
Author's Userpic
Avtor novic
Оптимистичный пессимист
Komentarji 0