Kako pameten je Elon Muskov «zaskrbljujoče pameten» chatbot?

xAI je predstavil nov jezikovni model, Grok 3, ki ga je ustanovitelj podjetja Elon Musk poimenoval "najpametnejša AI na Zemlji." Ustvarjalci klepetalnika trdijo, da nova različica znatno presega prejšnjo: obdeluje večji obseg podatkov za usposabljanje in vključuje nove mehanizme samokorekcije. Demov različica Grok 3 je bila danes predstavljena, prve ocene pa so se že pojavile.

Kaj je novega

Ključna prednost Grok 3 je dostop do izboljšanih računalniških virov. Klepetalnik je usposobljen z uporabo superračunalnika Colossus: v začetnih fazah so njegovi ustvarjalci uporabili 100.000 NVIDIA H100 GPU-jev, kasneje pa so to število podvojili. V prihodnosti se pričakuje, da se bo računalniška moč povečala petkrat.

Grok 3 vključuje vgrajene mehanizme samokorekcije. AI analizira svoje odgovore, jih primerja z referenčnimi odgovori in nato opravi prilagoditve. Zanimivo je, da klepetalnik prejme "nagrade" za točne odgovore in "kazni" za tako imenovane "halucinacije" — napačne ali izmišljene informacije.

Po besedah predstavnikov xAI je Grok 3 pametnejši od drugih modelov na področju matematike, naravoslovja in programiranja. Za oceno kakovosti odgovorov so bili uporabljeni slepi testi, kar pomeni, da uporabniki niso vedeli, kateri klepetalnik odgovarja.

Med predstavitvijo Grok 3 je xAI prav tako predstavil Deep Search — "agenta nove generacije" zmožnega hitrega iskanja in analize informacij na spletu. Čeprav podobne funkcije obstajajo v konkurenčnih modelih, xAI trdi, da je Deep Search natančnejši.

Poleg tega bo Grok 3 kmalu prejel glasovni vmesnik, ki bo uporabnikom omogočil, da z njim komunicirajo, kot bi govorili z resnično osebo. Njegov glas naj bi bil bolj naraven in izrazit kot pri konkurenčnih modelih.

Do you use artificial intelligence for work or study?

Rezultati

Kako se obnese v praksi

Uporabniki na socialnem omrežju X lahko dostopajo do novega klepetalnika z naročnino na X Premium+ za 50 $ na mesec. Čeprav še ni veliko zgodnjih ocen Grok 3, nekatere izstopajo.

Na primer, uporabnik po imenu Penny2x je delil informacijo, da je ustvaril povsem funkcionalno igro z uporabo nove različice AI:

Grok 3 je pravkar izšel. Ne boste verjeli, že sem ustvaril igro.

(Imel sem zgodnji dostop DANES ZJUTRA).

Ta igra je bila 100% ustvarjena z GROK-om, samo povedal sem mu, kaj želim, in dal kodo na pravo mesto.

Nenehno prosim za prilagoditve, in on nenehno sprošča igro v eni datoteki, ki jo lahko dam na svoj namizje in zaženem.

Igra se je za vedno spremenila. V zadnjem času sem veliko razvijal z AI-ji vseh drugih večjih graditeljev AI, poskušal sem ugotoviti, kaj mi je najbolj všeč, in grok je IGRALEC. Nimam uradnih meritev in še nimam nastavitve API, zato to ni moj običajen delovni postopek, vendar se je počutil vsak del tako sposoben kot Sonet, 4o ali karkoli drugega.

V naslednjem dnevu ali dveh bom to nastavil kot del svojega delovnega toka v NVIM in ga dal v resnično delo.

To je neverjetno. Živimo v prihodnosti. Zdaj je vsak razvijalec.

Še bolj zanimivo je, kar meni soustanovitelj OpenAI Andrej Karpathy o Grok 3. Prav tako je testiral nov jezikovni model. Po Karpathyjevem mnenju v nekaterih področjih chatbot konkurira najboljšim tekmovalcem:

...Grok 3 ima očitno vrhunski miselni model (gumb "Think") in je odlično odgovoril na moje vprašanje o Settlers of Catan:

"Ustvarite spletno stran za družabno igro, ki prikazuje heksagonalno mrežo, tako kot v igri Settlers of Catan. Vsaka heksagonalna mreža je oštevilčena od 1..N, kjer je N skupno število heksagonalnih plošč. Naj bo splošno, tako da lahko uporabnik spremeni število "prstanov" z drsnikom. Na primer, v Catan je radij 3 heks. Enostavna HTML stran, prosim."

Le redki modeli to pravilno razumejo. Najboljši miselni modeli OpenAI (npr. o1-pro, za 200 dolarjev na mesec) to prav tako razumejo, vendar vsi modeli DeepSeek-R1, Gemini 2.0 Flash Thinking in Claude ne.

Andrej Karpathy je prav tako cenil odločnost Grok 3:

Všeč mi je, da se bo model poskušal rešiti Riemannove hipoteze, ko ga to vprašamo, podobno kot DeepSeek-R1, vendar v nasprotju z mnogimi drugimi modeli, ki takoj obupajo (o1-pro, Claude, Gemini 2.0 Flash Thinking) in preprosto rečejo, da je to odličen nerešen problem. Na koncu sem ga moral ustaviti, ker sem se počutil malo slabo do njega, vendar je pokazal pogum, in kdo ve, morda nekoč...

Vendar pa so bile nekatere pomanjkljivosti. Agent Deep Search je izpostavil nekaj pomislekov:

…model se zdi, da privzeto ne želi navajati X kot vir, čeprav ga lahko izrecno prosite, da to stori. Večkrat sem ga ujel, da je haluciniral URL-je, ki ne obstajajo. Večkrat je povedal dejstva, za katera mislim, da so napačna, in za to ni navedel citata (verjetno ne obstaja).

Na koncu je Andrej Karpathy opazil, da je na podlagi prvih vtisov Grok 3 pristopil na raven najboljših modelov OpenAI, kot je o1-pro (200 dolarjev na mesec), in celo nekoliko presega DeepSeek-R1 in Gemini 2.0 Flash Thinking. Glede na to, da je ekipa xAI začela razvijati to umetno inteligenco od nič pred približno letom dni, je napredek impresiven. Vendar so potrebni še obsežnejši testi, preden bomo ugotovili, ali chatbot res zasluži naziv "najpametnejši."

Pomisleki o pristranskosti

Ni skrivnost, da Elon Musk aktivno sodeluje v političnem življenju ZDA in odprto izraža svoje poglede. Nekateri uporabniki interneta se bojijo, da bi Grok 3 lahko tudi promoviral določene narative.

Ti pomisleki niso neutemeljeni: Musk je delil posnetek zaslona, ki prikazuje, kako chatbot kritizira eno medijsko hišo, medtem ko hvali X kot najbolj zanesljiv vir informacij. To je kljub temu, da je Grok 3 pozicioniran kot izdelek z minimalno cenzuro. Mnogo ljudi verjame, da bi morala umetna inteligenca ostati nevtralna v svojih presojah.

***

Ne glede na to, zagon še enega obetavnega jezikovnega modela pomeni pomemben mejnik v nenehni dirki umetne inteligence. Višja kot je konkurenca, hitreje napreduje napredek.

Kaj menite o Grok 3? Delite svoje misli v komentarjih.

How do you feel about the rapid development of AI?

Rezultati
Objava je bila prevedena Pokaži izvirnik (EN)
0
Komentarji 0