Novice Nov Model DeepSeek V3-0324 izziva GPT-4o in Claude-3.5

Nov Model DeepSeek V3-0324 izziva GPT-4o in Claude-3.5

25 marec 2025, 12:03

DeepSeek AI je napovedal pomembno nadgradnjo svojega vodilnega modela — DeepSeek V3-0324. Model, ki je na voljo na GitHubu in Hugging Face, ne le da dohiteva, temveč tudi presega zaprte alternative, kot sta GPT-4o in Claude-3.5-Sonnet, na več ključnih področjih.

V jedru posodobitve je izboljšana arhitektura Mixture-of-Experts (MoE), kjer je 671 milijard parametrov dinamično aktiviranih v skupinah po 37 milijard na token. Tehnologija Multi-head Latent Attention zmanjšuje porabo pomnilnika za 60%, medtem ko Multi-Token Prediction povečuje hitrost generiranja besedila za 1,8-krat. Model je bil usposobljen na naboru podatkov, ki vključuje matematične probleme, kodo v 15 jezikih in znanstvene članke. Usposabljanje je trajalo 2.788 milijona ur GPU na H800 grozdih — kar je ekvivalent 318 letom neprekinjenega dela na enem samem akceleratorju. Rezultat: 89,3% natančnosti pri reševanju matematičnih problemov na ravni šole (GSM8K) in 65,2% stopnja uspešnosti pri generiranju kode (HumanEval) — 10–15% višja od prejšnjih rešitev z odprto kodo.

Posodobitev je prinesla nekaj nepričakovanih izboljšav:

Generiranje kode za uporabniški vmesnik zdaj proizvaja vizualno privlačne vmesnike;
Kakovost besedila je dosegla človeško raven tekočnosti v dolgih esejih;
Natančnost klicanja funkcij je dosegla 92%, kar rešuje eno od ključnih težav prejšnjih različic.

Čeprav uradni zapiski o posodobitvi še niso bili objavljeni, naj bi bil velikost modela 700 GB. Na voljo je prek API-ja z edinstvenim sistemom "kalibracije temperature": standardni parameter 1.0 se samodejno prilagodi na optimalno 0.3. Za lokalno implementacijo so razvijalcem na voljo spremenjeni predlogi za pozive z podporo za iskanje po spletu in analizo datotek — funkcija, ki je bila prej na voljo le v premium komercialnih rešitvah.

Strokovnjaki napovedujejo, da bi DeepSeek V3-0324 lahko motil trg AI pomočnikov za programiranje in analizo podatkov. Njegova odprtokodna dostopnost pod MIT licenco odpira vrata za prilagoditve — od avtomatizacije poslovnih procesov do ustvarjanja specializiranih znanstvenih pomočnikov.

Objava je bila prevedena Pokaži izvirnik (EN)

Arkadiy Andrienko

Avtor novic

As a tech journalist at VGTimes, I'm equally comfortable discussing the latest GPUs and diving deep into the intricacies of classic RPGs. Writing about games and hardware since 2018, my background in sound engineering has given me a keen ear for the nuances of audio technology, and I'm always on the lookout for the next groundbreaking innovation in gaming hardware. When I'm not writing about tech, you'll likely find me exploring the post-apocalyptic wasteland of Fallout, managing a colony in RimWorld, or commanding armies in Hearts of Iron IV. For me, gaming is more than just a hobby; it's a passion that fuels my creativity and keeps me connected to the ever-evolving world of technology.

Novice Strojna oprema in tehnologije ChatGPT

Komentarji 0