Nov Model DeepSeek V3-0324 izziva GPT-4o in Claude-3.5

DeepSeek AI je napovedal pomembno nadgradnjo svojega vodilnega modela — DeepSeek V3-0324. Model, ki je na voljo na GitHubu in Hugging Face, ne le da dohiteva, temveč tudi presega zaprte alternative, kot sta GPT-4o in Claude-3.5-Sonnet, na več ključnih področjih.

V jedru posodobitve je izboljšana arhitektura Mixture-of-Experts (MoE), kjer je 671 milijard parametrov dinamično aktiviranih v skupinah po 37 milijard na token. Tehnologija Multi-head Latent Attention zmanjšuje porabo pomnilnika za 60%, medtem ko Multi-Token Prediction povečuje hitrost generiranja besedila za 1,8-krat. Model je bil usposobljen na naboru podatkov, ki vključuje matematične probleme, kodo v 15 jezikih in znanstvene članke. Usposabljanje je trajalo 2.788 milijona ur GPU na H800 grozdih — kar je ekvivalent 318 letom neprekinjenega dela na enem samem akceleratorju. Rezultat: 89,3% natančnosti pri reševanju matematičnih problemov na ravni šole (GSM8K) in 65,2% stopnja uspešnosti pri generiranju kode (HumanEval) — 10–15% višja od prejšnjih rešitev z odprto kodo.

Posodobitev je prinesla nekaj nepričakovanih izboljšav:

  • Generiranje kode za uporabniški vmesnik zdaj proizvaja vizualno privlačne vmesnike;
  • Kakovost besedila je dosegla človeško raven tekočnosti v dolgih esejih;
  • Natančnost klicanja funkcij je dosegla 92%, kar rešuje eno od ključnih težav prejšnjih različic.

Čeprav uradni zapiski o posodobitvi še niso bili objavljeni, naj bi bil velikost modela 700 GB. Na voljo je prek API-ja z edinstvenim sistemom "kalibracije temperature": standardni parameter 1.0 se samodejno prilagodi na optimalno 0.3. Za lokalno implementacijo so razvijalcem na voljo spremenjeni predlogi za pozive z podporo za iskanje po spletu in analizo datotek — funkcija, ki je bila prej na voljo le v premium komercialnih rešitvah.

Strokovnjaki napovedujejo, da bi DeepSeek V3-0324 lahko motil trg AI pomočnikov za programiranje in analizo podatkov. Njegova odprtokodna dostopnost pod MIT licenco odpira vrata za prilagoditve — od avtomatizacije poslovnih procesov do ustvarjanja specializiranih znanstvenih pomočnikov.

Objava je bila prevedena Pokaži izvirnik (EN)
0
Komentarji 0