Nov Model DeepSeek V3-0324 izziva GPT-4o in Claude-3.5

DeepSeek AI je napovedal pomembno nadgradnjo svojega vodilnega modela — DeepSeek V3-0324. Model, ki je na voljo na GitHubu in Hugging Face, ne le da dohiteva, temveč tudi presega zaprte alternative, kot sta GPT-4o in Claude-3.5-Sonnet, na več ključnih področjih.
V jedru posodobitve je izboljšana arhitektura Mixture-of-Experts (MoE), kjer je 671 milijard parametrov dinamično aktiviranih v skupinah po 37 milijard na token. Tehnologija Multi-head Latent Attention zmanjšuje porabo pomnilnika za 60%, medtem ko Multi-Token Prediction povečuje hitrost generiranja besedila za 1,8-krat. Model je bil usposobljen na naboru podatkov, ki vključuje matematične probleme, kodo v 15 jezikih in znanstvene članke. Usposabljanje je trajalo 2.788 milijona ur GPU na H800 grozdih — kar je ekvivalent 318 letom neprekinjenega dela na enem samem akceleratorju. Rezultat: 89,3% natančnosti pri reševanju matematičnih problemov na ravni šole (GSM8K) in 65,2% stopnja uspešnosti pri generiranju kode (HumanEval) — 10–15% višja od prejšnjih rešitev z odprto kodo.
Posodobitev je prinesla nekaj nepričakovanih izboljšav:
- Generiranje kode za uporabniški vmesnik zdaj proizvaja vizualno privlačne vmesnike;
- Kakovost besedila je dosegla človeško raven tekočnosti v dolgih esejih;
- Natančnost klicanja funkcij je dosegla 92%, kar rešuje eno od ključnih težav prejšnjih različic.
Čeprav uradni zapiski o posodobitvi še niso bili objavljeni, naj bi bil velikost modela 700 GB. Na voljo je prek API-ja z edinstvenim sistemom "kalibracije temperature": standardni parameter 1.0 se samodejno prilagodi na optimalno 0.3. Za lokalno implementacijo so razvijalcem na voljo spremenjeni predlogi za pozive z podporo za iskanje po spletu in analizo datotek — funkcija, ki je bila prej na voljo le v premium komercialnih rešitvah.
Strokovnjaki napovedujejo, da bi DeepSeek V3-0324 lahko motil trg AI pomočnikov za programiranje in analizo podatkov. Njegova odprtokodna dostopnost pod MIT licenco odpira vrata za prilagoditve — od avtomatizacije poslovnih procesov do ustvarjanja specializiranih znanstvenih pomočnikov.
-
DeepSeek je izdal Janus-Pro-7B, ki presega DALL-E 3 in Stable Diffusion v zmožnostih generiranja slik
-
Revolucija v svetu umetne inteligence: Kako kitajski DeepSeek V3 prehiteva včerajšnje voditelje trga
-
NVIDIA-jev izvršni direktor prvič spregovori o kitajski umetni inteligenci DeepSeek
-
Strokovnjaki za kibernetsko varnost pozivajo, da se DeepSeek odstrani iz iPhonov zaradi ranljivosti
-
Kitajski AI startup DeepSeek se sooča z nadzorom zaradi domnevnega usposabljanja, temelječega na ChatGPT.