Ustvari
Nov algoritem Google zmanjša porabo pomnilnika šestkrat. Je draga strojna oprema obsojena?

Nov algoritem Google zmanjša porabo pomnilnika šestkrat. Je draga strojna oprema obsojena?

Arkadiy Andrienko

Google Research je objavil članek o TurboQuant, algoritmu, ki zmanjša pomnilniške zahteve za AI delovne obremenitve vsaj šestkrat, vse to brez kompromisov pri natančnosti odgovorov in brez potrebe po dodatnem usposabljanju modelov.

Med generiranjem besedila modeli zanašajo na tako imenovano KV predpomnilnik—pomnilniški predal, ki shranjuje prej izračunane podatke mehanizma pozornosti, kar jim omogoča, da se izognejo ponovnemu izračunu pri vsakem koraku. Vendar pa daljše okno konteksta povzroči, da ta predpomnilnik narašča. Na določenem mestu začne porabljati desetine gigabajtov pomnilnika, celo močne grafične kartice z ogromno VRAM-a ostanejo nemočne. Tradicionalne metode kvantizacije so se že dolgo uporabljale za stiskanje predpomnilnika, vendar imajo skrito pomanjkljivost: poleg stisnjenih podatkov je treba shraniti tudi tako imenovane kvantizacijske konstante—v bistvu tabelo za iskanje, podobno tisti, ki jo uporabljajo ZIP ali RAR arhiverji.

Raziskovalci so testirali TurboQuant na odprtokodnih modelih, kot sta Gemma in Mistral, z uporabo benchmark paketov za dolge kontekste, kot so LongBench, Needle In A Haystack, ZeroSCROLLS, RULER in L-Eval. Pri preprostih nalogah je algoritem dosegel brezhibne rezultate, zmanjšal velikost KV predpomnilnika vsaj šestkrat. V bolj kompleksnih scenarijih—kot so odgovarjanje na vprašanja, generiranje kode in povzemanje—margina ni bila tako dramatična, vendar je še vedno presegla obstoječi KIVI algoritem za stiskanje. Na NVIDIA H100 pospeševalnikih je 4-bitna različica TurboQuant pokazala osemkratno povečanje zmogljivosti.

Trg se je že odzval na napoved, delnice glavnih proizvajalcev pomnilnika so utrpele udarec—kar odraža spremembo v pričakovanjih vlagateljev. Če široka uporaba TurboQuant zmanjša zahteve po VRAM-u, bi podjetja lahko zmanjšala stroške strojne opreme ali razširila okna konteksta modelov, ne da bi bilo potrebno povečati računsko moč.

New Google algorithm cuts memory usage sixfold. Is expensive hardware doomed?

Avtorji študije poudarjajo, da njihovo delo ni le inženirska rešitev—je način za omejevanje porabe pomnilnika v času, ko postaja pomnilnik vse bolj redek.

Ali lahko algoritem, kot je ta, dejansko pomaga končati "krizo pomnilnika" na trgu, ali bo pomanjkanje ostalo težava za vsakodnevne uporabnike, ne glede na to, katere programske trike uporabimo? Delite svoje misli v komentarjih.

    O avtorju
    Komentarji0