Chat namesto Photoshopa: Googlov Gemini 2.0 Flash se uči urejati slike skozi dialog

Google je naredil nepričakovan korak v dirki generativne umetne inteligence z uvedbo eksperimentalne multimodalne različice Gemini 2.0 Flash v AI Studiu. Model ne le, da lahko generira slike iz nič, temveč tudi spreminja podrobnosti v obstoječih fotografijah prek preprostega klepetalnega vmesnika — brez potrebe po ponovni izdelavi celotne slike. To je prvič, da je pomemben igralec predstavil to funkcionalnost, kar je prehitelo OpenAI in xAI Elona Muska.
Uporabniki lahko Gemini dajejo ukaze v pogovornem formatu, kot so „zamenjaj ozadje z gorskim pokrajino“ ali „dodaj napis v ruščini.“ Umetna inteligenca ohranja kontekst pogovora, kar omogoča serijo naprednih sprememb. Na primer, uporabniki lahko spremenijo obleko osebe, nato „premaknejo“ to osebo na drugo lokacijo in na koncu prilagodijo osvetlitev. Vse spremembe se neposredno uporabijo na izvirni sliki, kar prihrani čas in vire.
Vsaka generirana slika je samodejno označena z vodnim žigom SynthID — Googlovim orodjem za boj proti globokim ponarejanjem. To je še posebej pomembno za oblikovalce in tržnike, ki lahko zdaj zakonito uporabljajo vsebino v komercialnih projektih. Manj očitne, a prav tako impresivne funkcije vključujejo kloniranje tekstur, barvanje starih fotografij in celo „izpolnjevanje“ manjkajočih elementov v slikah z uporabo besedilnih predlogov.
Medtem ko Gemini 2.0 Flash razume ukaze v ruščini, storitev uradno ni na voljo v Rusiji. Razvijalci in podjetja lahko model preizkusijo brezplačno preko AI Studia ali API-ja, vendar nekatere funkcije, kot so zamenjava obrazov ali kompleksna obnova, ostajajo nestabilne. Google poudarja, da gre za zgodnjo različico, končna izdaja pa bo optimizirana za naloge v realnem času.
Strokovnjaki opozarjajo, da je Google prvič združil ustvarjalno fleksibilnost Midjourney, natančnost DALL-E in interaktivnost ChatGPT v en sam model. Če se bo eksperiment izkazal za uspešnega, bi to lahko znatno poenostavilo delo v oblikovanju, izobraževanju in celo novinarstvu — omogočanje takojšnje vizualizacije podatkov ali ustvarjanje ilustracij za članke brez človeškega posredovanja. Za zdaj Gemini 2.0 Flash ostaja zanimljivo orodje, ki že redefinira možnosti generativne umetne inteligence.
-
Google je začel «Tiho vojno» proti blokatorjem oglasov: Priljubljena orodja za blokiranje oglasov propadajo
-
Oglasi so ubili iskanje: uporabniki iščejo alternative za Google
-
Izboljšana zaščita 2.0: Google Chrome uvaja obrambo, podprto z umetno inteligenco, proti neznanim grožnjam
-
Umetna inteligenca Googla se uči analizirati svet skozi kamero pametnega telefona
-
Google Chrome prehaja na samodejno upravljanje: brskalnik zdaj samodejno nadomešča ogrožene gesla