azkomgec logo
azkomgec.hu
azkomgec logo
azkomgec.hu

A 23. órában vagyunk: mutatunk néhány példát, hogyan mossa össze végérvényesen a Google új MI-modellje a valóságot a fikcióval

6 megtekintés
Üzlet AI egyesült államok Google mesterséges intelligencia Tech
Blurred placeholder

„Hiszem, ha látom” – szól a híres mondás, ami a következő lehet azon a listán, amit teljesen felülír a mesterséges intelligencia. Szakértők szerint az elképesztő tempójú fejlődés oda vezethet, hogy az emberek elidegenülnek a közösségi médiától.

2025 egyértelműen az áttörés éve a mesterséges intelligencia képalkotásában, csak úgy kapkodjuk a fejünket az újabb és újabb, realitás határát súroló modellekre. Eddig még úgy-ahogy meg lehetett állapítani a különböző képekről és videókról, hogy nem stimmel valami: most azonban ez a határ is elmosódni látszik.

Erre utaló ómen lehetett, hogy Gaál László az év elején olyan hiperrealisztikus autós reklámot készített szabadidejében a Google Deepmind Veo 2 szoftverével, hogy ősszel már a Toyota kereste meg egy valódi videós kampány legyártásával. Erről ebben a cikkünkben írtunk részletesen.

Több ebből
Hobbiból globális ismertség. A magyar, aki filmese lett a nem létező stábnak
Már a világ legnagyobb autógyártójának csinál reklámot a magyar, aki rémisztően élethű MI-videóival a Google-t is lenyűgözte

November végén érkezett meg a Google legújabb dobása, a Nano Banana Pro, amely bemutató videójában részletesebb, pontosabb és többnyelvű képkészítést ígért elődjéhez (a Nano Bananahoz) képest. A szoftverrel – amelynek hivatalos neve Gemini 3 Pro Image, a banános változat a köznyelvben használt – egyértelmű célja volt a techóriásnak, hogy az infografikák világát is meghódítsa. Az új MI-vel néhány másodperc alatt alakíthatunk át hosszú szövegeket könnyebben érthető, vizuális formába.

A szoftverben nagy szerepet kapott a többnyelvűség is, képes teljes képeket lefordítani, vagy más-más piacokra optimalizálni az infografikákat. A Nano Banana Pro-val készült képeken az ingyenes felhasználók esetében látható, az előfizetőknél láthatatlan vízjel látható ezzel bebiztosítva, hogy fel lehessen ismerni, mi MI-generált, és mi nem.

A legnagyobb előrelépések azonban mégsem itt, hanem a képek realisztikusságában láthatóak.

Itt tartunk most

Múlt héten egy kávézóban ülő lányról készült kép kezdett virálisan terjedni a közösségi médiában. A Nano Banana Pro-val generált képet egy X-felhasználó posztolta ki oldalára néhány másik MI-szoftver próbálkozása mellett.

info Nano Banana Pro (Fizetős) Fotó: X / Romain Hedouin
A szóban forgó kép, amit a Nano Banana Pro készített. Fotó: X / Romain Hedouin

A felhasználó ugyanazt a promptot (magyarul utasítás, vagyis az a parancs, ami alapján az MI elvégzi a kiszabott feladatot – a szerk.) táplálta be több, sokak által használt generatív modellbe. A teszthez Elon Musk Grok szoftverének legújabb változatát, a világelső, OpenAI által fejlesztett ChatGPT-t, valamint a Google ingyenes, sima Nano Banana szoftverét választotta.

A különbség szemmel látható. Gaál László szerint sok olyan, kívülről nem látható összetevő van, ami a realizmushoz vezethetett. „A fejlesztési folyamat kicsit olyan, mint a főzés: hiába van brutális költségvetésed az alapanyagokra (jelen esetben ez a számítási teljesítmény), az, hogy az ember hogyan készíti elő, majd készíti el az ételt, ugyanolyan, vagy még fontosabb” írta megkeresésünkre.

Úgy látja, a Nano Banana Pro esetében mind az előzetes betanítás, mind az RLHF (Reinforcement Learning from Human Feedback ez annyit tesz, hogy az MI az emberek visszajelzései alapján tanul döntéseket hozni a szerk.) fázisban olyan emberek voltak a döntéshozók, akik a nagyon műanyagnak tűnő, plasztik képek helyett a realizmus mellett döntöttek.

Laci szerint a Google-nek több tekintetben is előnye van: például abban, hogy saját hardveren taníthatják modelljeiket: nincsenek az Nvidia-ra szorulva, mint más cégek.

MI-pillanatfelvételek

Fontos megjegyezni, hogy egy élethű kép legenerálásánál nem elég 2-3 szót megadni a szoftvernek, most még ott tartunk, hogy hosszú, optimalizált promptok után lehet hasonló hatást elérni. Az alábbi X-felhasználó realisztikus képeit egy közel háromezer karakteres, az utánozni kívánt kamera típusára és fénybeállításokra is kitérő utasítássorral érte el.

Ebben a galériában mutatunk még néhány példát, mivel kísérleteznek a közösségi médiában a júzerek.

Az amerikai Time magazin nemrég hosszú elemzést publikált arról, mit okozhat a közösségi médiában a mesterséges tartalmak elterjedése. A cikkben azt írják: fennállásuk legnagyobb veszélyhelyzetébe kerülhetnek a social platformok. A tömegesen beáramló MI-képek és videók elvehetik az emberek alapvető bizalmát, ha saját szemükkel nem tudják eldönteni, hogy amit látnak, valós-e.

Amellett, hogy a vízjel nélküli tartalmak miatt nő a hamis videókkal félrevezetés, manipuláció, vagy akár a csalás esélye, a képmegosztó oldalak elveszítik eredeti funkciójukat – az emberek összekötését.

Egyes szakértők úgy látják: ha a közösségi oldalak zajjal telnek meg, ­akkor elindulhat egy olyan folyamat, ahol az emberek hátrébb lépnek a közösségi médiától, és újra a valódi, offline kapcsolatokat keresik.

Kapcsolódó cikkek