azkomgec logo
azkomgec.hu
azkomgec logo
azkomgec.hu

Eszméletlen gyorsan fejlődnek a fizikai formába öntött mesterségesintelligencia-modellek – mondja a Google magyar mérnöke

7 megtekintés
Interjú Üzlet AI Google mesterséges intelligencia
Blurred placeholder

Hol tart ma a globális mesterségesintelligencia-verseny – valóban lehagyta Kína az Egyesült Államokat? Mekkora energetikai kihívást jelent, hogy ma már előbb nyúlunk a ChatGPT-hez, mint a klasszikus keresőmotorokhoz? Ezekről is kérdeztük Csapó Gábort, a Google San Franciscóban élő fejlesztőjét.

Adatzsonglőr, MI-guru, hardverhekker – így írható le néhány szóban Csapó Gábor, aki 30 éves kora ellenére jó pár életet leélt már. Gimnázium után hagyta el Magyarországot, a New York University (NYU) Abu Dhabiba költöztetett kampuszáért. Egyetemi évei alatt találkozott először a mesterséges intelligenciával (MI), tanulmányai révén Ghánába és Grönlandra is eljutott.

Első munkahelye a londoni Goldman Sachs befektetési bank lett, ahol pénzügyi szoftver írt – ez azonban még nem volt az igazi. Féléves felvételi procedúra után 2019-ben Google-hoz ment át, itt a techóriás tajvani irodájában találta meg a számításait. Huszonévesen évekre kint rekedt a pandémia miatt, több ezer kilométerre otthonától, mégis pozitívan tekint vissza erre az időszakra.

Négy év Tajpej után költözött San Franciscóba, amit azóta is otthonának hív. Jelenleg a Google Beam csapatában dolgozik: mesterséges intelligencia és kamerák segítségével 3D-videóchat funkciót fejlesztenek – VR-szemüvegek nélkül.

info Fotó: Sebestyén László // Forbes
Csapó Gábor 30 éves, de megjárta már Abu Dhabit, San Franciscót és Tajpejt is. Most egy MI által hajtott videóchat funkció fejlesztésén dolgozik. Fotó: Sebestyén László // Forbes

Forbes.hu: Milyen trendekre érdemes figyelni az MI téren? Mi látszik a tengerentúlon, ami Európában még nem?

Csapó Gábor: Kutatás terén, ami mögött igazán van tartalom, az a robotika. Eszméletlen, hogy milyen gyorsan fejlődnek a fizikai formába öntött mesterséges intelligencia modellek, rengeteg startup dolgozik ebben a szektorban.

Egy másik lenyűgöző terület az úgynevezett világmodellek fejlesztése. Ezek olyan MI-k, amelyek nemcsak képeket generálnak, hanem működő, interaktív mini-világokat. Képzeld el, hogy feltöltesz egy fotót, és ebből a képből egy teljesen új, videójátékként játszható összefüggő, konzisztens világot tud létrehozni.

Ez nem egy film, vagy előre programozott videojáték, hanem az MI valós időben rajzolja meg pixelenként, hogyan reagál a környezet a parancsokra.

Ez gyakorlatilag egy MI-metaverzum?

Igen. Van már több ilyen demo is, például a Google Genie vagy a Dynamics Lab Magica, de kutatólaborok is csinálnak hasonlókat. Tudok olyan önvezető autós cégről is, ami a szimulációit már MI-világokban végzi. Ahelyett, hogy az autópályán összetörnék az autót, virtuálisan tesztelnek. Így gyűjtik össze a ritkább adatokat, például azt, hogy mi történik, ha nagy sebességnél driftel a kocsi.

Reprezentatív ez a valóságra nézve?

Egyelőre nem 100 százalék, de grafikában nagyon ott van. Rengeteg videókártya kell ahhoz, hogy fusson, és akkor is csak alacsony felbontással megy még.

Inkább akkor szórakoztatóipari termékként értelmezhetőek most az MI-világok?

Kettéválasztanám. Valószínűleg lesznek szimulált világok, ezekben fogják a robotokat edzeni, vagy adatot gyűjteni, de a másik ág valóban a videójátékoké. Ehhez mondjuk a gépi követelményeknek lejjebb kell mennie, hogy egy átlagos fogyasztó is futtatni tudjon egy ilyet. De nem kizárt, hogy különlegességnek fog számítani, mert teljesen új lehetőségek előtt nyitja meg a kaput.

Több ebből
Vicces mémekért milliárdokat fizet a ChatGPT fejlesztője – tényleg ez a jövő?
Itt az új Forbes-lista: 25 magyar az AI forradalma mögött
Kimondták, hogy mesterséges intelligencia, és dől a pénz

Az MI-teljesítmény energiaügyi szempontból is kiemelt kérdés. A környezetemben azt látom, hogy ma már sokan előbb nyúlnak a ChatGPT-hez, mint a klasszikus keresőmotorokhoz. Ez a jelenség, valamint az MI-szoftverek felfutása milyen hatással van a bolygó energiagazdálkodására?

Ez most nagyon népszerű téma a hírekben, az újságok látják, hogy nagyon megy, sokan klikkelnek rá, ezért folyamatosan napirenden tartják. Van alapja az aggodalmaknak, de egyelőre messze nincs még ott a mesterséges intelligencia energiaigénye, hogy nagy súlya legyen. A legutóbbi statisztikák azt mutatják, hogy a világ összes MI-szoftvere annyit fogyaszt együtt, mint egy közepes méretű amerikai város.

Ennyitől nem fognak összedőlni az energetikai rendszereink, de ha tovább terjed és nem csinálunk semmit, akkor eljuthatunk oda is, hogy ez gondot fog okozni.

Nagy probléma, hogy az adatközpontokat nagyon gyorsan kell építeni, ezért sokan az egyszerűbb utat választják, és megújuló energiaforrások biztosítása helyett gázturbinákat építenek.

De a vállalatoknak sem érdeke hosszútávon az energiafogyasztás növelése. A techóriások rengeteg pénzt veszítenek most, és ezt csak úgy tudják megállítani, ha hatékonyabbá teszik a modelljeiket.

Gábor szerint 2025-ben az adatkészletek összeállítása és kurálása a legérdekesebb, és következő évekre nézve legfontosabb terület. Fotó: Sebestyén László // Forbes

Több iparági forrástól is hallottam, hogy Ázsia – főleg az audiovizuális, generatív szoftverek piacán – megelőzte az amerikai cégeket: jó példa az év elején, a semmiből érkező kínai DeepSeek. Ezzel szemben Európában még mindig a nyugati MI-modellek tarolnak. Te hogy látod az erőviszonyokat?

Technológiai szinten szerintem nagyjából mindenki ugyanott van. Inkább olyan kérdések merülnek fel, hogy mennyire hihetünk egy kínai interneten edzett LLM-modellnek. Erről nagyon limitált információink vannak.

Ami biztos, hogy az AI-dolgok sokkal elfogadottabbak Ázsiában, mint bárhol máshol. Ez már abból lejön, hogy mennyire megszerkesztik a képeiket a közösségi médiában – sokszor elérve a felismerhetetlen szintet. Adatkezelésben is teljesen máshogy állnak a dolgokhoz, nincs meg a nálunk ismert szkeptikusság.

Mondok egy példát: Tajvanon fenomenális az egészségügy, az orvosi rendelő csúcsmodern és tiszta. Van egy éves teljeskörű egészségügyi felmérés, ahol tényleg mindent leellenőriznek. Egyszer az történt, hogy nem kaptam meg az eredményeket, és odatelefonáltam. Beköszöntem a telefonba, hogy Csapó Gábor vagyok, nem kaptam eredményt. Erre csak annyit mondtak: oké, milyen e-mailre küldjük?

Teljesen más világ. És ebből például az is következik, hogy az embereket sokkal kevésbé zavarja, hogy az MI-szoftvereket az ő adataikon edzik.

Hol van Európa ebben a képletben, van bármilyen realitása annak, hogy felzárkózzunk? Mire lenne szükség ehhez?

Európa egyértelműen háttérbe szorult, ami annak a fényében különösen érdekes, hogy a kínaiak bebizonyították, nem feltétlenül kell végtelen erőforrás a csúcsmodern technológiákhoz. A versenyhátrányt az jelenti, hogy nincsenek nagy techcégek, a recept pedig az, hogy a privát szféra hozza az innovációt. Állami oldalról nehéz megmondani, milyen gyorsan lehetne egy piacképes terméket létrehozni.

Kaliforniában tényleg valódi MI-ökoszisztéma alakult ki, Kínában pedig nagyon támogatják az ilyen kutatásokat. Ezeket nem lehet néhány év alatt bepótolni.

A munkáid közül kifejezetten érdekes volt számomra az, hogy rengeteg időt töltöttél a számítógépek torzításaival, megkülönböztetéseivel. Ha jól tudom, még videójátékot is fejlesztettetek erre.

Ezt a jelenséget már sok-sok éve követem. Még az egyetemen volt órám arról, hogy mindenki azt hiszi, az MI milyen semleges.

Valójában számos esettanulmány bizonyítja, hogy az adatkészletek által prezentált értékrend szerint dönt. És így persze az a nagy kérdés, hogy ki készíti az adatkészleteket, és milyen értékrendű adatpontok kerülnek bele.

A videójátékot három osztálytársammal csináltuk szabadidőnkben, amikor Londonban laktam. Találtunk egy ösztöndíjat a Mozillánál, és munkához láttunk. A játékban főnökként kell narancs vagy kék színű embereket felvenni, minél gyorsabban, majd egy ponton a számítógép veszi át a feladatot. A szimuláció lényege az, hogy egyszerűen bemutassuk, milyen fontos az, hogy egy szoftvert milyen adatokkal eddzük.

A játékról

A Mozilla 31 500 dollárt (több mint 10 millió forintot) adott az egyetemistákból álló csapatnak, hogy létrehozzák a szimulátort. A „Survival of the Best Fit” című játékot már több mint 100 ezren kipróbálták, felfigyelt rá a Deepmind, a UNESCO és a kanadai kormányzat is. Gábor azóta is jár a Mozilla konferenciára előadni.

Az érdeklődésed elméleti síkon indult, mára viszont rálátsz a mindennapi gyakorlatokra is. Mennyire foglalkoznak ezzel a big tech szektor?

Aminek nagyon örülök, hogy 2017 fele kevesen tudták, miről beszélek, amikor felhoztam ezt a témát. Ehhez képest, ha ma azt mondod, hogy machine learning bias, a legtöbb embernek azért van ötlete arról, hogy mi lehet az.

Szerintem ennek elkerülhetetlen kérdésnek kell lennie az óriásoknál is. Ennek ellenére az látszik, hogy ez mégis teljesen háttérbe szorul, mint például a Grok (Elon Muskhoz, a világ leggazdagabb emberéhez köthető MI-szoftver – a szerk) esetében.

Ma szinte bármelyik MI-modellből egyszerűen kihozható egy olyan abszurd állítás, hogy ha valaki afrikai, akkor kevésbé intelligens, vagy nem dolgozik.       

Sajnos a legtöbb példa nem ilyen egyértelmű, rejtve vannak a megkülönböztetések. Ha mondjuk generálsz egy videót egy doktorról, az nagy eséllyel férfi lesz. Ezt azonban nem veszik annyira észre az emberek.

Mit lehetne tenni ez ellen?

Ez egy érdekes kérdés. A statisztikai modellek csak azt követik, hogyan viselkednek az emberek az interneten, szóval innen kéne kiindulni.

Mostanság sajnos úgy tűnik, kicsit feladtuk az emberiség javítását. A legtöbbünknek izgalmasabb az, hogy hogyan lehet statisztikai modelleket irányítani.

Mekkora felelőssége van ebben az amerikai kormányzatnak? Trump sokszor hangoztatta már, hogy nem hisz a sokszínűség, esélyegyenlőség, befogadás hármasban.

Valószínűleg sok. A Biden-adminisztráció még adott ki arról nyilatkozatot, hogy milyen elvek mellett kéne fejleszteni a mesterséges intelligenciát. Ennek a nagy része a megkülönböztetések kiszűrése volt.

Most ez lett teljesen kidobva az ablakon, mindenki azt csinál, amit szeretne, a Grok lehet olyan náci, amennyire csak akar.

Ezért gondolom nagyon fontosnak, hogy kiálljuk ezek az értékek mellett, legyenek konferenciák, legyenek órák az egyetemen, legyenek mindenki számára elérhető tanulási lehetőségek. A mi játékunk is arról szól, hogy mindenki megértse, miért fontos ez. Ha megkérdezed az emberek többségét, egyetértenek a céllal.


Egy világpolgár kiköt a Google egyik legizgalmasabb projektjénél

San Francisco, Tajpej, London, vagy Abu Dhabi? Hol a legjobb?



Ennyi hely után az egyetlen, amit tudok mondani, hogy mindenhol jó. Ami nekem nagyon feltűnt, hogy egyedül a saját fejedben lévő narratívádtól függ, hogyan érzed magad. London egy szuper hely, de végig az volt bennem, hogy azért vagyok itt, mert itt kaptam munkát. Tajvant már én választottam, imádtam az ottani négy évemet. Az USA-ba költözésemet például a volt partnerem is motiválta. Miután már nem vagyunk együtt, mondhatnám, hogy nincs helyem itt, de eldöntöttem, hogy én a saját sztorimat írom.

Ez már a végpont, vagy még mindig hajt az utazási vágy?

Szerintem már nem, csak a lendület visz. Az egyetemen olyan társaságot gyűlt össze, akikben benne van ez a vágy, ilyen szempontból volt egy nyomás is erre. De ez nem csak innen jön, gimnáziumban is nagyon érdekeltek már a világ dolgai, a földrajz és az idegen nyelvek irányába indultam.

Fizika-matekra tippeltem volna.

Jogos. Matekból nem voltam rossz, de mégsem nevezném a kedvencemnek. Fizika szintén érdekelt, de azt is inkább muszájból csináltam. Egy német könyvet, vagy egy földrajzatlaszt szabadidőmben is fellapoztam.

Hogy alakult ez át, mikor kezdtél el először mesterséges intelligenciával foglalkozni?

2014-ben kezdtem az NYU-t, az első deep learning siker pedig azt hiszem, 2012-ben volt. Valahogy akkor benne volt az osztályomban, hogy ez nagy dolog lesz. A kriptovaluta volt az egyik érdeklődési irány, a másik meg a mesterséges intelligencia. Próbáltam utóbbi irányába terelgetni a tanulmányaimat, és követni, mi történik a területen. De a betörési lehetőségek elég limitáltak.

Én úgy látom, hogy két lehetőséged van: PhD – ami engem nem érdekelt annyira, vagy ha bekígyózol valamilyen fejlesztési csapatba.

Emlékszem, az egyik nyári gyakorlatom feladata az volt, hogy PDF-dokumentumokat

értelmezzek MI-val, és így szedjek ki bizonyos témájú részeket. A főnököm – aki már évek óta kutatta a témát – váltig állította, hogy hamarosan a gép ezt saját magától fogja tudni csinálni. Mondtam neki, hogy ez lehetetlenség, nincs elég adat, nem ezt mutatják a számok. Ez volt 2017-ben.

Végül nem lőtt távol a valóságtól.

Tényleg nem. Az első, kezdetleges LLM-modelleket (Large Language Model – olyan MI, ami szövegbázisokból tanul meg olvasni, írni, és beszélgeti – a szerk.) 2018-ban alkották meg.

info Fotó: Sebestyén László // Forbes
Csapó Gábor: „Az NYU-n már 2014-ben benne volt az emberekben, hogy a mesterséges intelligencia nagy dolog lesz.” Fotó: Sebestyén László // Forbes

Nem tágultak ki azóta ezek a lehetőségek? Ma már szinte felsorolhatatlan mennyiségű MI-modell létezik, kiélezett a verseny. Hogy lehet ebben kiigazodni, szerinted hogyan tud ma egy vállalat előnyt kovácsolni magának a piacon?

Amiket én követek, az az OpenAI, Anthropic, DeepMind, X és még néhány kínai modell. Ezeken kívül nehéz csúcstechnikájú teljesítményeket kihozni. Szerintem a nyitott forráskódú modellekre érdemes figyelni, különösen, ha fejlesztő vagy, hiszen itt minden irányítás a tied, nem kell mondjuk attól tartani, hogy az MI lopott, vagy téves adatokon lett tréningezve.

A gyakori megoldás a zárt forráskód, ahol a tréningadatok és a pontos működés is titkos. Erre nem biztos, hogy érdemes építkezni. Ha az OpenAI egy nap úgy dönt, hogy minden másképp lesz, akkor utána csak keresni lehet a fonalat.

Az OpenAI és a DeepMind az általános tudásra megy rá, asszisztensek próbálnak lenni, míg az Anthropic mondjuk a kódolásra erősített rá. Vagyis gyakorlatban a ChatGPT és a Gemini tényszerűbbek, de ha kódolni kell valamit, akkor a Claude mindent visz.

A kínai MI-nél az a kérdés merül fel, hogy milyen adaton lett edzve, valójában mekkora kontrollja van a kínai államnak. Ezt nehéz megítélni. Teljesítményben viszont abszolút felveszik a versenyt.

Korábbi munkáid során hogyan találkoztál MI-vel? Londonban befektetési bankban dolgoztál, ott nem hiszem, hogy erről szóltak a mindennapok.

Nagyon változó, de valahogy mindig megjelent. Londonban az volt a munkám, hogy pénzügyi szoftvert írjak: a gyakorlatban ez egy rizikókalkulációs szoftvert jelentett. Itt jöttem rá arra, hogy nekem nagyon fontos az, hogy valami kézzelfogható dolgot készítsek.

A bank pénzügyi szoftvere egyáltalán nem ilyen volt. Időközben az is lejött, hogy ez a szektor nem nekem lett kitalálva. Mondjuk úgy, hogy itt nem a technológia van az első helyen.

Ezeket a számításokat megtaláltad a Google-nél? Hogy nézett ki ez a folyamat?

Egy ismerősöm ajánlott be, de ezt követően volt még egy hat hónapos felvételi procedúra. Már nem is emlékszem, hány körön vettem részt, de volt legalább 4-5. Ez hosszú és bonyodalmas, de ha bekerülsz, akkor te választhatsz csapatot. Több helyen is érdeklődtem, de végül egyértelmű volt, hogy Tajvan a nekem való.

Csapó Gábor a Goldman Sachsnél töltött idejéről: „Mondjuk úgy, hogy a pénzügyi szektorban nem a technológia áll az első helyen.”

Szépen átvezetted. Pedig készültem arra, hogy mondjam, mennyire távolinak tűnik egymástól a brit ködben szoftverírás a tajvani csengőfejlesztéstől. Miért itt zajlik ez a folyamat?

Szinte minden technológiai eszközt, ami használunk, Kaliforniában fejlesztenek, de ebben a régióban gyártanak – hosszú évek óta. A két térség között viszont van egy 16 órás időeltolódás. Ez nagyon sok mindent bonyolított, és a cégek rájöttek, hogy olcsóbb itt irodát nyitni, mint a gyártást Amerikába vinni. A másik fő ok, hogy rengeteg tehetséges mérnök van itt, ezért van értelme itt is növekedni.

A Google a helyi HTC cég telefon fejlesztői részlegétet vette meg, így kezdtek el itt is bővülni. Kezdetben a világ korábbi legmagasabb épületében volt egy pici irodájuk, mára hatalmas kampuszt alakítottak ki.

Abban a csapatban dolgoztam, ami okos otthonokba fejleszt termékeket. Csináltunk biztonsági kamerás kapucsengőt és okostermosztátot is. Nagyon sokat foglalkoztam kamerákkal, végül ez volt az is, ami továbbvitt a mostani területemre.

Milyenek voltak az ottani mindennapjaid? Olvastam, hogy kint ragadtál a pandémia idejére, hogy élted meg ezt?

Tudom, hogy sokan nem élvezik az ilyen kihívásokat, de én nagyon szerettem ott lenni. Pár hónappal a covid előtt költöztem ki, összesen két éven keresztül nem tudtam hazajönni. Voltak nehéz részei, de a legjobb élményeim is ide tartoznak, például, hogy az ünnepnapokat a helyi ismerőseim családjával töltöm. Nemrég eljöttek Magyarországra, elmentünk két hétre a szüleimhez, megmutattam, milyen az itteni élet.

Szerintem az, hogy Abu Dhabiban jártam egyetemre, sokat segített ebben. Egyrészt, mert megtanultam, milyen távol otthontól, másrészt a kapcsolati hálóm miatt voltak ismerőseim, amikor megérkeztem. Ők lettek a szobatársaim. De tanultam kínaiul is, próbáltam minél jobban beilleszkedni.

Volt olyan élmény, ami kifejezetten megmaradt?

A legtöbb lakásban nincs rendes konyha, mert az emberek éttermekben esznek, mert nagyon olcsók az ételek kint. Szerintem ez egy átgondolandó koncepció, sok energiaforrást és időt is meg lehetne spórolni így.

Négy év után lecserélted keletet nyugatra, a Google egy másik ágához kerültél. Hogy zajlott ez?

Az vitán kívüli, hogy a munkalehetőségek IT-téren jobbak San Franciscóban, mint Tajpejben, az én döntésemet ráadásul személyes okok is motiváltak. A volt partneremet már említettem, de hozzájárult az is, hogy szinte a teljes baráti köröm elment Tajvanról. Amikor kitört a covid, sokan hazajöttek, de az enyhülés után mindenki visszament. Döntenem kellett, hogy vagy újrakezdek, vagy követem a lehetőségeimet.

Jelenleg a Beam csapatához tartozom: egy holografikus megjelenésű 3D-hívásrendszert fejlesztünk. A nagy különbség a többi kiterjesztett valóság projekthez képest itt az, hogy semmit sem kell a fejedre rakni.

Nagyjából úgy kell elképzelni, mintha valaki ülne veled szembe egy asztalnál, csak lenne körülötte egy TV-keret.

Hogyan hozzátok ezt létre?

Nagyon hasonlóan működik, mint a Nintendo 3DS, (a japán cég 2011-ben kiadott konzolja, amely szemüveg nélkül tudott 3D-t megjeleníteni – a szerk.) csak jobb minőségű, és követi a fejmozgásodat, szóval más szögekben sem törik meg a hatás. Most még tesztelünk, fejlesztünk, de valószínűleg jövőre már kapható lesz.

A technológiát két részre osztanám: van a kijelző, a kamerák, meg a hangrendszer. A másik rész meg az, hogy az összegyűjthető felvételekből hogyan lehet összerakni egy jó modellt. Az utóbbi algoritmus kutatócsapatában dolgozom, ezen belül is a tréninghez szükséges adatkészlet összeállításán.

Szerintem 2025-ben az adatkészlet-kurálás az egyik legérdekesebb, és legfontosabb téma. Ha lesz következő munkám, az is ezen a téren lesz.

Kapcsolódó cikkek