Zarobljeni u neuralnoj mreži

Za razliku od jezika koji na temelju ograničenog broja inputa daje neograničene outpute, veliki jezični modeli (LLM) na temelju prevelikih korpusa, odnosno prevelikog broja inputa, daju sličan broj outputa, dok istovremeno program nema inherentnu sposobnost ispravljanja, brisanja i prepravljanja informacija u skrivenim slojevima neuralnih mreža

Ilustracija: Ivica Družak/FINALIZACIJA

Prva faza rasprave o umjetnoj inteligenciji uslijedila je nakon blagog ontološkog šoka i spoznaje da živimo u budućnosti neke davno minule sadašnjosti koja je maštala o svim tehnološkim čudima što ih danas imamo. No budućnost je to prepuštena tržišnoj logici bez dovoljne filozofske i društvene odgovornosti. Dobra ilustracija možda je slučaj Googleovih inženjerki Timnit Gebru i Margaret Mitchell koje su zajedno s lingvistkinjom Emily Bender napisale rad "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" ("O opasnostima stohastičkih papiga: Mogu li jezični modeli biti preveliki?") u kojem su sve velike jezične modele (u nastavku LLM-ovi, engl. Large Language Models) prozvale "stohastičkim papigama" želeći time reći da su rezultati koje daju LLM-ovi slučajni ishodi statističkih i probabilističkih funkcija. Odnosno da baš kao i papige, LLM-ovi imitiraju jezik, ali ga zapravo uopće ne razumiju.

Tezu su ilustrirale upućujući na sklonosti LLM-ova rasnim predrasudama, što je rezultiralo provjerom Googleovih politika raznovrsnosti u zapošljavanju. Rezultati nisu bili dobri. Obje znanstvenice bile su članice tima za etička pitanja umjetne inteligencije (UI) pri Google Research centru, a Gebru, inače jedna od najcjenjenijih afroameričkih znanstvenica, svoje nezadovoljstvo kompanijom izrazila je mejlom poslanim kolegicama. Zbog toga je dobila otkaz. Tjedan dana kasnije otkaz dobiva i Mitchell, inače europskog podrijetla, koja je izrazila nezadovoljstvo brojem novozaposlenih žena. Google ju je optužio da je iz kompanije iznijela neke dokumente pa je i njoj otkazana suradnja. Prepirka koja je počela oko rada o mimikriji jezika otkrila je u najboljoj sociolingvističkoj maniri društvene probleme koje ne želimo svi adresirati.

Google je još od Gebru i Mitchell tražio da povuku svoja imena iz rada jer je odvjetnički tim zaključio da su koristile preoštar jezik ("opasnosti" umjesto "rizika" i "negativnosti" umjesto "izazova") i da nisu navele dovoljno referenci na pokušaje firme da sanira probleme zbog kojih su često kritizirani. Znanstvenice su to odbile, a kompanija je zaključila da ih vođe vlastitih timova predstavljaju u negativnom svjetlu. Akademska zajednica se pobunila protiv odvjetničkog gušenja slobode izražavanja u akademskim radovima. Svijet se i dalje okreće, a nama je ostalo da se pozabavimo problemima, odnosno "izazovima" umjetne inteligencije.

"Prompt" ili uputa u nekim botovima čak mogu biti limitirani na određeni broj ulaznih znakova, što znači da ne možete ni u svim LLM-ovima baš najbolje objasniti kontekst. A kontekst glavu čuva

Posljednji takav "izazov" tiče se rasprave o tome da ChatGPT u posljednje vrijeme sve češće daje krive rezultate, čak i u jednostavnim matematičkim izračunima. Može li se onda dovesti u vezu veličina korpusa (skupa) tekstova sa sve češćim krivim rezultatima nekih LLM-ova? Ako LLM nema mogućnost filtrirati informacije, kao što to ima ljudski mozak, onda bi krivi rezultati trebali biti očekivani. Druga faza rasprave o LLM-ovima je realistično otrežnjenje. Kao ilustracija može poslužiti šala koja se proširila među dizajnerima: "Ne brinite, dizajneri su sigurni pred UI-jem jer klijenti ne znaju objasniti što hoće." I zaista, za uspješno korištenje UI-ja potrebno je uspješno napisati "prompt" odnosno uputu ili pitanje. Za to ne treba samo posjedovati bazično znanje o onome što se traži, već je važnije LLM-u s kojim pričate zadati limite pitanja i što više kontekstualnih detalja. "Prompt" ili uputa u nekim botovima čak mogu biti limitirani na određeni broj ulaznih znakova, što znači da ne možete ni u svim LLM-ovima baš najbolje objasniti kontekst. A kontekst glavu čuva. Što bolji kontekst, to hipotetski bolji odgovor.

Samo, ni to više nije jednostavno kao što je bilo u početku. LLM-ovi su zamišljeni kao analogija mentalnih ljudskih procesa, no teško ih je kopirati u elektroničke procese ako ove prirodne, biološke, još nismo dovoljno objasnili. Softveri – dakle umjetna inteligencija ili veliki jezični modeli (LLM) – imitiraju ljudski um na temelju dva ograničavajuća faktora: našeg limitiranog znanja o umu i činjenice da pokušavamo numeričkim faktorima kompenzirati ono što se u umu događa na biokemijskoj razini. Prvi faktor, nepotpuno razumijevanje ljudskog uma, dodatno otežava činjenica da računalni lingvisti možda razumiju jezik, ali zapravo nisu matematičari. Matematičari pak možda razumiju brojeve, ali nisu neuroznanstvenici ni lingvisti, dok ovi srednji ne razumiju nužno ni jezik ni matematiku i ne moraju znati prenijeti programerima adekvatnu logičku formu za osmišljavanje adekvatnog koda.

Drugi faktor, numerička kompenzacija, ne može u potpunosti nadomjestiti ono što se zapravo događa u mozgu na biokemijskoj osnovi. Za bilo koju akciju mozga nužni su pozitivan ili negativan naboj, određena frekvencija, vrijeme od podražaja do početka akcije i biokemijski prijenos informacije neurotransmiterima. Umjetne neuralne mreže sve to pokušavaju kompenzirati numeričkim i statističkim kombinacijama. Umjetne neuralne mreže bazirane su na matematičkoj kombinatorici, a ovdje ih uspostavljamo kao različite od prirodnih bioloških neuronskih mreža utemeljenih u brojnim biokemijskim i fizikalnim zakonima, kao što, uostalom, pokazuje kultna teorija naziva – orkestrirana objektivna redukcija (Orchestrated objective reduction, skraćeno Orch-OR) nobelovca i fizičara Rogera Penrosea u suradnji s neuroznanstvenikom Stuartom Hameroffom, u kojoj autori definiraju svijest kao pitanje kvantne mehanike.

Neuralne (umjetne) mreže imaju mnoštvo slojeva među kojima mi razumijemo samo prvi inputa informacija i zadnji sloj njihova outputa – sve što se događa između inputa i outputa znanstvenici koji se bave UI-jem zapravo ne razumiju, što većina njih priznaje. To nije nužno kritika istraživača, više prigovor pristupu javnom mnijenju, plasiran s ciljem da se promijeni pristup programiranju LLM-ova. Većina lingvista koji pišu o ovoj temi možda nisu programeri, ali svakako imaju dubinsko razumijevanje ljudske kognicije. Ipak, svaka struka iz svoje perspektive dolazi zapravo do sličnih zaključaka.

Osim spomenute Emily Bender, na istu temu progovorio je i Noam Chomsky u njemu omraženom New York Timesu, u tekstu koji je nazvao "Lažnim obećanjem ChatGPT-ija". Chomsky ističe kako LLM-ovi funkcioniraju suprotno od jezika, koji na temelju ograničenog broja inputa (npr. fonema koji tvore morfeme koji tvore riječi što tvore rečenice itd.) daje neograničene outpute. LLM-ovi na temelju prevelikih korpusa – odnosno prevelikog broja inputa – daju sličan broj outputa, dok istovremeno program nema inherentnu sposobnost ispravljanja, brisanja i prepravljanja informacija u skrivenim slojevima neuralnih mreža. Te unutarnje slojeve neuralnih mreža lingvistkinja Bender naziva fantomskim podacima koje (trenutno) nije moguće usmjeriti. Potom postavlja pitanje koliko veliko je preveliko.

Ni sada ni za pet godina, ako programeri nastave razvijati LLM-ove opisanim načinom, umjetna inteligencija neće doseći prirodnu. Postojećim procesom sigurno nećemo dobiti nikakvu drugu umjetnu inteligenciju osim rasističke i šovinističke

Ideja zbirki ogromnih korpusa tekstova nije rezultat samo trenda devedesetih godina 20. stoljeća i principa digitalizacije "svega", već i ishod postavke da velika količina nečega garantira raznolikost sadržaja. Na primjeru interneta i jednog parametra – jezičnog – Bender i drugarice ističu kako veličina korpusa tekstova ne garantira raznolikost te navodi internet kao mrežu u kojoj dominira engleski jezik. Analogija stoji. Kao problematične faktore LLM-ova istraživačice dalje navode činjenicu da se društvo mijenja brže nego što se to može detektirati u korpusima (tj. zbirkama tekstova poput npr. Wikipedije, književnog korpusa, novinskog korpusa ili npr. Twittera) koji služe strojnom učenju i na kojima se obrazuju svi LLM softveri. (Korpusi se ne učitavaju u softvere u svom integralnom obliku, već im prethode određene faze i radnje poput parsanja, segmentacije, tokenizacije, stematizacije, lematizacije i različitih tipova tagiranja.) Štoviše, iz veličine i sadržaja korpusa ne mogu se filtrirati negativne društvene predrasude, što Bender i drugarice ilustriraju velikim društvenim američkim pokretima razvijenima u posljednjih deset godina – Black Lives Matter i #MeToo te njihovoj vidljivosti u korpusu tekstova.

Iako muškarci i žene različito percipiraju seksualno zlostavljanje na internetu, u korpusima se to ne vidi, kao što se ne vide ni razlike u drugim društvenim problemima i predrasudama. Također, ovdje ulogu igra i broj muških vs. ženskih komentara online. Sve takve neravnoteže izazivaju disbalanse u procesu učenja LLM-ova, koji onda mogu razviti predrasude. To je bio slučaj prije nekoliko godina s Twitterovom umjetnom inteligencijom koja je od početne točke ravnopravnosti vrlo brzo prerasla u najvećeg nacista i rasista na internetu. Ako uzmemo bilo koji književni korpus, dakle digitalnu zbirku svih književnih tekstova iz nekog perioda, on sadržava sve predrasude i mišljenja iz razdoblja u kojem je nastao. Na primjer, s obzirom na količinu erotske poezije koju su objavili muškarci naspram one koju su objavile žene, UI može, baš kao i muškarci milenijima, misliti da žene ne gledaju svijet jednako erotski kao i muškarci.

Budući da su sva društva puna ovih i brojnih drugih predrasuda i da korpusna lingvistika nema ugrađene vrijednosne kriterije, LLM-ovi ne mogu i ne znaju čistiti odnosno "prunati" (engl. pruning, orezivanje) i selektirati važno od nevažnoga, spremati važno, brisati nevažno. Umjesto njih, to rade istraživači dok biraju koje će tekstove dati LLM-ovima da se na njima obrazuju. Kako je u korpusima kojima se umjetnu inteligenciju trenira svaka rečenica jednako vrijedna, teško je zaključiti koje informacije izbrisati, a koje sačuvati. Um i društvo pak funkcioniraju suprotno: rečenice nose ideje koje nose vrijednosti. Htjeli mi to tako reći ili ne, neke "rečenice" su vrednije od drugih. Neke rečenice posebno spremamo, a brojne druge "prunamo" odnosno čistimo ili brišemo.

Pod uvjetom da smo u moru argumenata o UI-ju dobro odabrali onih par koji mogu objasniti zašto se ne moramo bojati umjetne inteligencije, čitatelj sada sigurno razumije da su ključ razvoja kako čovjeka tako i umjetne inteligencije društveni kontekst i individualno iskustvo. Međutim, umjetna inteligencija nema individualno iskustvo, a ni kontekst ne razumije najbolje. Provela sam nekoliko tjedana osmišljavajući različite kontekste za "promptove" na ChatGPT-ju ne bih li pokušala dokučiti kako LLM-u procesuira iskustvo. Ali ma kako formulirala pitanja, odgovor se uvijek svodio na disklejmer za koji pretpostavljam da su ga programeri izravno kodirali: "Kao jezični model, nemam svijest o sebi niti svjesnost o svojim postupcima. Nemam subjektivno iskustvo niti svijest o tome kako funkcioniram. Moja obrada jezika temelji se na statističkim modelima i algoritmima koji nemaju svijest o sebi. Kao jezični model, nemam emocionalno iskustvo ili iskustvo izvan jezičnog domena. Moja svrha je pružiti jezične informacije i podršku korisnicima, ali nemam osjećaje, mišljenja ili iskustva koja su izvan jezika. Iako koristim kontekstualne informacije za obradu jezika, to je ograničeno na jezični kontekst koji je naučen iz podataka. Nemam širu svijest o kontekstu izvan jezika, kao što to imaju ljudi koji koriste svoje iskustvo, znanje i osjetila za razumijevanje konteksta. Razlikovanje 'iskustva' je važno kako bi se razumjela priroda i ograničenja jezičnih modela kao što sam ja. Iako moja funkcionalnost u obradi jezika može biti složena i korisna, važno je napomenuti da to nije usporedivo s bogatstvom iskustva, svijesti i razumijevanja koje imaju ljudi."

Koja je onda funkcija društvenog konteksta i individualnog iskustva u razvijanju umjetne inteligencije? Taj se proces ne bi smio razlikovati od onoga odgoja djeteta. Roditelji lažu djeci o tome kakav je svijet zapravo, učeći nas pravilima po kojima nikada nećemo moći živjeti jer su u prevelikom raskoraku s društvom. Programeri moraju balansirati input informacija o tome kakav je ljudski svijet. Ali s ovako kodiranim LLM-ovima balans će biti moguće kontrolirati samo dok je softver u testnoj fazi, kada nema slobodu stjecanja vlastitog iskustva i konteksta u susretu s biološkim bićima u bespućima interneta. Ako bismo zapravo htjeli imati umjetnu inteligenciju kojoj možemo vjerovati, više nalik kompjuterima u "Zvjezdanim stazama" nego HAL-u u "2001: Odiseji u svemiru", onda moramo promijeniti same neuralne mreže. Statistika, kombinatorika i vjerojatnost nisu dovoljne za kreiranje inteligencije i za njezino samoorganiziranje.

Meni se čini da je za stvarnu samoorganizirajuću inteligenciju nužno "prunanje" neurona, odnosno da je nužno čišćenje, selektiranje, brisanje i čuvanje pojedinih paketa informacija, kao i njihovo opetovano ponavljanje. Jer to je ono što naše sinapse rade, a LLM-ovi ne mogu. Sinapse su trenutačna mjesta u mozgu. One nisu čvrsta i trajna materijalna struktura. One su doslovno nalik makadamima u planinama. Ako se puno hoda po nekom makadamu, odnosno misli o nečemu, ako se puno puta ponavlja ista radnja, onda ostaje fizikalni trag, neuron se razvije prema drugom neuronu.

Makadam je lako prohodan, ali nema stalnog "mosta" između njih, taj most, sinapsa, odnosno prijenos informacija od jednog neurona ka drugome je biokemijski proces, a ne statistički kao u umjetnim, neuralnim mrežama. To je "miris" koji traje samo tokom prijenosa informacije, a nije stalno izgrađena cesta. Zato se mijenjaju sjećanja, poboljšavaju vještine, zato zaboravljamo nešto ako redovno ne koristimo neko znanje, ako ne tjeramo vlastitu elektroniku i biokemiju da "hodaju" nekim novim putem, onda gubimo te informacije. Uostalom, tako i mi postajemo pametniji, upornim prolaskom materijala koji ne razumijemo, upornim ponavljanjem i popunjavanjem rupa u znanju, upornim učenjem nečega novoga, ali istovremenim zaboravljanjem nebitnoga. Ukratko, iskustvom.

Zaključak ovog teksta sukladan je zaključcima brojnih lingvista, matematičara i programera, a suprotan stavovima brojnih medijskih komentatora, financijskih analitičara, burzovnih stručnjaka i raznih sitnih investitora koji rješenje svih društvenih problema vide u tome da se kapital treba riješiti ljudskih radnika pa im je najnovija nada umjetna inteligencija. Međutim, to su nade za neka naredna stoljeća. Ni sada ni za pet godina, ako programeri nastave razvijati LLM-ove opisanim načinom, umjetna inteligencija neće doseći prirodnu. Postojećim procesom sigurno nećemo dobiti nikakvu drugu umjetnu inteligenciju osim rasističke i šovinističke. Jer takvih je stavova u korpusima puno više nego onih koji teže progresivnosti i ravnopravnosti.

Potražite Novosti od petka na kioscima.
Informacije o pretplati pronađite ovdje.

Novosti

Društvo

Zarobljeni u neuralnoj mreži

Društvo

TikTok desnica

Umjesto novaca zaradio prezir mještana

Uzničko kolo

Karlovački Dani antifašizma

Tanja Štampar Razmišljajmo kritički