Generatyvieji AI modeliai neapdoroja teksto taip, kaip tai daro žmonės. Jų „žetonais“ pagrįstos vidinės aplinkos supratimas gali padėti paaiškinti kai kuriuos keistus jų elgesius ir užsispyrusius apribojimus.
Dauguma modelių, nuo mažų įrenginyje esančių modelių, tokių kaip Gemma, iki OpenAI pramonėje pirmaujančio GPT-4o, yra sukurti pagal architektūrą, vadinamą transformatoriumi. Dėl to, kaip transformatoriai sukuria asociacijas tarp teksto ir kitų duomenų tipų, jie negali priimti arba išvesti neapdoroto teksto – bent jau ne be didžiulio skaičiavimo kiekio.
Taigi dėl pragmatiškų ir techninių priežasčių šiandieniniai transformatorių modeliai veikia su tekstu, kuris buvo suskirstytas į mažesnes dalis, vadinamas žetonais – procesas žinomas kaip žetonų sudarymas.
Žetonai gali būti žodžiai, pvz., „fantastiška“. Arba jie gali būti skiemenys, pvz., „fan“, „tas“ ir „tic“. Priklausomai nuo tokenizatoriaus – modelio, kuris atlieka ženklinimą – jie netgi gali būti atskiri žodžių simboliai (pvz., „f“, „a“, „n“, „t“, „a“, „s“, „t“, “ „i“, „c“).
Naudodami šį metodą, transformatoriai gali priimti daugiau informacijos (semantine prasme), kol pasiekia viršutinę ribą, vadinamą konteksto langu. Tačiau tokenizavimas taip pat gali sukelti šališkumą.
Kai kurie žetonai turi nelyginį atstumą, kuris gali numušti transformatorių nuo bėgių. Žetonizatorius gali užkoduoti „vieną kartą“ kaip „vieną kartą“, „ant“, „a“, „laiką“, o „once upon a“ (kuris gale yra tarpas) kaip „vieną kartą“, „ ant“, „a“, „. Priklausomai nuo to, kaip modelis yra raginamas – su „vieną kartą“ arba „vieną kartą“, – rezultatai gali būti visiškai skirtingi, nes modelis nesupranta (kaip suprastų žmogus), kad reikšmė ta pati.
Žetonai taip pat elgiasi skirtingai. „Sveiki“ nebūtinai yra tas pats, kas „SVEIKA“ modeliui; „Hello“ paprastai yra vienas žetonas (atsižvelgiant į žetoną), o „HELLO“ gali būti net trys („HE“, „El“ ir „O“). Štai kodėl daugelis transformatorių neatlaiko didžiųjų raidžių testo.
„Kažkaip sunku apeiti klausimą, koks tiksliai turėtų būti „žodis“ kalbos modeliui, ir net jei žmonių ekspertai susitartų dėl tobulo žodyno, modeliams tikriausiai vis tiek būtų naudinga „smulkinti“ dar toliau“, – „TechCrunch“ pasakojo Sheridanas Feuchtas, doktorantas, Šiaurės rytų universitete studijuojantis didelio kalbos modelio interpretaciją. „Manau, kad dėl tokio neryškumo nėra tokio dalyko kaip tobulas tokenizatorius.
Šis „neaiškumas“ sukelia dar daugiau problemų kitomis kalbomis nei anglų.
Daugelis tokenizacijos metodų daro prielaidą, kad tarpas sakinyje reiškia naują žodį. Taip yra todėl, kad jie buvo sukurti atsižvelgiant į anglų kalbą. Tačiau ne visose kalbose žodžiams atskirti naudojami tarpai. Kinai ir japonai – taip pat korėjiečių, tajų ar khmerų.
2023 m. Oksfordo tyrimas atskleidė, kad dėl skirtingų ne anglų kalbų ženklinimo būdų, transformatorius gali užtrukti dvigubai ilgiau, kad atliktų užduotį, suformuluotą ne anglų kalba, nei tą pačią užduotį, suformuluotą anglų kalba. Tame pačiame tyrime ir kitame tyrime nustatyta, kad mažiau „žetonų efektyvumo“ kalbų vartotojai greičiausiai matys prastesnį modelio veikimą, tačiau už naudojimą mokės daugiau, nes daugelis AI pardavėjų ima mokestį už žetoną.
Žetonai dažnai traktuoja kiekvieną simbolį logografinėse rašymo sistemose – sistemose, kuriose spausdinti simboliai reiškia žodžius, nesusijusius su tarimu, pavyzdžiui, kinų kalba – kaip atskirą žetoną, dėl kurio atsiranda didelis žetonų skaičius. Panašiai žetonų kūrėjai, apdorojantys agliutinuojančias kalbas – kalbas, kuriose žodžiai sudaryti iš mažų prasmingų žodžių elementų, vadinamų morfemomis, pvz., turkų – linkę kiekvieną morfemą paversti žetonu, padidindami bendrą žetonų skaičių. (Atitinkamas žodis „labas“ tajų kalba, สวัสดี, yra šeši žetonai.)
2023 m. „Google DeepMind AI“ tyrėja Yennie Jun atliko analizę, lygindama skirtingų kalbų tokenizavimą ir jos pasekmes. Naudodamas lygiagrečių tekstų, išverstų į 52 kalbas, duomenų rinkinį, Junas parodė, kad kai kurioms kalboms reikia iki 10 kartų daugiau žetonų, kad būtų užfiksuota ta pati reikšmė anglų kalba.
Be kalbos nelygybės, tokenizavimas gali paaiškinti, kodėl šiandieniniai modeliai yra prasti matematikos srityje.
Retai skaitmenys yra nuosekliai ženklinami. Kadangi jie iš tikrųjų nežino, kas yra skaičiai, žetonų kūrėjai gali traktuoti „380“ kaip vieną žetoną, bet pateikti „381“ kaip porą („38“ ir „1“) – veiksmingai sunaikindami ryšį tarp skaitmenų ir rezultatų lygtyse ir formules. Rezultatas yra transformatoriaus painiava; neseniai paskelbtas dokumentas parodė, kad modeliams sunku suprasti pasikartojančius skaitinius modelius ir kontekstą, ypač laiko duomenis. (Žr.: GPT-4 mano, kad 7 735 yra didesnis nei 7 926).
Taip pat dėl šios priežasties modeliai nemoka spręsti anagramų problemų ar keisti žodžių.
Taigi, tokenizavimas aiškiai kelia iššūkių generatyviniam AI. Ar juos galima išspręsti?
Gal būt.
Feuchtas atkreipia dėmesį į „baitų lygio“ būsenos erdvės modelius, tokius kaip „MambaByte“, kurie gali gauti daug daugiau duomenų nei transformatoriai be našumo nuobaudos, visiškai atsisakydami prieigos raktų. „MambaByte“, tiesiogiai dirbanti su neapdorotais baitais, vaizduojančiais tekstą ir kitus duomenis, yra konkurencinga su kai kuriais kalbos analizės užduočių transformatorių modeliais, tuo pačiu geriau valdant „triukšmą“, pvz., žodžius su pakeistais simboliais, tarpais ir didžiosiomis raidėmis.
Tačiau tokie modeliai kaip „MambaByte“ yra ankstyvosiose tyrimų stadijose.
„Tikriausiai geriausia leisti modeliams žiūrėti į personažus tiesiogiai, neįvedant žetonų, tačiau šiuo metu tai tiesiog neįmanoma skaičiuojant transformatoriams“, – sakė Feuchtas. „Ypač transformatorių modeliuose skaičiavimas keičiasi kvadratiškai pagal sekos ilgį, todėl tikrai norime naudoti trumpus tekstinius vaizdus.
Neatsižvelgiant į tokenizacijos proveržį, atrodo, kad naujos modelio architektūros bus raktas.