Honezkero denok entzun dugu zerbait hari buruz. Albistegietan bere eguneraketen berri ere hasi baitira ematen. Bere alde eta kontra asko idatzi da dagoeneko. Hizkuntzaren prozesamenduan azken urteetan ematen ari den iraultzaren erakuslea da (marketing kanpainarik onenari esker, zalantzarik gabe). Azken urteetan alor honetan aurrerapen handiak eman dira, hizkuntza eredu neuronalei esker. Euskal gizartearentzat itzulpen automatikoa izan daiteke adibide hurbilena. Konparatu besterik ez dago Elia edo Itzuli aurreko belaunaldiko itzultzaile automatikoekin.
ChatGPTren oinarrian dagoen ereduak testu masa eleaniztun izugarrien gainean entrenatuta dago, hurrengo hitza zein den asmatzeko. Hizkuntzaren prozesamenduko hainbat ataza egiten ere irakasten zaio. Xehetasunetan sartu gabe, sortzen den sistema testu sorkuntza egiten bereziki trebea da. Gainera erabiltzaileak modu zehatzean zer nahi duen esateko aukera du, eta sistemak erantzun bat emango dio. Hainbat ariketa oso modu egokian egiten ditu (adibidez, itzulpen automatikoa, testu bateko gaiak erauztea, testu bateko iritziak aztertzea, edo emandako testu baten laburpena egitea). Orain arteko joera ariketa horiek ataza bakarra egiteko gai diren hizkuntza ereduen bidez lantzea zen, baina GPT-(3,4), Bloom edo FLAN-T5/UL2 moduko hizkuntza eredu handiek (Ingelesez LLM) hainbat ataza burutzeko ahalmena dute. Guk egindako probetan chatGPT-k emaitza hobeak ematen ditu[1]
Arazoa teknikoak
Aipatu dugu chatGPT bereziki abila dela testu sorkuntzan. Horrek baina baditu bere alde txarrak:
1) Erabiltzaileak emandako sarrerari erantzuna ematen dio, (ia) beti. Egileek beraiek dioten bezala hala ere, joera du egiazkoak ez diren gauzak itzultzeko, edo asmatutakoak, erantzunean gehiegi luzatzeko edo “ez egokiak” izan daitezkeen erantzunak emateko. Erabilera okerrak saihesteko eta erantzun ezegokiak ez emateko neurriak hartu diren arren horiek benetan eraginkorrak diren zalantzan dago.
2) Arrazonamendua egiteko ahalmen mugatua du. Hainbat adibide topatuko ditugu sarean, adibidez, gai al da arazo matematikoak ebazteko? [2],[3].
3) Erabiltzaileen datuak erabiltzen ditu bere erantzunak hobetzeko. Horrek sistemaren ezagutza hobetzea dakar, baina beste batzuetan zera eragiten du, gauza bera eskatuta erantzun ezberdinak jasotzea. Gainera erantzun egokia lortzeko jarraibideak nola adierazi ez da tribiala.
Arazo etikoak
ChatGPT moduko ereduak sortzeak uste baino kutsadura handiagoa sortzen du[5]. Adibidez GPT3 entrenatzeko 500Tona Co2 isuri ziren (ilargira autoan joan-etorria egitea bezala), eta hilabete gutxiren bueltan GPT4 badugu dagoeneko. Antzeko ahalmena izan dezaketen eredu merkeagoak sortzeko ahaleginak badaude dagoeneko, Alpaca kasu, baina eredu are handiagoen joerak aurrera dirau.
Bestetik, entrenamenduak egiteko erabiltzen diren datuek ere badituzte arazoak. Internetetik masiboki bildutako corpusak erabiltzen dira. Horrek esan nahi du datuetan dauden alborapenak ere “ikasten” dituztela (arrazismoa, genero alborapena, alborapen kulturalak, eta abar.). Ez dugu ahaztu behar herrialde aurreratuok digitalizazioa “emantzat” dugula, baina egoera oso bestelakoa da gainerako herrialdeetan. Interneteko edukiak ere errealitate hori islatzen du. Whisper Ahotsa ezagutzeko ereduak Maoriera bezalako hizkuntza batentzat dituen inplikazioak ere hausnarketarako bidea ematen dute [7].
Eta Euskaraz zer?
ChatGPT moduko ereduen kalitatea hizkuntza txikietan jaitsi egiten da noski (eduki gehienak ingelesa edo gaztelaniaren pareko hizkuntza handietan baitaude proportzioan). Sorkuntza egiteko gai da hein handi batean, testu onargarriak sortuz, naiz eta lehen komentatu bezala, esaten duena egokia den edo ez guk ziurtatu behar dugun. Ariketa zehatzak egiteko eskatuz gero (adibidez, testuen sailkapena) maiz erantzun du euskaraz ez duela ulertzen eta ingelesez emateko testua.
Ondorioak
Horrelako ereduak testu sorkuntza egiteko baliagarriak dira, hezkuntzan adibidez [4], eta garrantzitsuak dira, hizkuntzaren prozesamenduko ataza ezberdinak modu egokian burutzeko gai direlako. Euskara bezalako hizkuntza txikietan oraindik ez daude maila berean baina denbora kontua izan daiteke.
Hala ere, horrelako ereduek dituzten bestelako arazoei heldu behar zaie, itsu-itsuan aurrera egin baino. Halaber, eredu horiek sortzeak eskatzen dituen baliabideak enpresa teknologiko gutxi batzuen esku baino ez daude. Enpresa horien eredua izan ohi da, zerbitzua eskaini izugarrizko galera ekonomikoak edukita ere, merkatuaren kontrola bereganatuko dutelakoan (erabiltzaile kopurua) ondoren irabaziak lortuko dituztelakoan. Eredu hori jasangarria denik oso zalantzazkoa da.
Teknologiak etorkizun handia duela zalantzarik ez dago, baina marketing kanpainetan erori gabe, erabilera eta ezarpena modu arduratsuan egin beharra dago.