AI Singapori e bën AI më gjithëpërfshirëse për Azinë Juglindore me Gemma 2
I lançuar në vitin 2017, AI Singapore është një rrjet kombëtar i institucioneve dhe organizatave kërkimore të AI të dedikuara për të avancuar zhvillimin e AI të Singaporit. Një nga projektet e saj, SEA-LION , është një familje modelesh të hapura që sjell fuqinë e LLM-ve në vendet e Azisë Juglindore (SEA) të anashkaluara më parë nga bota e AI.
Ekipi që qëndron pas SEA-LION zgjodhi Gemma, familjen e modeleve të hapura të lehta dhe efikase të Google, për fjalorin dhe kuptimin gjuhësor, si dhe për raportin e madhësisë ndaj performancës. Me Gemma, zhvilluesit e SEA-LION krijuan një LLM të fuqishme, efikase dhe të aksesueshme të përdorur nga miliona njerëz në rajonin e SEA sot.
Sfida
Ekipi SEA-LION pranoi se shumë nga gjuhët e folura në të gjithë rajonin nuk përfaqësoheshin nga LLM-të më të njohura të sotme, që do të thoshte se pjesë të rajonit dhe grupe të tëra njerëzish kishin pak ose aspak akses në shumë prej aplikacioneve të mundshme të AI. Ekipi zbuloi gjithashtu se edhe kur këto LLM të zakonshme kishin një kuptim bazë të gjuhëve lokale të VSM-së, LLM-ve u mungonte të kuptuarit e dallimeve gjuhësore dhe kulturore të njohura për folësit vendas.
Siç shpjegon William Tjhi, kreu i inteligjencës artificiale në AI Singapore, shumica e AI në botë është ndërtuar në gjuhët perëndimore dhe lindore, që do të thotë se shumë mund të humbasin në përkthim: “Peizazhi global i LLM evoluoi rreth dy trupave: Bregut Perëndimor dhe Kinës. Këto modele pasqyrojnë ato botëkuptime të bazuara në grupe të dhënash që i trajnojnë ata dhe gjuhët që i trajnojnë ata.”
“Gemma's Tokenizer performon më mirë kur aplikohet në gjuhët që kemi në rajonin tonë. Ju mund ta shihni atë në dalje. Kjo rrit shumë performancën e modelit kur stërvitet për shenjat SEA, sepse tokenizuesi është më optimal në krahasim me tokenizuesin e modeleve të tjera.”
Zgjidhja
Ekipi SEA-LION krijoi një grup gjithëpërfshirës të LLM-ve që pasqyrojnë me saktësi nuancat, kontekstet dhe diversitetin kulturor të rajonit. Për të ndërtuar një LLM të duhur me një kuptim të vërtetë të një grupi krejtësisht të ri gjuhësh, ekipit i duheshin të dhëna të ndryshme trajnimi me cilësi të lartë, kështu që ata vendosën të bashkëpunonin me ekipet e Google DeepMind & Research. Ata gjithashtu punuan me folës dhe gjuhëtarë vendas për të filtruar të dhëna të parëndësishme që vijnë nga burime si përmbajtja e lojërave të fatit dhe reklamat, dhe për të siguruar përkthime të sakta dhe me tingull natyral.
Përsëritja e fundit e ekipit, SEA-LION V3, u trajnua vazhdimisht në Gemma 2, duke përdorur 200 miliardë argumente të të dhënave SEA. Ekipi zbuloi se tokenizuesi i Gemma jo vetëm që përmbante më shumë argumente për gjuhët e synuara, por gjithashtu performonte më mirë se modelet e tjera. Versioni prej 9 miliardë parametrash i Gemma u zgjodh për madhësinë dhe efikasitetin e tij, pasi burimet e nevojshme për të ekzekutuar modele në shkallë më të madhe mund të kufizohen në shumë pjesë të rajonit.

Ndikimi
SEA-LION V3 është përsëritja më e avancuar e ekipit deri më tani, dhe zhvillues dhe studiues të tjerë lokalë të AI tashmë po e përdorin atë. Kompania teknologjike GoTo lançoi së fundmi Sahabat-AI , një ekosistem LLM i ndërtuar në SEA-LION për zhvilluesit indonezianë. Sahabat-AI është integruar në asistentin zanor Dira AI të GoTo, duke i lejuar përdoruesit të aksesojnë shërbimet e pagesave Gojek dhe GoPay me komanda zanore në gjuhët dhe dialektet amtare.
CEO i GoTo, Patrick Walujo tha se ai pret që Sahabat-AI të ndikojë pozitivisht në miliona jetë në Indonezi: "Do të ndihmojë bizneset tona të komunikojnë në mënyra të reja me klientët, do të ndihmojë ministritë tona të qeverisë të zhvillojnë mjete për t'u angazhuar me qytetarët në mënyrë më gjithëpërfshirëse."
11
Aftësitë e gjuhës së Azisë Juglindore
14k+
Shkarkime në Fytyrën e përqafuar
38 milion
Përdoruesit aktivë mujorë në GoPay kanë qasje në Dira
Çfarë është më pas
Ekipi në AI Singapore tashmë po planifikon përsëritjen e tij të ardhshme të SEA-LION. Qëllimi i tyre është të krijojnë versione më të vogla dhe më të mëdha të parametrave duke përdorur Gemma, duke ushqyer një shumëllojshmëri më të gjerë të rasteve të përdorimit dhe duke u ofruar komuniteteve lokale fleksibilitet edhe më të madh. Suksesi i SEA-LION ka qenë thelbësor për bumin e inteligjencës artificiale të SEA, dhe LLM-të e tjera që po ndërtohen mbi të, si Sahabat-AI, janë vetëm fillimi.
“Lansimi i SEA-LION v3 të ri me bazë në Gemma me AI Singapore përfaqëson një hap të madh përpara për AI gjithëpërfshirëse. Duke shfrytëzuar fuqinë e Gemma 2 të Google, ky model i ri tejkalon ndjeshëm versionet e mëparshme në një sërë metrikash të vlerësimit të Azisë Juglindore, "tha Manish Gupta, drejtor i lartë në Google DeepMind. “Ne presim me padurim aplikacionet emocionuese që zhbllokon kjo dhe përfitimet që ai sjell për komunitete të ndryshme në të gjithë Azinë Juglindore.”