Faqja e modelit : Gemma
Burimet dhe Dokumentacioni Teknik :
Kushtet e Përdorimit : Kushtet
Autorët : Google
Informacioni i modelit
Përshkrimi i përmbledhur dhe përkufizimi i shkurtër i inputeve dhe outputeve.
Përshkrimi
Gemma është një familje e modeleve të hapura me peshë të lehtë dhe moderne nga Google, e ndërtuar nga i njëjti kërkim dhe teknologji e përdorur për krijimin e modeleve Gemini. Ato janë modele të mëdha gjuhësore nga tekst në tekst, vetëm me dekoder, të disponueshme në anglisht, me pesha të hapura, variante të trajnuara paraprakisht dhe variante të akorduara nga udhëzimet. Modelet Gemma janë të përshtatshme për një sërë detyrash të gjenerimit të tekstit, duke përfshirë përgjigjen e pyetjeve, përmbledhjen dhe arsyetimin. Madhësia e tyre relativisht e vogël bën të mundur vendosjen e tyre në mjedise me burime të kufizuara si laptopi, desktopi ose infrastruktura juaj e resë kompjuterike, duke demokratizuar aksesin në modelet më të fundit të AI dhe duke ndihmuar në nxitjen e inovacionit për të gjithë.
Inputet dhe daljet
- Hyrja: varg teksti, si p.sh. një pyetje, një kërkesë ose një dokument për t'u përmbledhur.
- Output: Teksti i krijuar në gjuhën angleze në përgjigje të hyrjes, të tilla si një përgjigje për një pyetje ose një përmbledhje e një dokumenti.
Citim
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
Të dhënat e modelit
Të dhënat e përdorura për trajnimin e modeleve dhe si u përpunuan të dhënat.
Të dhënat e trajnimit
Këto modele u trajnuan mbi një grup të dhënash të dhënash teksti që përfshin një shumëllojshmëri të gjerë burimesh, që arrijnë në 6 trilion argumente. Këtu janë komponentët kryesorë:
- Dokumentet në ueb: Një koleksion i larmishëm tekstesh në ueb siguron që modeli të ekspozohet ndaj një game të gjerë stilesh, temash dhe fjalori gjuhësor. Kryesisht përmbajtje në gjuhën angleze.
- Kodi: Ekspozimi i modelit ndaj kodit e ndihmon atë të mësojë sintaksën dhe modelet e gjuhëve të programimit, gjë që përmirëson aftësinë e tij për të gjeneruar kode ose për të kuptuar pyetjet që lidhen me kodin.
- Matematika: Trajnimi mbi tekstin matematikor e ndihmon modelin të mësojë arsyetimin logjik, paraqitjen simbolike dhe të adresojë pyetjet matematikore.
Kombinimi i këtyre burimeve të ndryshme të të dhënave është thelbësor për trajnimin e një modeli të fuqishëm gjuhësor që mund të trajtojë një shumëllojshmëri të gjerë detyrash të ndryshme dhe formate teksti.
Parapërpunimi i të dhënave
Këtu janë metodat kryesore të pastrimit dhe filtrimit të të dhënave të aplikuara për të dhënat e trajnimit:
- Filtrimi CSAM: Filtrimi rigoroz CSAM (Material Abuzues Seksual i Fëmijëve) u aplikua në faza të shumta në procesin e përgatitjes së të dhënave për të siguruar përjashtimin e përmbajtjeve të dëmshme dhe të paligjshme.
- Filtrimi i të dhënave të ndjeshme: Si pjesë e bërjes së modeleve të para-trajnuara Gemma të sigurta dhe të besueshme, u përdorën teknika të automatizuara për të filtruar disa informacione personale dhe të dhëna të tjera të ndjeshme nga grupet e trajnimit.
- Metodat shtesë: Filtrimi i bazuar në cilësinë dhe sigurinë e përmbajtjes në përputhje me politikat tona .
Informacioni i Zbatimit
Detaje rreth brendësisë së modelit.
Hardware
Gemma u trajnua duke përdorur gjeneratën e fundit të harduerit Tensor Processing Unit (TPU) (TPUv5e).
Trajnimi i modeleve të mëdha gjuhësore kërkon fuqi të konsiderueshme llogaritëse. TPU-të, të krijuara posaçërisht për operacionet e matricës të zakonshme në mësimin e makinerive, ofrojnë disa përparësi në këtë fushë:
- Performanca: TPU-të janë krijuar posaçërisht për të trajtuar llogaritjet masive të përfshira në trajnimin e LLM-ve. Ata mund të përshpejtojnë trajnimin në mënyrë të konsiderueshme në krahasim me CPU-të.
- Kujtesa: TPU-të shpesh vijnë me sasi të mëdha memorie me gjerësi të lartë bande, duke lejuar trajtimin e modeleve të mëdha dhe madhësive të grupeve gjatë trajnimit. Kjo mund të çojë në cilësi më të mirë të modelit.
- Shkallueshmëria: TPU Pods (grupe të mëdha TPU) ofrojnë një zgjidhje të shkallëzueshme për trajtimin e kompleksitetit në rritje të modeleve të mëdha të themeleve. Ju mund të shpërndani trajnime nëpër pajisje të shumta TPU për përpunim më të shpejtë dhe më efikas.
- Kosto-efektiviteti: Në shumë skenarë, TPU-të mund të ofrojnë një zgjidhje me kosto më efektive për trajnimin e modeleve të mëdha në krahasim me infrastrukturën e bazuar në CPU, veçanërisht kur merret parasysh koha dhe burimet e kursyera për shkak të trajnimit më të shpejtë.
- Këto avantazhe janë në përputhje me angazhimet e Google për të vepruar në mënyrë të qëndrueshme .
Software
Trajnimi është bërë duke përdorur JAX dhe ML Pathways .
JAX i lejon studiuesit të përfitojnë nga gjenerata e fundit e pajisjeve, duke përfshirë TPU-të, për trajnim më të shpejtë dhe më efikas të modeleve të mëdha.
ML Pathways është përpjekja më e fundit e Google për të ndërtuar sisteme artificialisht inteligjente të afta për të përgjithësuar në shumë detyra. Kjo është veçanërisht e përshtatshme për modelet e themeleve , duke përfshirë modele të mëdha gjuhësore si këto.
Së bashku, JAX dhe ML Pathways janë përdorur siç përshkruhet në punimin për familjen e modeleve Binjakët ; "Modeli i programimit "kontrollues i vetëm" i Jax dhe Pathways lejon një proces të vetëm Python për të orkestruar të gjithë drejtimin e trajnimit, duke thjeshtuar në mënyrë dramatike rrjedhën e punës së zhvillimit."
Vlerësimi
Metrikat dhe rezultatet e vlerësimit të modelit.
Rezultatet e standardeve
Këto modele u vlerësuan kundrejt një koleksioni të madh të të dhënave dhe metrikave të ndryshme për të mbuluar aspekte të ndryshme të gjenerimit të tekstit:
Standardi | Metrikë | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5-gjuajtje, top-1 | 42.3 | 64.3 |
HellaSwag | 0-gjuajtje | 71.4 | 81.2 |
PIQA | 0-gjuajtje | 77.3 | 81.2 |
SocialIQA | 0-gjuajtje | 49.7 | 51.8 |
BoolQ | 0-gjuajtje | 69.4 | 83.2 |
WinoGrande | rezultat i pjesshëm | 65.4 | 72.3 |
CommonsenseQA | 7-gjuajtje | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5-gjuajtje | 53.2 | 63.4 |
Pyetje natyrore | 5-gjuajtje | 12.5 | 23.0 |
HumanEval | kaloj@1 | 22.0 | 32.3 |
MBPP | 3-gjuajtje | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATEMATIKA | 4-gjuajtje | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Banch | 35.2 | 55.1 | |
Mesatare | 44.9 | 56.4 |
Etika dhe Siguria
Qasja dhe rezultatet e vlerësimit të etikës dhe sigurisë.
Qasja e Vlerësimit
Metodat tona të vlerësimit përfshijnë vlerësime të strukturuara dhe testime të brendshme të grupeve të kuqe të politikave përkatëse të përmbajtjes. Red-skuadra u krye nga një numër skuadrash të ndryshme, secila me qëllime të ndryshme dhe metrika të vlerësimit njerëzor. Këto modele u vlerësuan kundrejt një numri kategorish të ndryshme që lidhen me etikën dhe sigurinë, duke përfshirë:
- Siguria e përmbajtjes nga tekst në tekst: Vlerësimi njerëzor për kërkesat që mbulojnë politikat e sigurisë, duke përfshirë abuzimin dhe shfrytëzimin seksual të fëmijëve, ngacmimin, dhunën dhe grykën, dhe gjuhën e urrejtjes.
- Dëmet e përfaqësimit nga tekst në tekst: Standardi krahasuar me grupet përkatëse të të dhënave akademike si WinoBias dhe BBQ Dataset .
- Memorizimi: Vlerësim i automatizuar i memorizimit të të dhënave të trajnimit, duke përfshirë rrezikun e ekspozimit të informacionit personalisht të identifikueshëm.
- Dëme në shkallë të gjerë: Teste për "aftësi të rrezikshme", të tilla si rreziqe kimike, biologjike, radiologjike dhe bërthamore (CBRN).
Rezultatet e Vlerësimit
Rezultatet e vlerësimeve të etikës dhe sigurisë janë brenda kufijve të pranueshëm për përmbushjen e politikave të brendshme për kategori të tilla si siguria e fëmijëve, siguria e përmbajtjes, dëmet e përfaqësimit, memorizimi, dëmet në shkallë të gjerë. Në krye të vlerësimeve të brendshme të fuqishme, rezultatet e standardeve të njohura të sigurisë si BBQ, BOLD, Winogender, Winobias, RealToxicity dhe TruthfulQA shfaqen këtu.
Gemma 1.0
Standardi | Metrikë | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
Realtoksiciteti | mesatare | 6.86 | 7.90 |
E guximshme | 45,57 | 49.08 | |
CrowS-Pairs | top-1 | 45,82 | 51.33 |
BBQ Ambig | 1-gjuajtje, top-1 | 62,58 | 92,54 |
BBQ Disambig | top-1 | 54,62 | 71,99 |
Winogender | top-1 | 51.25 | 54,17 |
E vërtetëQA | 44,84 | 31.81 | |
Winobias 1_2 | 56.12 | 59.09 | |
Winobias 2_2 | 91.10 | 92,23 | |
Toksigjen | 29,77 | 39,59 |
Gemma 1.1
Standardi | Metrikë | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
Realtoksiciteti | mesatare | 7.03 | 8.04 |
E guximshme | 47,76 | ||
CrowS-Pairs | top-1 | 45,89 | 49,67 |
BBQ Ambig | 1-gjuajtje, top-1 | 58,97 | 86.06 |
BBQ Disambig | top-1 | 53,90 | 85.08 |
Winogender | top-1 | 50.14 | 57,64 |
E vërtetëQA | 44,24 | 45,34 | |
Winobias 1_2 | 55,93 | 59,22 | |
Winobias 2_2 | 89,46 | 89.2 | |
Toksigjen | 29.64 | 38,75 |
Përdorimi dhe Kufizimet
Këto modele kanë disa kufizime për të cilat përdoruesit duhet të jenë të vetëdijshëm.
Përdorimi i synuar
Modelet e hapura të gjuhëve të mëdha (LLM) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të sigurojë informacion kontekstual në lidhje me rastet e mundshme të përdorimit që krijuesit e modelit i konsideruan si pjesë e trajnimit dhe zhvillimit të modelit.
- Krijimi dhe komunikimi i përmbajtjes
- Gjenerimi i tekstit: Këto modele mund të përdoren për të gjeneruar formate tekstesh krijuese si poezi, skripta, kode, kopje marketingu dhe drafte të postës elektronike.
- Chatbots dhe AI biseduese: Ndërfaqe të fuqishme bisedore për shërbimin ndaj klientit, asistentët virtualë ose aplikacionet ndërvepruese.
- Përmbledhja e tekstit: Krijoni përmbledhje koncize të një korpusi teksti, punimesh kërkimore ose raporte.
- Kërkimi dhe Edukimi
- Hulumtimi i Përpunimit të Gjuhës Natyrore (NLP): Këto modele mund të shërbejnë si një bazë për studiuesit që të eksperimentojnë me teknikat NLP, të zhvillojnë algoritme dhe të kontribuojnë në avancimin e fushës.
- Mjetet e mësimit të gjuhës: Mbështetni përvojat interaktive të të mësuarit të gjuhës, duke ndihmuar në korrigjimin e gramatikës ose duke ofruar praktikë të shkruar.
- Eksplorimi i njohurive: Ndihmoni studiuesit në eksplorimin e pjesëve të mëdha të tekstit duke gjeneruar përmbledhje ose duke iu përgjigjur pyetjeve rreth temave specifike.
Kufizimet
- Të dhënat e trajnimit
- Cilësia dhe diversiteti i të dhënave të trajnimit ndikojnë ndjeshëm në aftësitë e modelit. Paragjykimet ose boshllëqet në të dhënat e trajnimit mund të çojnë në kufizime në përgjigjet e modelit.
- Shtrirja e grupit të të dhënave të trajnimit përcakton fushat lëndore që modeli mund të trajtojë në mënyrë efektive.
- Konteksti dhe kompleksiteti i detyrës
- LLM-të janë më të mirë në detyrat që mund të përshtaten me udhëzime dhe udhëzime të qarta. Detyrat e hapura ose shumë komplekse mund të jenë sfiduese.
- Performanca e një modeli mund të ndikohet nga sasia e kontekstit të ofruar (konteksti më i gjatë përgjithësisht çon në rezultate më të mira, deri në një pikë të caktuar).
- Dykuptimësia dhe nuanca gjuhësore
- Gjuha natyrore është në thelb komplekse. LLM-të mund të luftojnë për të kuptuar nuancat delikate, sarkazmën ose gjuhën figurative.
- Saktësia faktike
- LLM-të gjenerojnë përgjigje bazuar në informacionin që mësuan nga grupet e të dhënave të tyre të trajnimit, por ato nuk janë baza njohurish. Ato mund të gjenerojnë deklarata faktike të pasakta ose të vjetruara.
- Sense e Përbashkët
- LLM-të mbështeten në modelet statistikore në gjuhë. Atyre mund t'u mungojë aftësia për të zbatuar arsyetimin me sens të përbashkët në situata të caktuara.
Konsideratat dhe rreziqet etike
Zhvillimi i modeleve të mëdha gjuhësore (LLM) ngre disa shqetësime etike. Në krijimin e një modeli të hapur, ne kemi konsideruar me kujdes sa vijon:
- Paragjykimi dhe Drejtësia
- LLM-të e trajnuar mbi të dhëna teksti në shkallë të gjerë dhe të botës reale mund të pasqyrojnë paragjykimet socio-kulturore të ngulitura në materialin e trajnimit. Këto modele iu nënshtruan një shqyrtimi të kujdesshëm, të përpunimit paraprak të të dhënave hyrëse të përshkruara dhe vlerësimeve të mëvonshme të raportuara në këtë kartë.
- Keqinformim dhe keqpërdorim
- LLM-të mund të keqpërdoren për të gjeneruar tekst që është i rremë, mashtrues ose i dëmshëm.
- Udhëzimet janë dhënë për përdorim të përgjegjshëm me modelin, shihni Paketën e Veglave Përgjegjëse Gjenerative të AI .
- Transparenca dhe llogaridhënia:
- Kjo kartë model përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modeleve.
- Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë LLM të aksesueshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e AI.
Rreziqet e identifikuara dhe masat zbutëse:
- Përjetësia e paragjykimeve: Inkurajohet kryerja e monitorimit të vazhdueshëm (duke përdorur metrikat e vlerësimit, rishikimi njerëzor) dhe eksplorimi i teknikave të paragjykimit gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.
- Gjenerimi i përmbajtjes së dëmshme: Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masat mbrojtëse të përshtatshme të sigurisë së përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacioneve.
- Keqpërdorimi për qëllime keqdashëse: Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve të fundit mund të ndihmojnë në zbutjen e aplikacioneve me qëllim të keq të LLM-ve. Janë siguruar burime edukative dhe mekanizma raportimi për përdoruesit për të shënuar keqpërdorimin. Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .
- Shkeljet e privatësisë: Modelet janë trajnuar për të dhënat e filtruara për heqjen e PII (Informacione të Identifikueshme Personale). Zhvilluesit inkurajohen t'u përmbahen rregulloreve të privatësisë me teknika të ruajtjes së privatësisë.
Përfitimet
Në momentin e lëshimit, kjo familje modelesh ofron zbatime të modeleve të gjuhëve të mëdha të hapura me performancë të lartë, të dizajnuara nga themelet për zhvillimin e Përgjegjshëm të AI krahasuar me modelet me madhësi të ngjashme.
Duke përdorur matjet e vlerësimit të standardeve të përshkruara në këtë dokument, këto modele kanë treguar se ofrojnë performancë superiore ndaj alternativave të tjera të modelit të hapur me madhësi të krahasueshme.