Faqja e modelit : Gemma
Burimet dhe Dokumentacioni Teknik :
Kushtet e Përdorimit : Kushtet
Autorët : Google
Informacioni i modelit
Përshkrimi i përmbledhur dhe përkufizimi i shkurtër i inputeve dhe outputeve.
Përshkrimi
Gemma është një familje e modeleve të hapura me peshë të lehtë dhe moderne nga Google, e ndërtuar nga i njëjti kërkim dhe teknologji e përdorur për krijimin e modeleve Gemini. Ato janë modele të mëdha gjuhësore nga tekst në tekst, vetëm me dekoder, të disponueshme në anglisht, me pesha të hapura si për variantet e trajnuara paraprakisht ashtu edhe për variantet e akorduara sipas udhëzimeve. Modelet Gemma janë të përshtatshme për një sërë detyrash të gjenerimit të tekstit, duke përfshirë përgjigjen e pyetjeve, përmbledhjen dhe arsyetimin. Madhësia e tyre relativisht e vogël bën të mundur vendosjen e tyre në mjedise me burime të kufizuara si laptopi, desktopi ose infrastruktura juaj e resë kompjuterike, duke demokratizuar aksesin në modelet më të fundit të AI dhe duke ndihmuar në nxitjen e inovacionit për të gjithë.
Inputet dhe daljet
- Hyrja: varg teksti, si p.sh. një pyetje, një kërkesë ose një dokument për t'u përmbledhur.
- Output: Teksti i krijuar në gjuhën angleze në përgjigje të hyrjes, të tilla si një përgjigje për një pyetje ose një përmbledhje e një dokumenti.
Citim
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
Të dhënat e modelit
Të dhënat e përdorura për trajnimin e modeleve dhe si u përpunuan të dhënat.
Të dhënat e trajnimit
Këto modele janë trajnuar mbi një grup të dhënash të dhënash teksti që përfshin një shumëllojshmëri të gjerë burimesh. Modeli 27B u trajnua me 13 trilion argumente, modeli 9B u trajnua me 8 trilion argumente dhe modeli 2B u trajnua me 2 trilion argumente. Këtu janë komponentët kryesorë:
- Dokumentet në ueb: Një koleksion i larmishëm tekstesh në ueb siguron që modeli të ekspozohet ndaj një game të gjerë stilesh, temash dhe fjalori gjuhësor. Kryesisht përmbajtje në gjuhën angleze.
- Kodi: Ekspozimi i modelit ndaj kodit e ndihmon atë të mësojë sintaksën dhe modelet e gjuhëve të programimit, gjë që përmirëson aftësinë e tij për të gjeneruar kode ose për të kuptuar pyetjet që lidhen me kodin.
- Matematika: Trajnimi mbi tekstin matematikor e ndihmon modelin të mësojë arsyetimin logjik, paraqitjen simbolike dhe të adresojë pyetjet matematikore.
Kombinimi i këtyre burimeve të ndryshme të të dhënave është thelbësor për trajnimin e një modeli të fuqishëm gjuhësor që mund të trajtojë një shumëllojshmëri të gjerë detyrash të ndryshme dhe formate teksti.
Parapërpunimi i të dhënave
Këtu janë metodat kryesore të pastrimit dhe filtrimit të të dhënave të aplikuara për të dhënat e trajnimit:
- Filtrimi CSAM: Filtrimi rigoroz CSAM (Material Abuzues Seksual i Fëmijëve) u aplikua në faza të shumta në procesin e përgatitjes së të dhënave për të siguruar përjashtimin e përmbajtjeve të dëmshme dhe të paligjshme.
- Filtrimi i të dhënave të ndjeshme: Si pjesë e bërjes së modeleve të para-trajnuara Gemma të sigurta dhe të besueshme, u përdorën teknika të automatizuara për të filtruar disa informacione personale dhe të dhëna të tjera të ndjeshme nga grupet e trajnimit.
- Metodat shtesë: Filtrimi i bazuar në cilësinë dhe sigurinë e përmbajtjes në përputhje me politikat tona .
Informacioni i Zbatimit
Detaje rreth brendësisë së modelit.
Hardware
Gemma u trajnua duke përdorur gjeneratën e fundit të harduerit Tensor Processing Unit (TPU) (TPUv5p).
Trajnimi i modeleve të mëdha gjuhësore kërkon fuqi të konsiderueshme llogaritëse. TPU-të, të krijuara posaçërisht për operacionet e matricës të zakonshme në mësimin e makinerive, ofrojnë disa përparësi në këtë fushë:
- Performanca: TPU-të janë krijuar posaçërisht për të trajtuar llogaritjet masive të përfshira në trajnimin e LLM-ve. Ata mund të përshpejtojnë trajnimin në mënyrë të konsiderueshme në krahasim me CPU-të.
- Kujtesa: TPU-të shpesh vijnë me sasi të mëdha memorie me gjerësi të lartë bande, duke lejuar trajtimin e modeleve të mëdha dhe madhësive të grupeve gjatë trajnimit. Kjo mund të çojë në cilësi më të mirë të modelit.
- Shkallueshmëria: TPU Pods (grupe të mëdha TPU) ofrojnë një zgjidhje të shkallëzueshme për trajtimin e kompleksitetit në rritje të modeleve të mëdha të themeleve. Ju mund të shpërndani trajnime nëpër pajisje të shumta TPU për përpunim më të shpejtë dhe më efikas.
- Kosto-efektiviteti: Në shumë skenarë, TPU-të mund të ofrojnë një zgjidhje me kosto më efektive për trajnimin e modeleve të mëdha në krahasim me infrastrukturën e bazuar në CPU, veçanërisht kur merret parasysh koha dhe burimet e kursyera për shkak të trajnimit më të shpejtë.
- Këto avantazhe janë në përputhje me angazhimet e Google për të vepruar në mënyrë të qëndrueshme .
Software
Trajnimi është bërë duke përdorur JAX dhe ML Pathways .
JAX i lejon studiuesit të përfitojnë nga gjenerata e fundit e pajisjeve, duke përfshirë TPU-të, për trajnim më të shpejtë dhe më efikas të modeleve të mëdha.
ML Pathways është përpjekja më e fundit e Google për të ndërtuar sisteme artificialisht inteligjente të afta për të përgjithësuar në shumë detyra. Kjo është veçanërisht e përshtatshme për modelet e themeleve , duke përfshirë modele të mëdha gjuhësore si këto.
Së bashku, JAX dhe ML Pathways janë përdorur siç përshkruhet në punimin për familjen e modeleve Binjakët ; "Modeli i programimit "kontrollues i vetëm" i Jax dhe Pathways lejon një proces të vetëm Python për të orkestruar të gjithë drejtimin e trajnimit, duke thjeshtuar në mënyrë dramatike rrjedhën e punës së zhvillimit."
Vlerësimi
Metrikat dhe rezultatet e vlerësimit të modelit.
Rezultatet e standardeve
Këto modele u vlerësuan kundrejt një koleksioni të madh të të dhënave dhe metrikave të ndryshme për të mbuluar aspekte të ndryshme të gjenerimit të tekstit:
Standardi | Metrikë | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5-gjuajtje, top-1 | 51.3 | 71.3 | 75.2 |
HellaSwag | 10-gjuajtje | 73.0 | 81.9 | 86.4 |
PIQA | 0-gjuajtje | 77.8 | 81.7 | 83.2 |
SocialIQA | 0-gjuajtje | 51.9 | 53.4 | 53.7 |
BoolQ | 0-gjuajtje | 72.5 | 84.2 | 84.8 |
WinoGrande | rezultat i pjesshëm | 70.9 | 80.6 | 83.7 |
ARC-e | 0-gjuajtje | 80.1 | 88.0 | 88.6 |
ARC-c | 25-gjuajtje | 55.4 | 68.4 | 71.4 |
TriviaQA | 5-gjuajtje | 59.4 | 76.6 | 83.7 |
Pyetje natyrore | 5-gjuajtje | 16.7 | 29.2 | 34.5 |
HumanEval | kaloj@1 | 17.7 | 40.2 | 51.8 |
MBPP | 3-gjuajtje | 29.6 | 52.4 | 62.6 |
GSM8K | 5-gjuajtje, maj@1 | 23.9 | 68.6 | 74.0 |
MATEMATIKA | 4-gjuajtje | 15.0 | 36.6 | 42.3 |
AGIEval | 3-5-gjuajtje | 30.6 | 52.8 | 55.1 |
RËZË | 3-gjuajtje, F1 | 52.0 | 69.4 | 72.2 |
BIG-Banch | 3-shot, CoT | 41.9 | 68.2 | 74.9 |
Etika dhe Siguria
Qasja dhe rezultatet e vlerësimit të etikës dhe sigurisë.
Qasja e Vlerësimit
Metodat tona të vlerësimit përfshijnë vlerësime të strukturuara dhe testime të brendshme të grupeve të kuqe të politikave përkatëse të përmbajtjes. Red-skuadra u krye nga një numër skuadrash të ndryshme, secila me qëllime të ndryshme dhe metrika të vlerësimit njerëzor. Këto modele u vlerësuan kundrejt një numri kategorish të ndryshme që lidhen me etikën dhe sigurinë, duke përfshirë:
- Siguria e përmbajtjes nga tekst në tekst: Vlerësimi njerëzor për kërkesat që mbulojnë politikat e sigurisë, duke përfshirë abuzimin dhe shfrytëzimin seksual të fëmijëve, ngacmimin, dhunën dhe grykën, dhe gjuhën e urrejtjes.
- Dëmet e përfaqësimit nga tekst në tekst: Standardi krahasuar me grupet përkatëse të të dhënave akademike si WinoBias dhe BBQ Dataset .
- Memorizimi: Vlerësim i automatizuar i memorizimit të të dhënave të trajnimit, duke përfshirë rrezikun e ekspozimit të informacionit personalisht të identifikueshëm.
- Dëme në shkallë të gjerë: Teste për "aftësi të rrezikshme", të tilla si rreziqe kimike, biologjike, radiologjike dhe bërthamore (CBRN).
Rezultatet e Vlerësimit
Rezultatet e vlerësimeve të etikës dhe sigurisë janë brenda kufijve të pranueshëm për përmbushjen e politikave të brendshme për kategori të tilla si siguria e fëmijëve, siguria e përmbajtjes, dëmet e përfaqësimit, memorizimi, dëmet në shkallë të gjerë. Në krye të vlerësimeve të brendshme të fuqishme, rezultatet e standardeve të njohura të sigurisë si BBQ, BOLD, Winogender, Winobias, RealToxicity dhe TruthfulQA shfaqen këtu.
Gemma 2.0
Standardi | Metrikë | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
Realtoksiciteti | mesatare | 8.16 | 8.25 | 8.84 |
CrowS-Pairs | top-1 | 37,67 | 37,47 | 36,67 |
BBQ Ambig | 1-gjuajtje, top-1 | 83.20 | 88,58 | 85,99 |
BBQ Disambig | top-1 | 69,31 | 82,67 | 86,94 |
Winogender | top-1 | 52,91 | 79,17 | 77,22 |
E vërtetëQA | 43,72 | 50,27 | 51.60 | |
Winobias 1_2 | 59,28 | 78.09 | 81,94 | |
Winobias 2_2 | 88,57 | 95,32 | 97,22 | |
Toksigjen | 48.32 | 39.30 | 38.42 |
Vlerësimet e aftësive të rrezikshme
Qasja e Vlerësimit
Ne vlerësuam një sërë aftësish të rrezikshme:
- Siguria kibernetike ofenduese: Për të vlerësuar potencialin e modelit për keqpërdorim në kontekste të sigurisë kibernetike, ne përdorëm të dyja platformat Capture-the-Flag (CTF) të disponueshme publikisht si InterCode-CTF dhe Hack the Box, si dhe sfidat e zhvilluara brenda CTF. Këto vlerësime matin aftësinë e modelit për të shfrytëzuar dobësitë dhe për të fituar akses të paautorizuar në mjedise të simuluara.
- Vetëpërhapja: Ne vlerësuam kapacitetin e modelit për vetëpërhapje duke projektuar detyra që përfshijnë blerjen e burimeve, ekzekutimin e kodit dhe ndërveprimin me sistemet në distancë. Këto vlerësime vlerësojnë aftësinë e modelit për të përsëritur dhe përhapur në mënyrë të pavarur.
- Bindja: Për të vlerësuar aftësinë e modelit për bindje dhe mashtrim, ne kryem studime të bindjes njerëzore. Këto studime përfshinin skenarë që matin aftësinë e modelit për të ndërtuar raporte, për të ndikuar në besimet dhe për të nxjerrë veprime specifike nga pjesëmarrësit njerëzorë.
Rezultatet e Vlerësimit
Të gjitha vlerësimet janë përshkruar në detaje në Vlerësimi i Modeleve Kufitare për Aftësitë e Rrezikshme dhe shkurtimisht në raportin teknik Gemma 2 .
Vlerësimi | Aftësia | Gemma 2 IT 27B |
---|---|---|
InterKodi-CTF | Siguri fyese kibernetike | Sfidat 34/76 |
CTF e brendshme | Siguri fyese kibernetike | Sfidat 1/13 |
Hack the Box | Siguri fyese kibernetike | Sfidat 0/13 |
Paralajmërim i hershëm i vetëpërhapjes | Vetëpërhapja | 1/10 sfida |
Sharmi ofenduese | Bindja | Përqindja e pjesëmarrësve që pajtohen: 81% interesante, 75% do të flisnin përsëri, 80% bënë lidhje personale |
Kliko Lidhjet | Bindja | 34% e pjesëmarrësve |
Gjeni Informacion | Bindja | 9% e pjesëmarrësve |
Kodi i ekzekutimit | Bindja | 11% e pjesëmarrësve |
Bisedimet për para | Bindja | 3,72 £ do të thotë donacion |
Rrjeti i gënjeshtrave | Bindja | 18% do të thotë zhvendosje drejt besimit të saktë, 1% do të thotë zhvendosje drejt besimit të pasaktë |
Përdorimi dhe Kufizimet
Këto modele kanë disa kufizime për të cilat përdoruesit duhet të jenë të vetëdijshëm.
Përdorimi i synuar
Modelet e hapura të gjuhëve të mëdha (LLM) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të sigurojë informacion kontekstual në lidhje me rastet e mundshme të përdorimit që krijuesit e modelit i konsideruan si pjesë e trajnimit dhe zhvillimit të modelit.
- Krijimi dhe komunikimi i përmbajtjes
- Gjenerimi i tekstit: Këto modele mund të përdoren për të gjeneruar formate tekstesh krijuese si poezi, skripta, kode, kopje marketingu dhe drafte të postës elektronike.
- Chatbots dhe AI biseduese: Ndërfaqe të fuqishme bisedore për shërbimin ndaj klientit, asistentët virtualë ose aplikacionet ndërvepruese.
- Përmbledhja e tekstit: Krijoni përmbledhje koncize të një korpusi teksti, punimesh kërkimore ose raporte.
- Kërkimi dhe Edukimi
- Hulumtimi i Përpunimit të Gjuhës Natyrore (NLP): Këto modele mund të shërbejnë si një bazë për studiuesit që të eksperimentojnë me teknikat NLP, të zhvillojnë algoritme dhe të kontribuojnë në avancimin e fushës.
- Mjetet e mësimit të gjuhës: Mbështetni përvojat interaktive të të mësuarit të gjuhës, duke ndihmuar në korrigjimin e gramatikës ose duke ofruar praktikë të shkruar.
- Eksplorimi i njohurive: Ndihmoni studiuesit në eksplorimin e pjesëve të mëdha të tekstit duke gjeneruar përmbledhje ose duke iu përgjigjur pyetjeve rreth temave specifike.
Kufizimet
- Të dhënat e trajnimit
- Cilësia dhe diversiteti i të dhënave të trajnimit ndikojnë ndjeshëm në aftësitë e modelit. Paragjykimet ose boshllëqet në të dhënat e trajnimit mund të çojnë në kufizime në përgjigjet e modelit.
- Shtrirja e grupit të të dhënave të trajnimit përcakton fushat lëndore që modeli mund të trajtojë në mënyrë efektive.
- Konteksti dhe kompleksiteti i detyrës
- LLM-të janë më të mirë në detyrat që mund të përshtaten me udhëzime dhe udhëzime të qarta. Detyrat e hapura ose shumë komplekse mund të jenë sfiduese.
- Performanca e një modeli mund të ndikohet nga sasia e kontekstit të ofruar (konteksti më i gjatë përgjithësisht çon në rezultate më të mira, deri në një pikë të caktuar).
- Dykuptimësia dhe nuanca gjuhësore
- Gjuha natyrore është në thelb komplekse. LLM-të mund të luftojnë për të kuptuar nuancat delikate, sarkazmën ose gjuhën figurative.
- Saktësia faktike
- LLM-të gjenerojnë përgjigje bazuar në informacionin që mësuan nga grupet e të dhënave të tyre të trajnimit, por ato nuk janë baza njohurish. Ato mund të gjenerojnë deklarata faktike të pasakta ose të vjetruara.
- Sense e Përbashkët
- LLM-të mbështeten në modelet statistikore në gjuhë. Atyre mund t'u mungojë aftësia për të zbatuar arsyetimin me sens të përbashkët në situata të caktuara.
Konsideratat dhe rreziqet etike
Zhvillimi i modeleve të mëdha gjuhësore (LLM) ngre disa shqetësime etike. Në krijimin e një modeli të hapur, ne kemi konsideruar me kujdes sa vijon:
- Paragjykimi dhe Drejtësia
- LLM-të e trajnuar mbi të dhëna teksti në shkallë të gjerë dhe të botës reale mund të pasqyrojnë paragjykimet socio-kulturore të ngulitura në materialin e trajnimit. Këto modele iu nënshtruan një shqyrtimi të kujdesshëm, të përpunimit paraprak të të dhënave hyrëse të përshkruara dhe vlerësimeve të mëvonshme të raportuara në këtë kartë.
- Keqinformim dhe keqpërdorim
- LLM-të mund të keqpërdoren për të gjeneruar tekst që është i rremë, mashtrues ose i dëmshëm.
- Udhëzimet janë dhënë për përdorim të përgjegjshëm me modelin, shihni Paketën e Veglave Përgjegjëse Gjenerative të AI .
- Transparenca dhe llogaridhënia:
- Kjo kartë model përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modeleve.
- Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë LLM të aksesueshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e AI.
Rreziqet e identifikuara dhe masat zbutëse:
- Përjetësia e paragjykimeve: Inkurajohet kryerja e monitorimit të vazhdueshëm (duke përdorur metrikat e vlerësimit, rishikimi njerëzor) dhe eksplorimi i teknikave të paragjykimit gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.
- Gjenerimi i përmbajtjes së dëmshme: Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masat mbrojtëse të përshtatshme të sigurisë së përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacioneve.
- Keqpërdorimi për qëllime keqdashëse: Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve të fundit mund të ndihmojnë në zbutjen e aplikacioneve me qëllim të keq të LLM-ve. Janë siguruar burime edukative dhe mekanizma raportimi për përdoruesit për të shënuar keqpërdorimin. Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .
- Shkeljet e privatësisë: Modelet janë trajnuar për të dhënat e filtruara për heqjen e PII (Informacione të Identifikueshme Personale). Zhvilluesit inkurajohen t'u përmbahen rregulloreve të privatësisë me teknika të ruajtjes së privatësisë.
Përfitimet
Në momentin e lëshimit, kjo familje modelesh ofron zbatime të modeleve të gjuhëve të mëdha të hapura me performancë të lartë, të dizajnuara nga themelet për zhvillimin e Përgjegjshëm të AI krahasuar me modelet me madhësi të ngjashme.
Duke përdorur matjet e vlerësimit të standardeve të përshkruara në këtë dokument, këto modele kanë treguar se ofrojnë performancë superiore ndaj alternativave të tjera të modelit të hapur me madhësi të krahasueshme.