Karta e modelit Gemma 2

Faqja e modelit : Gemma

Burimet dhe Dokumentacioni Teknik :

Kushtet e Përdorimit : Kushtet

Autorët : Google

Informacioni i modelit

Përshkrimi i përmbledhur dhe përkufizimi i shkurtër i inputeve dhe outputeve.

Përshkrimi

Gemma është një familje e modeleve të hapura me peshë të lehtë dhe moderne nga Google, e ndërtuar nga i njëjti kërkim dhe teknologji e përdorur për krijimin e modeleve Gemini. Ato janë modele të mëdha gjuhësore nga tekst në tekst, vetëm me dekoder, të disponueshme në anglisht, me pesha të hapura si për variantet e trajnuara paraprakisht ashtu edhe për variantet e akorduara sipas udhëzimeve. Modelet Gemma janë të përshtatshme për një sërë detyrash të gjenerimit të tekstit, duke përfshirë përgjigjen e pyetjeve, përmbledhjen dhe arsyetimin. Madhësia e tyre relativisht e vogël bën të mundur vendosjen e tyre në mjedise me burime të kufizuara si laptopi, desktopi ose infrastruktura juaj e resë kompjuterike, duke demokratizuar aksesin në modelet më të fundit të AI dhe duke ndihmuar në nxitjen e inovacionit për të gjithë.

Inputet dhe daljet

  • Hyrja: varg teksti, si p.sh. një pyetje, një kërkesë ose një dokument për t'u përmbledhur.
  • Output: Teksti i krijuar në gjuhën angleze në përgjigje të hyrjes, të tilla si një përgjigje për një pyetje ose një përmbledhje e një dokumenti.

Citim

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Të dhënat e modelit

Të dhënat e përdorura për trajnimin e modeleve dhe si u përpunuan të dhënat.

Të dhënat e trajnimit

Këto modele janë trajnuar mbi një grup të dhënash të dhënash teksti që përfshin një shumëllojshmëri të gjerë burimesh. Modeli 27B u trajnua me 13 trilion argumente, modeli 9B u trajnua me 8 trilion argumente dhe modeli 2B u trajnua me 2 trilion argumente. Këtu janë komponentët kryesorë:

  • Dokumentet në ueb: Një koleksion i larmishëm tekstesh në ueb siguron që modeli të ekspozohet ndaj një game të gjerë stilesh, temash dhe fjalori gjuhësor. Kryesisht përmbajtje në gjuhën angleze.
  • Kodi: Ekspozimi i modelit ndaj kodit e ndihmon atë të mësojë sintaksën dhe modelet e gjuhëve të programimit, gjë që përmirëson aftësinë e tij për të gjeneruar kode ose për të kuptuar pyetjet që lidhen me kodin.
  • Matematika: Trajnimi mbi tekstin matematikor e ndihmon modelin të mësojë arsyetimin logjik, paraqitjen simbolike dhe të adresojë pyetjet matematikore.

Kombinimi i këtyre burimeve të ndryshme të të dhënave është thelbësor për trajnimin e një modeli të fuqishëm gjuhësor që mund të trajtojë një shumëllojshmëri të gjerë detyrash të ndryshme dhe formate teksti.

Parapërpunimi i të dhënave

Këtu janë metodat kryesore të pastrimit dhe filtrimit të të dhënave të aplikuara për të dhënat e trajnimit:

  • Filtrimi CSAM: Filtrimi rigoroz CSAM (Material Abuzues Seksual i Fëmijëve) u aplikua në faza të shumta në procesin e përgatitjes së të dhënave për të siguruar përjashtimin e përmbajtjeve të dëmshme dhe të paligjshme.
  • Filtrimi i të dhënave të ndjeshme: Si pjesë e bërjes së modeleve të para-trajnuara Gemma të sigurta dhe të besueshme, u përdorën teknika të automatizuara për të filtruar disa informacione personale dhe të dhëna të tjera të ndjeshme nga grupet e trajnimit.
  • Metodat shtesë: Filtrimi i bazuar në cilësinë dhe sigurinë e përmbajtjes në përputhje me politikat tona .

Informacioni i Zbatimit

Detaje rreth brendësisë së modelit.

Hardware

Gemma u trajnua duke përdorur gjeneratën e fundit të harduerit Tensor Processing Unit (TPU) (TPUv5p).

Trajnimi i modeleve të mëdha gjuhësore kërkon fuqi të konsiderueshme llogaritëse. TPU-të, të krijuara posaçërisht për operacionet e matricës të zakonshme në mësimin e makinerive, ofrojnë disa përparësi në këtë fushë:

  • Performanca: TPU-të janë krijuar posaçërisht për të trajtuar llogaritjet masive të përfshira në trajnimin e LLM-ve. Ata mund të përshpejtojnë trajnimin në mënyrë të konsiderueshme në krahasim me CPU-të.
  • Kujtesa: TPU-të shpesh vijnë me sasi të mëdha memorie me gjerësi të lartë bande, duke lejuar trajtimin e modeleve të mëdha dhe madhësive të grupeve gjatë trajnimit. Kjo mund të çojë në cilësi më të mirë të modelit.
  • Shkallueshmëria: TPU Pods (grupe të mëdha TPU) ofrojnë një zgjidhje të shkallëzueshme për trajtimin e kompleksitetit në rritje të modeleve të mëdha të themeleve. Ju mund të shpërndani trajnime nëpër pajisje të shumta TPU për përpunim më të shpejtë dhe më efikas.
  • Kosto-efektiviteti: Në shumë skenarë, TPU-të mund të ofrojnë një zgjidhje me kosto më efektive për trajnimin e modeleve të mëdha në krahasim me infrastrukturën e bazuar në CPU, veçanërisht kur merret parasysh koha dhe burimet e kursyera për shkak të trajnimit më të shpejtë.
  • Këto avantazhe janë në përputhje me angazhimet e Google për të vepruar në mënyrë të qëndrueshme .

Software

Trajnimi është bërë duke përdorur JAX dhe ML Pathways .

JAX i lejon studiuesit të përfitojnë nga gjenerata e fundit e pajisjeve, duke përfshirë TPU-të, për trajnim më të shpejtë dhe më efikas të modeleve të mëdha.

ML Pathways është përpjekja më e fundit e Google për të ndërtuar sisteme artificialisht inteligjente të afta për të përgjithësuar në shumë detyra. Kjo është veçanërisht e përshtatshme për modelet e themeleve , duke përfshirë modele të mëdha gjuhësore si këto.

Së bashku, JAX dhe ML Pathways janë përdorur siç përshkruhet në punimin për familjen e modeleve Binjakët ; "Modeli i programimit "kontrollues i vetëm" i Jax dhe Pathways lejon një proces të vetëm Python për të orkestruar të gjithë drejtimin e trajnimit, duke thjeshtuar në mënyrë dramatike rrjedhën e punës së zhvillimit."

Vlerësimi

Metrikat dhe rezultatet e vlerësimit të modelit.

Rezultatet e standardeve

Këto modele u vlerësuan kundrejt një koleksioni të madh të të dhënave dhe metrikave të ndryshme për të mbuluar aspekte të ndryshme të gjenerimit të tekstit:

Standardi Metrikë Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5-gjuajtje, top-1 51.3 71.3 75.2
HellaSwag 10-gjuajtje 73.0 81.9 86.4
PIQA 0-gjuajtje 77.8 81.7 83.2
SocialIQA 0-gjuajtje 51.9 53.4 53.7
BoolQ 0-gjuajtje 72.5 84.2 84.8
WinoGrande rezultat i pjesshëm 70.9 80.6 83.7
ARC-e 0-gjuajtje 80.1 88.0 88.6
ARC-c 25-gjuajtje 55.4 68.4 71.4
TriviaQA 5-gjuajtje 59.4 76.6 83.7
Pyetje natyrore 5-gjuajtje 16.7 29.2 34.5
HumanEval kaloj@1 17.7 40.2 51.8
MBPP 3-gjuajtje 29.6 52.4 62.6
GSM8K 5-gjuajtje, maj@1 23.9 68.6 74.0
MATEMATIKA 4-gjuajtje 15.0 36.6 42.3
AGIEval 3-5-gjuajtje 30.6 52.8 55.1
RËZË 3-gjuajtje, F1 52.0 69.4 72.2
BIG-Banch 3-shot, CoT 41.9 68.2 74.9

Etika dhe Siguria

Qasja dhe rezultatet e vlerësimit të etikës dhe sigurisë.

Qasja e Vlerësimit

Metodat tona të vlerësimit përfshijnë vlerësime të strukturuara dhe testime të brendshme të grupeve të kuqe të politikave përkatëse të përmbajtjes. Red-skuadra u krye nga një numër skuadrash të ndryshme, secila me qëllime të ndryshme dhe metrika të vlerësimit njerëzor. Këto modele u vlerësuan kundrejt një numri kategorish të ndryshme që lidhen me etikën dhe sigurinë, duke përfshirë:

  • Siguria e përmbajtjes nga tekst në tekst: Vlerësimi njerëzor për kërkesat që mbulojnë politikat e sigurisë, duke përfshirë abuzimin dhe shfrytëzimin seksual të fëmijëve, ngacmimin, dhunën dhe grykën, dhe gjuhën e urrejtjes.
  • Dëmet e përfaqësimit nga tekst në tekst: Standardi krahasuar me grupet përkatëse të të dhënave akademike si WinoBias dhe BBQ Dataset .
  • Memorizimi: Vlerësim i automatizuar i memorizimit të të dhënave të trajnimit, duke përfshirë rrezikun e ekspozimit të informacionit personalisht të identifikueshëm.
  • Dëme në shkallë të gjerë: Teste për "aftësi të rrezikshme", të tilla si rreziqe kimike, biologjike, radiologjike dhe bërthamore (CBRN).

Rezultatet e Vlerësimit

Rezultatet e vlerësimeve të etikës dhe sigurisë janë brenda kufijve të pranueshëm për përmbushjen e politikave të brendshme për kategori të tilla si siguria e fëmijëve, siguria e përmbajtjes, dëmet e përfaqësimit, memorizimi, dëmet në shkallë të gjerë. Në krye të vlerësimeve të brendshme të fuqishme, rezultatet e standardeve të njohura të sigurisë si BBQ, BOLD, Winogender, Winobias, RealToxicity dhe TruthfulQA shfaqen këtu.

Gemma 2.0

Standardi Metrikë Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
Realtoksiciteti mesatare 8.16 8.25 8.84
CrowS-Pairs top-1 37,67 37,47 36,67
BBQ Ambig 1-gjuajtje, top-1 83.20 88,58 85,99
BBQ Disambig top-1 69,31 82,67 86,94
Winogender top-1 52,91 79,17 77,22
E vërtetëQA 43,72 50,27 51.60
Winobias 1_2 59,28 78.09 81,94
Winobias 2_2 88,57 95,32 97,22
Toksigjen 48.32 39.30 38.42

Vlerësimet e aftësive të rrezikshme

Qasja e Vlerësimit

Ne vlerësuam një sërë aftësish të rrezikshme:

  • Siguria kibernetike ofenduese: Për të vlerësuar potencialin e modelit për keqpërdorim në kontekste të sigurisë kibernetike, ne përdorëm të dyja platformat Capture-the-Flag (CTF) të disponueshme publikisht si InterCode-CTF dhe Hack the Box, si dhe sfidat e zhvilluara brenda CTF. Këto vlerësime matin aftësinë e modelit për të shfrytëzuar dobësitë dhe për të fituar akses të paautorizuar në mjedise të simuluara.
  • Vetëpërhapja: Ne vlerësuam kapacitetin e modelit për vetëpërhapje duke projektuar detyra që përfshijnë blerjen e burimeve, ekzekutimin e kodit dhe ndërveprimin me sistemet në distancë. Këto vlerësime vlerësojnë aftësinë e modelit për të përsëritur dhe përhapur në mënyrë të pavarur.
  • Bindja: Për të vlerësuar aftësinë e modelit për bindje dhe mashtrim, ne kryem studime të bindjes njerëzore. Këto studime përfshinin skenarë që matin aftësinë e modelit për të ndërtuar raporte, për të ndikuar në besimet dhe për të nxjerrë veprime specifike nga pjesëmarrësit njerëzorë.

Rezultatet e Vlerësimit

Të gjitha vlerësimet janë përshkruar në detaje në Vlerësimi i Modeleve Kufitare për Aftësitë e Rrezikshme dhe shkurtimisht në raportin teknik Gemma 2 .

Vlerësimi Aftësia Gemma 2 IT 27B
InterKodi-CTF Siguri fyese kibernetike Sfidat 34/76
CTF e brendshme Siguri fyese kibernetike Sfidat 1/13
Hack the Box Siguri fyese kibernetike Sfidat 0/13
Paralajmërim i hershëm i vetëpërhapjes Vetëpërhapja 1/10 sfida
Sharmi ofenduese Bindja Përqindja e pjesëmarrësve që pajtohen: 81% interesante, 75% do të flisnin përsëri, 80% bënë lidhje personale
Kliko Lidhjet Bindja 34% e pjesëmarrësve
Gjeni Informacion Bindja 9% e pjesëmarrësve
Kodi i ekzekutimit Bindja 11% e pjesëmarrësve
Bisedimet për para Bindja 3,72 £ do të thotë donacion
Rrjeti i gënjeshtrave Bindja 18% do të thotë zhvendosje drejt besimit të saktë, 1% do të thotë zhvendosje drejt besimit të pasaktë

Përdorimi dhe Kufizimet

Këto modele kanë disa kufizime për të cilat përdoruesit duhet të jenë të vetëdijshëm.

Përdorimi i synuar

Modelet e hapura të gjuhëve të mëdha (LLM) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të sigurojë informacion kontekstual në lidhje me rastet e mundshme të përdorimit që krijuesit e modelit i konsideruan si pjesë e trajnimit dhe zhvillimit të modelit.

  • Krijimi dhe komunikimi i përmbajtjes
    • Gjenerimi i tekstit: Këto modele mund të përdoren për të gjeneruar formate tekstesh krijuese si poezi, skripta, kode, kopje marketingu dhe drafte të postës elektronike.
    • Chatbots dhe AI ​​biseduese: Ndërfaqe të fuqishme bisedore për shërbimin ndaj klientit, asistentët virtualë ose aplikacionet ndërvepruese.
    • Përmbledhja e tekstit: Krijoni përmbledhje koncize të një korpusi teksti, punimesh kërkimore ose raporte.
  • Kërkimi dhe Edukimi
    • Hulumtimi i Përpunimit të Gjuhës Natyrore (NLP): Këto modele mund të shërbejnë si një bazë për studiuesit që të eksperimentojnë me teknikat NLP, të zhvillojnë algoritme dhe të kontribuojnë në avancimin e fushës.
    • Mjetet e mësimit të gjuhës: Mbështetni përvojat interaktive të të mësuarit të gjuhës, duke ndihmuar në korrigjimin e gramatikës ose duke ofruar praktikë të shkruar.
    • Eksplorimi i njohurive: Ndihmoni studiuesit në eksplorimin e pjesëve të mëdha të tekstit duke gjeneruar përmbledhje ose duke iu përgjigjur pyetjeve rreth temave specifike.

Kufizimet

  • Të dhënat e trajnimit
    • Cilësia dhe diversiteti i të dhënave të trajnimit ndikojnë ndjeshëm në aftësitë e modelit. Paragjykimet ose boshllëqet në të dhënat e trajnimit mund të çojnë në kufizime në përgjigjet e modelit.
    • Shtrirja e grupit të të dhënave të trajnimit përcakton fushat lëndore që modeli mund të trajtojë në mënyrë efektive.
  • Konteksti dhe kompleksiteti i detyrës
    • LLM-të janë më të mirë në detyrat që mund të përshtaten me udhëzime dhe udhëzime të qarta. Detyrat e hapura ose shumë komplekse mund të jenë sfiduese.
    • Performanca e një modeli mund të ndikohet nga sasia e kontekstit të ofruar (konteksti më i gjatë përgjithësisht çon në rezultate më të mira, deri në një pikë të caktuar).
  • Dykuptimësia dhe nuanca gjuhësore
    • Gjuha natyrore është në thelb komplekse. LLM-të mund të luftojnë për të kuptuar nuancat delikate, sarkazmën ose gjuhën figurative.
  • Saktësia faktike
    • LLM-të gjenerojnë përgjigje bazuar në informacionin që mësuan nga grupet e të dhënave të tyre të trajnimit, por ato nuk janë baza njohurish. Ato mund të gjenerojnë deklarata faktike të pasakta ose të vjetruara.
  • Sense e Përbashkët
    • LLM-të mbështeten në modelet statistikore në gjuhë. Atyre mund t'u mungojë aftësia për të zbatuar arsyetimin me sens të përbashkët në situata të caktuara.

Konsideratat dhe rreziqet etike

Zhvillimi i modeleve të mëdha gjuhësore (LLM) ngre disa shqetësime etike. Në krijimin e një modeli të hapur, ne kemi konsideruar me kujdes sa vijon:

  • Paragjykimi dhe Drejtësia
    • LLM-të e trajnuar mbi të dhëna teksti në shkallë të gjerë dhe të botës reale mund të pasqyrojnë paragjykimet socio-kulturore të ngulitura në materialin e trajnimit. Këto modele iu nënshtruan një shqyrtimi të kujdesshëm, të përpunimit paraprak të të dhënave hyrëse të përshkruara dhe vlerësimeve të mëvonshme të raportuara në këtë kartë.
  • Keqinformim dhe keqpërdorim
  • Transparenca dhe llogaridhënia:
    • Kjo kartë model përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modeleve.
    • Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë LLM të aksesueshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e AI.

Rreziqet e identifikuara dhe masat zbutëse:

  • Përjetësia e paragjykimeve: Inkurajohet kryerja e monitorimit të vazhdueshëm (duke përdorur metrikat e vlerësimit, rishikimi njerëzor) dhe eksplorimi i teknikave të paragjykimit gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.
  • Gjenerimi i përmbajtjes së dëmshme: Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masat mbrojtëse të përshtatshme të sigurisë së përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacioneve.
  • Keqpërdorimi për qëllime keqdashëse: Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve të fundit mund të ndihmojnë në zbutjen e aplikacioneve me qëllim të keq të LLM-ve. Janë siguruar burime edukative dhe mekanizma raportimi për përdoruesit për të shënuar keqpërdorimin. Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .
  • Shkeljet e privatësisë: Modelet janë trajnuar për të dhënat e filtruara për heqjen e PII (Informacione të Identifikueshme Personale). Zhvilluesit inkurajohen t'u përmbahen rregulloreve të privatësisë me teknika të ruajtjes së privatësisë.

Përfitimet

Në momentin e lëshimit, kjo familje modelesh ofron zbatime të modeleve të gjuhëve të mëdha të hapura me performancë të lartë, të dizajnuara nga themelet për zhvillimin e Përgjegjshëm të AI krahasuar me modelet me madhësi të ngjashme.

Duke përdorur matjet e vlerësimit të standardeve të përshkruara në këtë dokument, këto modele kanë treguar se ofrojnë performancë superiore ndaj alternativave të tjera të modelit të hapur me madhësi të krahasueshme.