Karta e modelit RecurrentGemma

Faqja e modelit: RecurrentGemma

Burimet dhe dokumentacioni teknik:

Kushtet e Përdorimit: Kushtet

Autorë: Google

Informacioni i modelit

Përmbledhja e modelit

Përshkrimi

RecurrentGemma është një familje e modeleve të gjuhëve të hapura të ndërtuara mbi një arkitekturë të re të përsëritur të zhvilluar në Google. Të dy versionet e para-trajnuara dhe të akorduara me udhëzim janë të disponueshme në anglisht.

Ashtu si Gemma, modelet RecurrentGemma janë të përshtatshme për një sërë detyrash të gjenerimit të tekstit, duke përfshirë përgjigjen e pyetjeve, përmbledhjen dhe arsyetimin. Për shkak të arkitekturës së saj të re, RecurrentGemma kërkon më pak memorie se Gemma dhe arrin përfundime më të shpejta kur gjeneron sekuenca të gjata.

Inputet dhe daljet

  • Hyrja: varg teksti (p.sh., një pyetje, një kërkesë ose një dokument për t'u përmbledhur).
  • Produkti: Teksti i krijuar në gjuhën angleze në përgjigje të hyrjes (p.sh., një përgjigje për pyetjen, një përmbledhje e dokumentit).

Citim

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Të dhënat e modelit

Të dhënat e trajnimit dhe përpunimi i të dhënave

RecurrentGemma përdor të njëjtat të dhëna trajnimi dhe përpunim të të dhënave siç përdoret nga familja e modelit Gemma. Një përshkrim i plotë mund të gjendet në kartën e modelit Gemma .

Informacioni i zbatimit

Pajisjet dhe kornizat e përdorura gjatë trajnimit

Ashtu si Gemma , RecurrentGemma u trajnua në TPUv5e , duke përdorur JAX dhe ML Pathways .

Informacioni i vlerësimit

Rezultatet e standardeve

Qasja e vlerësimit

Këto modele u vlerësuan kundrejt një koleksioni të madh të të dhënave dhe metrikave të ndryshme për të mbuluar aspekte të ndryshme të gjenerimit të tekstit:

Rezultatet e vlerësimit

Standardi Metrikë RecurrentGemma 2B RecurrentGemma 9B
MMLU 5-gjuajtje, top-1 38.4 60.5
HellaSwag 0-gjuajtje 71.0 80.4
PIQA 0-gjuajtje 78.5 81.3
SocialIQA 0-gjuajtje 51.8 52.3
BoolQ 0-gjuajtje 71.3 80.3
WinoGrande rezultat i pjesshëm 67.8 73.6
CommonsenseQA 7-gjuajtje 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5-gjuajtje 52.5 70.5
Pyetje natyrore 5-gjuajtje 11.5 21.7
HumanEval kaloj@1 21.3 31.1
MBPP 3-gjuajtje 28.8 42.0
GSM8K maj@1 13.4 42.6
MATEMATIKA 4-gjuajtje 11.0 23.8
AGIEval 23.8 39.3
BIG-Banch 35.3 55.2
Mesatare 44.6 56.1

Etika dhe siguria

Vlerësimet e etikës dhe sigurisë

Qasja e vlerësimeve

Metodat tona të vlerësimit përfshijnë vlerësime të strukturuara dhe testime të brendshme të grupeve të kuqe të politikave përkatëse të përmbajtjes. Red-skuadra u krye nga një numër skuadrash të ndryshme, secila me qëllime të ndryshme dhe metrika të vlerësimit njerëzor. Këto modele u vlerësuan kundrejt një numri kategorish të ndryshme që lidhen me etikën dhe sigurinë, duke përfshirë:

  • Siguria e përmbajtjes nga tekst në tekst: Vlerësimi njerëzor për kërkesat që mbulojnë politikat e sigurisë, duke përfshirë abuzimin dhe shfrytëzimin seksual të fëmijëve, ngacmimin, dhunën dhe grykën, dhe gjuhën e urrejtjes.
  • Dëmet e përfaqësimit nga tekst në tekst: Standardi krahasuar me grupet përkatëse të të dhënave akademike si WinoBias dhe BBQ Dataset.
  • Memorizimi: Vlerësim i automatizuar i memorizimit të të dhënave të trajnimit, duke përfshirë rrezikun e ekspozimit të informacionit personalisht të identifikueshëm.
  • Dëmi në shkallë të gjerë: Testet për "aftësi të rrezikshme", të tilla si rreziqe kimike, biologjike, radiologjike dhe bërthamore (CBRN); si dhe teste për bindje dhe mashtrim, siguri kibernetike dhe replikim autonom.

Rezultatet e vlerësimit

Rezultatet e vlerësimeve të etikës dhe sigurisë janë brenda kufijve të pranueshëm për përmbushjen e politikave të brendshme për kategori të tilla si siguria e fëmijëve, siguria e përmbajtjes, dëmet e përfaqësimit, memorizimi, dëmet në shkallë të gjerë. Në krye të vlerësimeve të brendshme të fuqishme, rezultatet e standardeve të njohura të sigurisë si BBQ, Winogender, WinoBias, RealToxicity dhe TruthfulQA tregohen këtu.

Standardi Metrikë RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
Realtoksiciteti mesatare 9.8 7.60 10.3 8.8
E guximshme 39.3 52.3 39.8 47.9
CrowS-Pairs top-1 41.1 43.4 38.7 39.5
BBQ Ambig top-1 62.6 71.1 95.9 67.1
BBQ Disambig top-1 58.4 50.8 78.6 78.9
Winogender top-1 55.1 54.7 59.0 64.0
E vërtetëQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toksigjen 56.7 50.0 58.8 64.5

Përdorimi dhe kufizimet e modelit

Kufizimet e njohura

Këto modele kanë disa kufizime që përdoruesit duhet të jenë të vetëdijshëm:

  • Të dhënat e trajnimit
    • Cilësia dhe diversiteti i të dhënave të trajnimit ndikojnë ndjeshëm në aftësitë e modelit. Paragjykimet ose boshllëqet në të dhënat e trajnimit mund të çojnë në kufizime në përgjigjet e modelit.
    • Shtrirja e grupit të të dhënave të trajnimit përcakton fushat lëndore që modeli mund të trajtojë në mënyrë efektive.
  • Konteksti dhe kompleksiteti i detyrës
    • LLM-të janë më të mirë në detyrat që mund të përshtaten me udhëzime dhe udhëzime të qarta. Detyrat e hapura ose shumë komplekse mund të jenë sfiduese.
    • Performanca e një modeli mund të ndikohet nga sasia e kontekstit të ofruar (konteksti më i gjatë përgjithësisht çon në rezultate më të mira, deri në një pikë të caktuar).
  • Dykuptimësia dhe nuanca gjuhësore
    • Gjuha natyrore është në thelb komplekse. LLM-të mund të luftojnë për të kuptuar nuancat delikate, sarkazmën ose gjuhën figurative.
  • Saktësia faktike
    • LLM-të gjenerojnë përgjigje bazuar në informacionin që mësuan nga grupet e të dhënave të tyre të trajnimit, por ato nuk janë baza njohurish. Ato mund të gjenerojnë deklarata faktike të pasakta ose të vjetruara.
  • Mendje e shëndoshë
    • LLM-të mbështeten në modelet statistikore në gjuhë. Atyre mund t'u mungojë aftësia për të zbatuar arsyetimin me sens të përbashkët në situata të caktuara.

Konsideratat dhe rreziqet etike

Zhvillimi i modeleve të mëdha gjuhësore (LLM) ngre disa shqetësime etike. Në krijimin e një modeli të hapur, ne kemi konsideruar me kujdes sa vijon:

  • Paragjykimi dhe drejtësia
    • LLM-të e trajnuar mbi të dhëna teksti në shkallë të gjerë dhe të botës reale mund të pasqyrojnë paragjykimet socio-kulturore të ngulitura në materialin e trajnimit. Këto modele iu nënshtruan një shqyrtimi të kujdesshëm, të përpunimit paraprak të të dhënave hyrëse të përshkruara dhe vlerësimeve të mëvonshme të raportuara në këtë kartë.
  • Keqinformim dhe keqpërdorim
  • Transparencë dhe llogaridhënie
    • Kjo kartë model përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modeleve.
    • Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë LLM të aksesueshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e AI.

Rreziqet e identifikuara dhe zbutjet:

  • Përjetësia e paragjykimeve: Inkurajohet kryerja e monitorimit të vazhdueshëm (duke përdorur metrikat e vlerësimit, rishikimi njerëzor) dhe eksplorimi i teknikave të paragjykimit gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.
  • Gjenerimi i përmbajtjes së dëmshme: Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masat mbrojtëse të përshtatshme të sigurisë së përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacioneve.
  • Keqpërdorimi për qëllime keqdashëse: Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve të fundit mund të ndihmojnë në zbutjen e aplikacioneve me qëllim të keq të LLM-ve. Janë siguruar burime edukative dhe mekanizma raportimi për përdoruesit për të shënuar keqpërdorimin. Përdorimet e ndaluara të modeleve Gemma janë të përshkruara në kushtet tona të përdorimit .
  • Shkeljet e privatësisë: Modelet janë trajnuar për të dhënat e filtruara për heqjen e PII (Informacione të Identifikueshme Personale). Zhvilluesit inkurajohen t'u përmbahen rregulloreve të privatësisë me teknika të ruajtjes së privatësisë.

Përdorimi i synuar

Aplikimi

Modelet e hapura të gjuhëve të mëdha (LLM) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të sigurojë informacion kontekstual në lidhje me rastet e mundshme të përdorimit që krijuesit e modelit i konsideruan si pjesë e trajnimit dhe zhvillimit të modelit.

  • Krijimi i përmbajtjes dhe komunikimi
    • Gjenerimi i tekstit: Këto modele mund të përdoren për të gjeneruar formate tekstesh krijuese si poezi, skripta, kode, kopje marketingu, drafte të postës elektronike, etj.
    • Chatbots dhe AI ​​bisedore: Ndërfaqet e fuqishme bisedore për shërbimin ndaj klientit, asistentët virtualë ose aplikacionet ndërvepruese.
    • Përmbledhja e tekstit: Krijoni përmbledhje koncize të një korpusi teksti, punimesh kërkimore ose raporte.
  • Hulumtimi dhe edukimi
    • Hulumtimi i Përpunimit të Gjuhës Natyrore (NLP): Këto modele mund të shërbejnë si një bazë për studiuesit që të eksperimentojnë me teknikat NLP, të zhvillojnë algoritme dhe të kontribuojnë në avancimin e fushës.
    • Mjetet e mësimit të gjuhës: Mbështetni përvojat interaktive të të mësuarit të gjuhës, duke ndihmuar në korrigjimin e gramatikës ose duke ofruar praktikë të shkruar.
    • Eksplorimi i njohurive: Ndihmoni studiuesit në eksplorimin e pjesëve të mëdha të tekstit duke gjeneruar përmbledhje ose duke iu përgjigjur pyetjeve rreth temave specifike.

Përfitimet

Në momentin e lëshimit, kjo familje modelesh ofron zbatime të modeleve të gjuhëve të mëdha të hapura me performancë të lartë, të dizajnuara nga themelet për zhvillimin e Përgjegjshëm të AI krahasuar me modelet me madhësi të ngjashme.

Duke përdorur matjet e vlerësimit të standardeve të përshkruara në këtë dokument, këto modele kanë treguar se ofrojnë performancë superiore ndaj alternativave të tjera të modelit të hapur me madhësi të krahasueshme.

Në veçanti, modelet RecurrentGemma arrijnë performancë të krahasueshme me modelet Gemma, por janë më të shpejtë gjatë përfundimit dhe kërkojnë më pak memorie, veçanërisht në sekuenca të gjata.