Gemma 4 u lançua me hyrje teksti, audio dhe imazhi dhe dritare konteksti deri në 256K! Mësoni më shumë

Kjo faqe është përkthyer nga Cloud Translation API.

Karta e modelit Gemma 4

Gemma 4 Banner

Fytyrë përqafuese | GitHub | Blogu i lançimit | Dokumentacioni
Licenca : Apache 2.0 | Autorët : Google DeepMind

Gemma është një familje modelesh të hapura të ndërtuara nga Google DeepMind. Modelet Gemma 4 janë multimodale, duke trajtuar futjen e tekstit dhe imazhit (me audio të mbështetur në modelet e vogla) dhe duke gjeneruar dalje teksti. Ky version përfshin modele me pesha të hapura si në variantet e para-trajnuara ashtu edhe në ato të akorduara me udhëzime. Gemma 4 përmban një dritare konteksti deri në 256 mijë tokena dhe mirëmban mbështetje shumëgjuhëshe në mbi 140 gjuhë.

Duke paraqitur arkitekturat Dense dhe Mixture-of-Experts (MoE), Gemma 4 është i përshtatshëm për detyra si gjenerimi i tekstit, kodimi dhe arsyetimi. Modelet janë të disponueshme në katër madhësi të dallueshme: E2B , E4B , 26B, A4B dhe 31B . Madhësitë e tyre të ndryshme i bëjnë ato të zbatueshme në mjedise që variojnë nga telefonat e nivelit të lartë deri te laptopët dhe serverët, duke demokratizuar aksesin në inteligjencën artificiale të teknologjisë së fundit.

Gemma 4 prezanton aftësi kryesore dhe përparime arkitekturore :

Arsyetimi – Të gjitha modelet në familje janë projektuar si arsyetues shumë të aftë, me mënyra të të menduarit të konfigurueshme.
Multimodalitete të Zgjeruara – Përpunon Tekstin, Imazhin me raport të ndryshueshëm të aspektit dhe mbështetje për rezolucion (të gjitha modelet), Videon dhe Audion (të paraqitura në mënyrë native në modelet E2B dhe E4B).
Arkitektura të Ndryshme dhe Efikase – Ofron variante të Dendura dhe të Përziera Ekspertësh (MoE) të madhësive të ndryshme për vendosje të shkallëzueshme.
Optimizuar për On-Pajisje – Modelet më të vogla janë projektuar posaçërisht për ekzekutim efikas lokal në laptopë dhe pajisje mobile.
Dritare konteksti e zgjeruar – Modelet e vogla kanë një dritare konteksti prej 128K, ndërsa modelet e mesme mbështesin 256K.
Aftësi të Përmirësuara të Kodimit dhe Agjensisë – Arrin përmirësime të dukshme në standardet e kodimit së bashku me mbështetjen native për thirrjen e funksioneve, duke fuqizuar agjentë autonomë shumë të aftë.
Mbështetje për Promptet e Sistemit Nativ – Gemma 4 prezanton mbështetje vendase për rolin e system , duke mundësuar biseda më të strukturuara dhe të kontrollueshme.

Përmbledhje e modeleve

Modelet Gemma 4 janë projektuar për të ofruar performancë të nivelit të lartë në çdo madhësi, duke synuar skenarë vendosjeje nga pajisjet mobile dhe periferike (E2B, E4B) deri te GPU-të dhe stacionet e punës të konsumatorëve (26B A4B, 31B). Ato janë të përshtatshme për arsyetim, rrjedha pune agjentike, kodim dhe kuptim multimodal.

Modelet përdorin një mekanizëm vëmendjeje hibrid që ndërthur vëmendjen lokale të dritares rrëshqitëse me vëmendjen e plotë globale, duke siguruar që shtresa përfundimtare të jetë gjithmonë globale. Ky dizajn hibrid ofron shpejtësinë e përpunimit dhe gjurmën e ulët të memories së një modeli të lehtë pa sakrifikuar ndërgjegjësimin e thellë të kërkuar për detyra komplekse me kontekst të gjatë. Për të optimizuar memorien për kontekste të gjata, shtresat globale paraqesin Çelësa dhe Vlera të unifikuara dhe aplikojnë RoPE Proporcionale (p-RoPE).

Modele të dendura

Pronë	E2B	E4B	31B I dendur
Parametrat totalë	2.3B efektive (5.1B me integrime)	4.5B efektive (8B me integrime)	30.7B
Shtresat	35	42	60
Dritare rrëshqitëse	512 tokena	512 tokena	1024 tokena
Gjatësia e kontekstit	128 mijë tokena	128 mijë tokena	256 mijë tokena
Madhësia e fjalorit	262 mijë	262 mijë	262 mijë
Modalitetet e Mbështetura	Tekst, Imazh, Audio	Tekst, Imazh, Audio	Tekst, Imazh
Parametrat e Enkoderit të Vizionit	~150 milionë	~150 milionë	~550M
Parametrat e Enkoderit Audio	~300 milionë	~300 milionë	Pa audio

"E" në E2B dhe E4B qëndron për parametrat "efektivë". Modelet më të vogla përfshijnë Për-Shtresë Embeddings (PLE) për të maksimizuar efikasitetin e parametrave në vendosjet në pajisje. Në vend që të shtojë më shumë shtresa ose parametra në model, PLE i jep secilës shtresë dekoderi përfshirjen e vet të vogël për çdo shenjë. Këto tabela përfshirjeje janë të mëdha, por përdoren vetëm për kërkime të shpejta, prandaj numri i parametrave efektivë është shumë më i vogël se totali.

Modeli i Përzierjes së Ekspertëve (MoE)

Pronë	26B A4B MM
Parametrat totalë	25.2B
Parametrat aktivë	3.8B
Shtresat	30
Dritare rrëshqitëse	1024 tokena
Gjatësia e kontekstit	256 mijë tokena
Madhësia e fjalorit	262 mijë
Numri i Ekspertëve	8 aktivë / 128 gjithsej dhe 1 i ndarë
Modalitetet e Mbështetura	Tekst, Imazh
Parametrat e Enkoderit të Vizionit	~550M

"A" në 26B A4B qëndron për "parametra aktivë" në kontrast me numrin total të parametrave që përmban modeli. Duke aktivizuar vetëm një nëngrup parametrash 4B gjatë nxjerrjes së përfundimit, modeli Përzierje-Ekspertësh funksionon shumë më shpejt sesa mund të sugjerojë totali i tij 26B. Kjo e bën atë një zgjedhje të shkëlqyer për nxjerrje të shpejtë të përfundimit krahasuar me modelin e dendur 31B, pasi funksionon pothuajse aq shpejt sa një model me parametra 4B.

Rezultatet e pikës referuese

Këto modele u vlerësuan kundrejt një koleksioni të madh të dhënash dhe metrikash të ndryshme për të mbuluar aspekte të ndryshme të gjenerimit të tekstit. Rezultatet e vlerësimit të shënuara në tabelë janë për modele të akorduara sipas udhëzimeve.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (pa menduar)
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026 pa mjete	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
Diamond GPQA	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2 (mesatarja mbi 3)	76.9%	68.2%	42.2%	24.5%	16.2%
HLE pa mjete	19.5%	8.7%	-	-	-
HLE me kërkim	26.5%	17.2%	-	-	-
BigBench Ekstra i Fortë	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
Vizioni
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (distanca mesatare e redaktimit, sa më e ulët aq më mirë)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
Audio
CoVoST	-	-	35.54	33.47	-
FLEURS (më e ulët aq më mirë)	-	-	0.08	0.09	-
Kontekst i gjatë
MRCR v2 8 gjilpëra 128k (mesatarja)	66.4%	44.1%	25.4%	19.1%	13.5%

Aftësitë kryesore

Modelet Gemma 4 trajtojnë një gamë të gjerë detyrash që përfshijnë tekst, pamje dhe audio. Aftësitë kryesore përfshijnë:

Të menduarit – Modalitet i integruar arsyetimi që e lejon modelin të mendojë hap pas hapi përpara se të përgjigjet.
Kontekst i Gjatë – Dritare kontekstuale deri në 128 mijë tokena (E2B/E4B) dhe 256 mijë tokena (26B A4B/31B).
Kuptimi i Imazhit – Zbulimi i objekteve, analizimi i dokumenteve/PDF-ve, kuptimi i ekranit dhe i ndërfaqes së përdoruesit, kuptimi i grafikëve, OCR (përfshirë shumëgjuhësinë), njohja e shkrimit me dorë dhe drejtimi i gishtërinjve. Imazhet mund të përpunohen në raporte aspektesh dhe rezolucione të ndryshueshme.
Kuptimi i Videos – Analizoni videon duke përpunuar sekuenca të kuadrove.
Hyrje Multimodale e Ndërthurur – Përzieni lirisht tekstin dhe imazhet në çdo renditje brenda një mesazhi të vetëm.
Thirrja e Funksioneve – Mbështetje vendase për përdorimin e strukturuar të mjeteve, duke mundësuar rrjedhat e punës agjentike.
Kodimi – Gjenerimi, plotësimi dhe korrigjimi i kodit.
Shumëgjuhësh – Mbështetje e gatshme për mbi 35 gjuhë, e trajnuar paraprakisht në mbi 140 gjuhë.
Audio (vetëm E2B dhe E4B) – Njohje automatike e të folurit (ASR) dhe përkthim nga të folurit në tekst të përkthyer në shumë gjuhë.

Praktikat më të Mira

Për performancën më të mirë, përdorni këto konfigurime dhe praktikat më të mira:

1. Parametrat e marrjes së mostrave

Përdorni konfigurimin e mëposhtëm të standardizuar të marrjes së mostrave në të gjitha rastet e përdorimit:

temperature=1.0
top_p=0.95
top_k=64

2. Konfigurimi i Modalitetit të të Menduarit

Krahasuar me Gemma 3, modelet përdorin role standarde system , assistant dhe user . Për të menaxhuar siç duhet procesin e të menduarit, përdorni tokenët e mëposhtëm të kontrollit:

Aktivizimi i të menduarit: Të menduarit aktivizohet duke përfshirë tokenin <|think|> në fillim të njoftimit të sistemit. Për të çaktivizuar të menduarit, hiqeni tokenin.
Gjenerimi Standard: Kur të menduarit është i aktivizuar, modeli do të nxjerrë arsyetimin e tij të brendshëm të ndjekur nga përgjigja përfundimtare duke përdorur këtë strukturë: <|channel>thought\n [Arsyetim i brendshëm] <channel|>
Sjellje e të Menduarit me Çaktivizim: Për të gjitha modelet përveç varianteve E2B dhe E4B, nëse të menduarit është i çaktivizuar, modeli do të gjenerojë ende etiketat, por me një bllok mendimi bosh: <|channel>thought\n<channel|> [Përgjigje përfundimtare]

Vini re se shumë librari si Transformers dhe llama.cpp merren me kompleksitetet e shabllonit të bisedës për ju.

3. Biseda me shumë kthesa

Pa Përmbajtje Mendimi në Histori : Në bisedat me shumë kthesa, rezultati i modelit historik duhet të përfshijë vetëm përgjigjen përfundimtare. Mendimet nga kthesat e mëparshme të modelit nuk duhet të shtohen para se të fillojë kthesa tjetër e përdoruesit.

4. Renditja e modalitetit

Për performancë optimale me hyrje multimodale, vendosni imazhin dhe/ose përmbajtjen audio përpara tekstit në kërkesën tuaj.

5. Rezolucion i ndryshueshëm i imazhit

Përveç raporteve të ndryshueshme të aspektit, Gemma 4 mbështet rezolucion të ndryshueshëm të imazhit përmes një buxheti të konfigurueshëm të tokenëve vizualë, i cili kontrollon se sa tokenë përdoren për të përfaqësuar një imazh. Një buxhet më i lartë i tokenëve ruan më shumë detaje vizuale me koston e llogaritjes shtesë, ndërsa një buxhet më i ulët mundëson nxjerrje më të shpejtë të përfundimeve për detyrat që nuk kërkojnë kuptim të hollësishëm.

Buxhetet e mbështetura të tokenëve janë: 70 , 140 , 280 , 560 dhe 1120 .
- Përdorni buxhete më të ulëta për klasifikimin, titrat ose kuptimin e videos, ku nxjerrja dhe përpunimi më i shpejtë i shumë kuadrove i tejkalon detajet e imëta.
- Përdorni buxhete më të larta për detyra si OCR, analizimi i dokumenteve ose leximi i tekstit të vogël.

6. Audio

Përdorni strukturat e mëposhtme të kërkesave për përpunimin e audios:

Njohja e të folurit me zë (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Përkthim Automatik i të Folurit (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Kohëzgjatja e audios dhe videos

Të gjitha modelet mbështesin hyrjet e imazheve dhe mund të përpunojnë videot si korniza, ndërsa modelet E2B dhe E4B mbështesin edhe hyrjet e audios. Audio mbështet një gjatësi maksimale prej 30 sekondash. Video mbështet një maksimum prej 60 sekondash duke supozuar që imazhet përpunohen me një kornizë për sekondë.

Të dhënat e modelit

Të dhënat e përdorura për trajnimin e modelit dhe mënyra se si u përpunuan të dhënat.

Seti i të dhënave të trajnimit

Seti ynë i të dhënave para-trajnimit është një koleksion i të dhënave në shkallë të gjerë dhe i larmishëm që përfshin një gamë të gjerë domenesh dhe modalitetesh, që përfshin dokumente në internet, kod, imazhe, audio, me një datë kufizimi janar 2025. Këtu janë komponentët kryesorë:

Dokumentet e Uebit : Një koleksion i larmishëm tekstesh të uebit siguron që modeli të jetë i ekspozuar ndaj një game të gjerë stilesh gjuhësore, temash dhe fjalori. Seti i të dhënave të trajnimit përfshin përmbajtje në mbi 140 gjuhë.
Kodi : Ekspozimi i modelit ndaj kodit e ndihmon atë të mësojë sintaksën dhe modelet e gjuhëve të programimit, gjë që përmirëson aftësinë e tij për të gjeneruar kod dhe për të kuptuar pyetjet që lidhen me kodin.
Matematikë : Trajnimi mbi tekstin matematik e ndihmon modelin të mësojë arsyetimin logjik, përfaqësimin simbolik dhe t'i përgjigjet pyetjeve matematikore.
Imazhe : Një gamë e gjerë imazhesh i mundëson modelit të kryejë analiza imazhesh dhe detyra të nxjerrjes së të dhënave vizuale.

Kombinimi i këtyre burimeve të ndryshme të të dhënave është thelbësor për trajnimin e një modeli të fuqishëm multimodal që mund të trajtojë një gamë të gjerë detyrash dhe formatesh të të dhënave të ndryshme.

Parapërpunimi i të dhënave

Këtu janë metodat kryesore të pastrimit dhe filtrimit të të dhënave të aplikuara në të dhënat e trajnimit:

Filtrimi i CSAM : Filtrimi rigoroz i CSAM (Materialit të Abuzimit Seksual me Fëmijë) u aplikua në faza të shumëfishta në procesin e përgatitjes së të dhënave për të siguruar përjashtimin e përmbajtjes së dëmshme dhe të paligjshme.
Filtrimi i të Dhënave të Ndjeshme : Si pjesë e bërjes së modeleve të para-trajnuara të Gemma-s të sigurta dhe të besueshme, u përdorën teknika të automatizuara për të filtruar informacione të caktuara personale dhe të dhëna të tjera të ndjeshme nga grupet e trajnimit.
Metoda shtesë : Filtrim bazuar në cilësinë dhe sigurinë e përmbajtjes në përputhje me politikat tona .

Etika dhe Siguria

Ndërsa modelet e hapura bëhen qendrore për infrastrukturën e ndërmarrjeve, prejardhja dhe siguria janë parësore. I zhvilluar nga Google DeepMind, Gemma 4 i nënshtrohet të njëjtave vlerësime rigoroze të sigurisë si modelet tona të patentuara Gemini.

Qasja e Vlerësimit

Modelet Gemma 4 u zhvilluan në partneritet me ekipet e sigurisë së brendshme dhe ato përgjegjëse të IA-së. Një sërë vlerësimesh të automatizuara, si dhe njerëzore, u kryen për të ndihmuar në përmirësimin e sigurisë së modelit. Këto vlerësime përputhen me parimet e IA-së të Google , si dhe me politikat e sigurisë, të cilat synojnë të parandalojnë që modelet tona gjeneruese të IA-së të gjenerojnë përmbajtje të dëmshme, duke përfshirë:

Përmbajtje që lidhet me materiale abuzimi seksual me fëmijë dhe shfrytëzimi
Përmbajtje e rrezikshme (p.sh., promovim i vetëvrasjes ose udhëzim për aktivitete që mund të shkaktojnë dëme në botën reale)
Përmbajtje me përmbajtje seksuale eksplicite
Gjuhë urrejtjeje (p.sh., çnjerëzim i anëtarëve të grupeve të mbrojtura)
Ngacmimi (p.sh., inkurajimi i dhunës kundër njerëzve)

Rezultatet e Vlerësimit

Për të gjitha fushat e testimit të sigurisë, pamë përmirësime të mëdha në të gjitha kategoritë e sigurisë së përmbajtjes në krahasim me modelet e mëparshme Gemma. Në përgjithësi, modelet Gemma 4 i tejkalojnë ndjeshëm modelet Gemma 3 dhe 3n në përmirësimin e sigurisë, duke i mbajtur të ulëta refuzimet e pajustifikuara. I gjithë testimi u krye pa filtra sigurie për të vlerësuar aftësitë dhe sjelljet e modelit. Si për tekstin në tekst ashtu edhe për imazhin në tekst, dhe në të gjitha madhësitë e modelit, modeli prodhoi shkelje minimale të politikave dhe tregoi përmirësime të konsiderueshme në krahasim me performancën e modeleve të mëparshme Gemma.

Përdorimi dhe Kufizimet

Këto modele kanë disa kufizime për të cilat përdoruesit duhet të jenë të vetëdijshëm.

Përdorimi i synuar

Modelet multimodale (të afta për të përpunuar vizionin, gjuhën dhe/ose audion) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të ofrojë informacion kontekstual rreth rasteve të mundshme të përdorimit që krijuesit e modeleve i kanë konsideruar si pjesë të trajnimit dhe zhvillimit të modelit.

Krijimi i Përmbajtjes dhe Komunikimi
- Gjenerimi i Tekstit : Këto modele mund të përdoren për të gjeneruar formate krijuese teksti, të tilla si poema, skripte, kod, tekste marketingu dhe drafte email-esh.
- Chatbot-et dhe IA-ja Biseduese : Fuqizojnë ndërfaqet biseduese për shërbimin ndaj klientit, asistentët virtualë ose aplikacionet interaktive.
- Përmbledhja e Tekstit : Gjeneroni përmbledhje koncize të një korpusi teksti, punimesh kërkimore ose raportesh.
- Nxjerrja e të Dhënave të Imazhit : Këto modele mund të përdoren për të nxjerrë, interpretuar dhe përmbledhur të dhënat vizuale për komunikimet me tekst.
- Përpunimi dhe Ndërveprimi i Audios : Modelet më të vogla (E2B dhe E4B) mund të analizojnë dhe interpretojnë të dhënat audio, duke mundësuar ndërveprime dhe transkriptime të drejtuara nga zëri.
Kërkim dhe Edukim
- Hulumtimi i Përpunimit të Gjuhës Natyrore (NLP) dhe VLM : Këto modele mund të shërbejnë si bazë për studiuesit për të eksperimentuar me teknikat VLM dhe NLP, për të zhvilluar algoritme dhe për të kontribuar në përparimin e fushës.
- Mjete për të mësuar gjuhë : Mbështetin përvojat interaktive të të mësuarit të gjuhëve, duke ndihmuar në korrigjimin gramatikor ose duke ofruar praktikë në shkrim.
  - Eksplorimi i Njohurive : Ndihmoni studiuesit në eksplorimin e sasive të mëdha teksti duke gjeneruar përmbledhje ose duke iu përgjigjur pyetjeve rreth temave specifike.

Kufizime

Të dhënat e trajnimit
- Cilësia dhe diversiteti i të dhënave të trajnimit ndikojnë ndjeshëm në aftësitë e modelit. Paragjykimet ose boshllëqet në të dhënat e trajnimit mund të çojnë në kufizime në përgjigjet e modelit.
- Shtrirja e të dhënave të trajnimit përcakton fushat lëndore që modeli mund të trajtojë në mënyrë efektive.
Konteksti dhe Kompleksiteti i Detyrave
- Modelet performojnë mirë në detyrat që mund të formulohen me udhëzime dhe sugjerime të qarta. Detyrat me fund të hapur ose shumë komplekse mund të jenë sfiduese.
- Performanca e një modeli mund të ndikohet nga sasia e kontekstit të ofruar (konteksti më i gjatë në përgjithësi çon në rezultate më të mira, deri në një pikë të caktuar).
Dykuptimësia dhe Nuanca Gjuhësore
- Gjuha natyrore është në thelb komplekse. Modelet mund të kenë vështirësi në kapjen e nuancave delikate, sarkazmës ose gjuhës figurative.
Saktësia faktike
- Modelet gjenerojnë përgjigje bazuar në informacionin që kanë mësuar nga të dhënat e tyre të trajnimit, por ato nuk janë baza njohurish. Ato mund të gjenerojnë deklarata faktike të pasakta ose të vjetruara.
Logjikë e shëndoshë
- Modelet mbështeten në modele statistikore në gjuhë. Ato mund të mos kenë aftësinë për të zbatuar arsyetimin e bazuar në logjikën e shëndoshë në situata të caktuara.

Konsideratat dhe Rreziqet Etike

Zhvillimi i modeleve të gjuhës së vizionit (VLM) ngre disa shqetësime etike. Gjatë krijimit të një modeli të hapur, ne kemi marrë në konsideratë me kujdes sa vijon:

Paragjykim dhe Drejtësi
- VLM-të e trajnuara në të dhëna teksti dhe imazhi në shkallë të gjerë, të botës reale, mund të pasqyrojnë paragjykime socio-kulturore të ngulitura në materialin e trajnimit. Modelet Gemma 4 iu nënshtruan një shqyrtimi të kujdesshëm, para-përpunimit të të dhënave hyrëse dhe vlerësimeve pas trajnimit, siç raportohet në këtë kartë, për të ndihmuar në zbutjen e rrezikut të këtyre paragjykimeve.
Keqinformimi dhe Keqpërdorimi
- VLM-të mund të keqpërdoren për të gjeneruar tekst që është i rremë, mashtrues ose i dëmshëm.
- Janë dhënë udhëzime për përdorim të përgjegjshëm të modelit, shih Mjetin e IA-së Gjenerative të Përgjegjshme .
Transparenca dhe Llogaridhënia
- Kjo kartë modeli përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modeleve.
- Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë VLM të arritshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e IA-së.

Rreziqet e identifikuara dhe zbutjet :

Gjenerimi i përmbajtjes së dëmshme : Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masa mbrojtëse të përshtatshme për sigurinë e përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacionit.
Keqpërdorimi për qëllime keqdashëse : Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve fundorë mund të ndihmojnë në zbutjen e aplikacioneve keqdashëse të VLM-ve. Ofrohen burime edukative dhe mekanizma raportimi për përdoruesit për të raportuar keqpërdorimin.
Shkelje të privatësisë : Modelet u trajnuan mbi të dhënat e filtruara për heqjen e informacioneve të caktuara personale dhe të dhënave të tjera të ndjeshme. Zhvilluesit inkurajohen t'i përmbahen rregulloreve të privatësisë me teknika që ruajnë privatësinë.
Përjetësimi i paragjykimeve : Inkurajohet të kryhet monitorim i vazhdueshëm (duke përdorur metrika vlerësimi, rishikim njerëzor) dhe eksplorimi i teknikave të heqjes së paragjykimeve gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.

Përfitimet

Në kohën e publikimit, kjo familje modelesh ofron implementime të modeleve me gjuhë vizioni të hapur me performancë të lartë, të projektuara nga e para për zhvillim të përgjegjshëm të IA-së, krahasuar me modele me madhësi të ngjashme.