Gemma 4 मॉडल कार्ड

Gemma 4 Banner

Hugging Face | GitHub | लॉन्च ब्लॉग | दस्तावेज़
लाइसेंस: Apache 2.0 | लेखक: Google DeepMind

Gemma, Google DeepMind के बनाए गए ओपन मॉडल का एक परिवार है. Gemma 4 मॉडल, टेक्स्ट और इमेज, दोनों तरह के इनपुट को प्रोसेस कर सकते हैं. साथ ही, ये टेक्स्ट आउटपुट जनरेट करते हैं. छोटे मॉडल में ऑडियो भी इस्तेमाल किया जा सकता है. इस रिलीज़ में, प्री-ट्रेन किए गए और निर्देश के मुताबिक फ़ाइन-ट्यून किए गए, दोनों तरह के ओपन-वेट मॉडल शामिल हैं. Gemma 4 में 2.56 लाख टोकन तक की कॉन्टेक्स्ट विंडो होती है. साथ ही, यह 140 से ज़्यादा भाषाओं में काम करता है.

Gemma 4 में डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (MoE) आर्किटेक्चर, दोनों शामिल हैं. यह टेक्स्ट जनरेट करने, कोडिंग करने, और रीज़निंग जैसे कामों के लिए सबसे सही है. ये मॉडल चार अलग-अलग साइज़ में उपलब्ध हैं: E2B, E4B, 26B A4B, और 31B. इनके अलग-अलग साइज़ की वजह से, इन्हें हाई-एंड फ़ोन से लेकर लैपटॉप और सर्वर तक, हर तरह के एनवायरमेंट में डिप्लॉय किया जा सकता है. इससे, अत्याधुनिक एआई को ऐक्सेस करना आसान हो जाता है.

Gemma 4 में, बेहतर सुविधाएं और आर्किटेक्चर से जुड़ी नई टेक्नोलॉजी शामिल की गई हैं:

  • वजह – इस फ़ैमिली के सभी मॉडल को, तर्क करने की बेहतर क्षमता के साथ डिज़ाइन किया गया है. इनमें सोचने के मोड को कॉन्फ़िगर किया जा सकता है.

  • एक्सटेंडेड मल्टीमॉडल – यह टेक्स्ट, अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन वाली इमेज (सभी मॉडल), वीडियो, और ऑडियो को प्रोसेस करता है. ऑडियो को E2B और E4B मॉडल पर नेटिव तौर पर इस्तेमाल किया जा सकता है.

  • अलग-अलग और असरदार आर्किटेक्चर – इसमें अलग-अलग साइज़ के डेंस और मिक्सचर-ऑफ़-एक्सपर्ट (एमओई) वैरिएंट उपलब्ध हैं, ताकि इन्हें आसानी से डिप्लॉय किया जा सके.

  • डिवाइस पर काम करने के लिए ऑप्टिमाइज़ किया गया है – छोटे मॉडल खास तौर पर लैपटॉप और मोबाइल डिवाइसों पर बेहतर तरीके से काम करने के लिए डिज़ाइन किए गए हैं.

  • बढ़ी हुई कॉन्टेक्स्ट विंडो – छोटे मॉडल में 1,28,000 टोकन वाली कॉन्टेक्स्ट विंडो होती है, जबकि मीडियम मॉडल में 2,56,000 टोकन वाली कॉन्टेक्स्ट विंडो होती है.

  • बेहतर कोडिंग और एजेंटिक क्षमताएँ – कोडिंग के बेंचमार्क में काफ़ी सुधार करती है. साथ ही, नेटिव फ़ंक्शन-कॉलिंग की सुविधा देती है, जिससे ज़्यादा क्षमता वाले ऑटोनॉमस एजेंट काम कर पाते हैं.

  • सिस्टम प्रॉम्प्ट के लिए नेटिव सपोर्ट – Gemma 4 में, system भूमिका के लिए नेटिव सपोर्ट की सुविधा दी गई है. इससे बातचीत को ज़्यादा व्यवस्थित और कंट्रोल किया जा सकता है.

मॉडल के बारे में खास जानकारी

Gemma 4 के मॉडल को हर साइज़ में, बेहतरीन परफ़ॉर्मेंस देने के लिए डिज़ाइन किया गया है. ये मॉडल, मोबाइल और एज डिवाइस (E2B, E4B) से लेकर उपभोक्ता जीपीयू और वर्कस्टेशन (26B A4B, 31B) तक के डिप्लॉयमेंट के अलग-अलग तरीकों को टारगेट करते हैं. ये मॉडल, तर्क करने, एजेंटिक वर्कफ़्लो, कोडिंग, और मल्टीमॉडल को समझने के लिए सबसे सही हैं.

इन मॉडल में हाइब्रिड अटेंशन मैकेनिज़्म का इस्तेमाल किया जाता है. इसमें लोकल स्लाइडिंग विंडो अटेंशन को फ़ुल ग्लोबल अटेंशन के साथ इंटरलीव किया जाता है. इससे यह पक्का होता है कि फ़ाइनल लेयर हमेशा ग्लोबल हो. इस हाइब्रिड डिज़ाइन की मदद से, हल्के मॉडल की प्रोसेसिंग स्पीड और कम मेमोरी फ़ुटप्रिंट मिलता है. साथ ही, यह जटिल और लंबे कॉन्टेक्स्ट वाले टास्क के लिए ज़रूरी जानकारी भी देता है. लंबे कॉन्टेक्स्ट के लिए मेमोरी को ऑप्टिमाइज़ करने के लिए, ग्लोबल लेयर में एक जैसी कुंजियां और वैल्यू होती हैं. साथ ही, इसमें प्रोपोर्शनल RoPE (p-RoPE) लागू होता है.

डेंस मॉडल

प्रॉपर्टी E2B E4B 31B Dense
कुल पैरामीटर 2.3B पैरामीटर (एम्बेडिंग के साथ 5.1B) 4.5 अरब पैरामीटर (एम्बेडिंग के साथ 8 अरब) 30.7 अरब
लेयर 35 42 60
स्लाइडिंग विंडो 512 टोकन 512 टोकन 1024 टोकन
कॉन्टेक्स्ट की लंबाई 128 हज़ार टोकन 128 हज़ार टोकन 256K टोकन
शब्दावली का साइज़ 262K 262K 262K
इस्तेमाल की जा सकने वाली सुविधाएं टेक्स्ट, इमेज, ऑडियो टेक्स्ट, इमेज, ऑडियो टेक्स्ट, इमेज
विज़न एनकोडर पैरामीटर करीब 15 करोड़ करीब 15 करोड़ करीब 55 करोड़
ऑडियो एन्कोडर पैरामीटर ~30 करोड़ ~30 करोड़ कोई ऑडियो नहीं

E2B और E4B में "E" का मतलब "इफ़ेक्टिव" पैरामीटर होता है. छोटे मॉडल में, पर-लेयर एम्बेडिंग (पीएलई) को शामिल किया जाता है. इससे डिवाइस पर डिप्लॉयमेंट के दौरान, पैरामीटर की क्षमता को ज़्यादा से ज़्यादा किया जा सकता है. मॉडल में ज़्यादा लेयर या पैरामीटर जोड़ने के बजाय, पीएलई हर डिकोडर लेयर को हर टोकन के लिए अपनी छोटी एम्बेडिंग देता है. ये एम्बेडिंग टेबल बड़ी होती हैं, लेकिन इनका इस्तेमाल सिर्फ़ तुरंत लुकअप के लिए किया जाता है. इसलिए, असरदार पैरामीटर की संख्या कुल संख्या से बहुत कम होती है.

मिक्सचर-ऑफ़-एक्सपर्ट (MoE) मॉडल

प्रॉपर्टी 26B A4B MoE
कुल पैरामीटर 25.2B
ऐक्टिव पैरामीटर 3.8B
लेयर 30
स्लाइडिंग विंडो 1024 टोकन
कॉन्टेक्स्ट की लंबाई 256K टोकन
शब्दावली का साइज़ 262K
एक्सपर्ट की संख्या 8 चालू / 128 कुल और 1 शेयर किया गया
इस्तेमाल की जा सकने वाली सुविधाएं टेक्स्ट, इमेज
विज़न एनकोडर पैरामीटर करीब 55 करोड़

26B A4B में "A" का मतलब "ऐक्टिव पैरामीटर" है. यह मॉडल में मौजूद पैरामीटर की कुल संख्या से अलग है. अनुमान लगाने के दौरान, सिर्फ़ 400 करोड़ पैरामीटर के सबसेट को चालू करके, Mixture-of-Experts मॉडल, 2,600 करोड़ पैरामीटर वाले मॉडल की तुलना में बहुत तेज़ी से काम करता है. इसलिए, यह 31B मॉडल की तुलना में तेज़ी से अनुमान लगाने के लिए एक बेहतरीन विकल्प है. इसकी वजह यह है कि यह 4B-पैरामीटर मॉडल की तरह ही तेज़ी से काम करता है.

मानदंड के नतीजे

इन मॉडल का आकलन, अलग-अलग डेटासेट और मेट्रिक के बड़े कलेक्शन के आधार पर किया गया था. इससे टेक्स्ट जनरेट करने के अलग-अलग पहलुओं को कवर किया जा सका. टेबल में मार्क किए गए आकलन के नतीजे, निर्देश के मुताबिक तैयार किए गए मॉडल के लिए हैं.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (no think)
MMLU Pro 85.2% 82.6% 69.4% 60% 67.6%
AIME 2026 no tools 89.2% 88.3% 42.5% 37.5% 20.8%
LiveCodeBench v6 80.0% 77.1% 52.0% 44.0% 29.1%
Codeforces ELO 2150 1718 940 633 110
GPQA Diamond 84.3% 82.3% 58.6% 43.4% 42.4%
Tau2 (औसत 3 से ज़्यादा) 76.9% 68.2% 42.2% 24.5% 16.2%
HLE no tools 19.5% 8.7% - - -
खोज की सुविधा के साथ एचएलई 26.5% 17.2% - - -
BigBench Extra Hard 74.4% 64.8% 33.1% 21.9% 19.3%
MMMLU 88.4% 86.3% 76.6% 67.4% 70.7%
देखने से जुड़ी समस्या वालों के लिए सुलभता सुविधाएं
MMMU Pro 76.9% 73.8% 52.6% 44.2% 49.7%
OmniDocBench 1.5 (एडिट डिस्टेंस का औसत, कम होने पर बेहतर) 0.131 0.149 0.181 0.290 0.365
MATH-Vision 85.6% 82.4% 59.5% 52.4% 46.0%
MedXPertQA MM 61.3% 58.1% 28.7% 23.5% -
ऑडियो
CoVoST - - 35.54 33.47 -
FLEURS (कम स्कोर बेहतर होता है) - - 0.08 0.09 -
ज़्यादा कॉन्टेक्स्ट वाली विंडो
MRCR v2 8 सुई 128k (औसत) 66.4% 44.1% 25.4% 19.1% 13.5%

मुख्य सुविधाएं

Gemma 4 मॉडल, टेक्स्ट, विज़न, और ऑडियो से जुड़े कई तरह के टास्क पूरे कर सकते हैं. मुख्य सुविधाओं में ये शामिल हैं:

  • सोचना – यह एक बिल्ट-इन रीज़निंग मोड है. इसकी मदद से मॉडल, जवाब देने से पहले एक-एक करके सोच सकता है.
  • ज़्यादा कॉन्टेक्स्ट वाली विंडो – E2B/E4B के लिए 1.28 लाख टोकन और 26B A4B/31B के लिए 2.56 लाख टोकन वाली कॉन्टेक्स्ट विंडो.
  • इमेज को समझना – ऑब्जेक्ट का पता लगाना, दस्तावेज़/PDF पार्स करना, स्क्रीन और यूज़र इंटरफ़ेस (यूआई) को समझना, चार्ट को समझना, ओसीआर (इसमें कई भाषाओं में ओसीआर की सुविधा शामिल है), हाथ से लिखे टेक्स्ट की पहचान करना, और पॉइंट करना. इमेज को अलग-अलग आसपेक्ट रेशियो और रिज़ॉल्यूशन में प्रोसेस किया जा सकता है.
  • वीडियो को समझना – फ़्रेम के क्रम को प्रोसेस करके वीडियो का विश्लेषण करना.
  • टेक्स्ट, इमेज वग़ैरह को प्रोसेस करने वाले मोडल के इनपुट को इंटरलीव करना – एक ही प्रॉम्प्ट में टेक्स्ट और इमेज को किसी भी क्रम में शामिल करें.
  • फ़ंक्शन कॉलिंग – स्ट्रक्चर्ड टूल के इस्तेमाल के लिए नेटिव सपोर्ट. इससे एजेंट के वर्कफ़्लो को चालू किया जा सकता है.
  • कोडिंग – कोड जनरेट करना, उसे पूरा करना, और उसमें सुधार करना.
  • कई भाषाओं में उपलब्ध – यह 35 से ज़्यादा भाषाओं में काम करता है. साथ ही, इसे 140 से ज़्यादा भाषाओं में पहले से ही ट्रेन किया गया है.
  • ऑडियो (सिर्फ़ E2B और E4B के लिए) – अपने-आप बोली पहचानने की सुविधा (एएसआर) और बोली को अनुवाद किए गए टेक्स्ट में बदलने की सुविधा, कई भाषाओं में उपलब्ध है.

शुरू करें

Transformers के नए वर्शन के साथ, Gemma 4 के सभी मॉडल इस्तेमाल किए जा सकते हैं. शुरू करने के लिए, अपने एनवायरमेंट में ज़रूरी डिपेंडेंसी इंस्टॉल करें:

pip install -U transformers torch accelerate

सब कुछ इंस्टॉल करने के बाद, नीचे दिए गए कोड का इस्तेमाल करके मॉडल को लोड किया जा सकता है:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

मॉडल लोड हो जाने के बाद, आउटपुट जनरेट करना शुरू किया जा सकता है:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

तर्क करने की सुविधा चालू करने के लिए, enable_thinking=True सेट करें. इसके बाद, parse_response फ़ंक्शन, तर्क करने के आउटपुट को पार्स करने का काम करेगा.

सबसे सही तरीके

बेहतर परफ़ॉर्मेंस के लिए, इन कॉन्फ़िगरेशन और सबसे सही तरीकों का इस्तेमाल करें:

1. सैंपलिंग पैरामीटर

इस्तेमाल के सभी उदाहरणों में, सैंपलिंग के इस स्टैंडर्ड कॉन्फ़िगरेशन का इस्तेमाल करें:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. सोचने के तरीके को कॉन्फ़िगर करना

Gemma 3 की तुलना में, इन मॉडल में स्टैंडर्ड system, assistant, और user भूमिकाओं का इस्तेमाल किया जाता है. सोचने की प्रोसेस को सही तरीके से मैनेज करने के लिए, इन कंट्रोल टोकन का इस्तेमाल करें:

  • सोचने की सुविधा को ट्रिगर करना: सिस्टम प्रॉम्प्ट की शुरुआत में <|think|> टोकन शामिल करके, सोचने की सुविधा को चालू किया जाता है. सोचने की सुविधा बंद करने के लिए, टोकन हटाएं.
  • स्टैंडर्ड जनरेशन: 'सोचने की सुविधा' चालू होने पर, मॉडल इस स्ट्रक्चर का इस्तेमाल करके, जवाब देने से पहले यह बताएगा कि उसने जवाब देने के लिए क्या-क्या किया: <|channel>thought\n[जवाब देने से पहले की गई कार्रवाई]<channel|>
  • सोचने की सुविधा बंद होने पर: E2B और E4B वैरिएंट को छोड़कर, सभी मॉडल के लिए सोचने की सुविधा बंद होने पर भी मॉडल टैग जनरेट करेगा. हालांकि, इसमें 'सोच' ब्लॉक खाली होगा: <|channel>thought\n<channel|>[फ़ाइनल जवाब]

ध्यान दें कि Transformers और llama.cpp जैसी कई लाइब्रेरी, चैट टेम्प्लेट की जटिलताओं को आपके लिए मैनेज करती हैं.

3. एक से ज़्यादा बार बातचीत करना

  • इतिहास में सोचने से जुड़ा कॉन्टेंट शामिल न हो: एक से ज़्यादा बार की जाने वाली बातचीत में, मॉडल के पिछले आउटपुट में सिर्फ़ फ़ाइनल जवाब शामिल होना चाहिए. पिछले मॉडल के जवाबों में शामिल जानकारी को, उपयोगकर्ता के अगले जवाब से पहले नहीं जोड़ा जाना चाहिए.

4. मोडेलिटी ऑर्डर

  • टेक्स्ट, इमेज, और वीडियो वग़ैरह को प्रोसेस करने वाले मोडल के इनपुट से सबसे अच्छी परफ़ॉर्मेंस पाने के लिए, अपने प्रॉम्प्ट में टेक्स्ट से पहले इमेज और/या ऑडियो कॉन्टेंट डालें.

5. इमेज के रिज़ॉल्यूशन में बदलाव करने की सुविधा

आस्पेक्ट रेशियो के अलावा, Gemma 4 में इमेज के रिज़ॉल्यूशन को भी बदला जा सकता है. इसके लिए, कॉन्फ़िगर किए जा सकने वाले विज़ुअल टोकन बजट का इस्तेमाल किया जाता है. इससे यह कंट्रोल किया जा सकता है कि किसी इमेज को दिखाने के लिए कितने टोकन इस्तेमाल किए जाएं. ज़्यादा टोकन बजट से, कंप्यूटिंग की अतिरिक्त लागत पर ज़्यादा विज़ुअल जानकारी मिलती है. वहीं, कम बजट से उन टास्क के लिए तेज़ी से अनुमान लगाया जा सकता है जिनके लिए बारीकी से समझने की ज़रूरत नहीं होती.

  • इस्तेमाल किए जा सकने वाले टोकन बजट ये हैं: 70, 140, 280, 560, और 1120.
    • क्लासिफ़िकेशन, कैप्शन जोड़ने या वीडियो समझने के लिए, कम बजट का इस्तेमाल करें. इनमें ज़्यादा जानकारी के मुकाबले, तेज़ी से अनुमान लगाने और कई फ़्रेम प्रोसेस करने को ज़्यादा अहमियत दी जाती है.
    • ओसीआर, दस्तावेज़ पार्स करने या छोटे टेक्स्ट को पढ़ने जैसे कामों के लिए, ज़्यादा बजट का इस्तेमाल करें.

6. ऑडियो

ऑडियो प्रोसेसिंग के लिए, प्रॉम्प्ट के इन स्ट्रक्चर का इस्तेमाल करें:

  • ऑडियो से बोली की पहचान करने की सुविधा (एएसआर)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • अपने-आप होने वाला बातचीत का अनुवाद (एएसटी)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. ऑडियो और वीडियो की अवधि

सभी मॉडल, इमेज इनपुट के साथ काम करते हैं. साथ ही, वीडियो को फ़्रेम के तौर पर प्रोसेस कर सकते हैं. वहीं, E2B और E4B मॉडल, ऑडियो इनपुट के साथ भी काम करते हैं. ऑडियो की अवधि ज़्यादा से ज़्यादा 30 सेकंड हो सकती है. वीडियो की अवधि ज़्यादा से ज़्यादा 60 सेकंड हो सकती है. ऐसा तब होगा, जब इमेज को एक फ़्रेम प्रति सेकंड के हिसाब से प्रोसेस किया जाए.

मॉडल डेटा

मॉडल को ट्रेनिंग देने के लिए इस्तेमाल किया गया डेटा और डेटा को प्रोसेस करने का तरीका.

ट्रेनिंग डेटासेट

प्री-ट्रेनिंग के लिए इस्तेमाल किया गया हमारा डेटासेट, अलग-अलग तरह के डेटा का एक बड़ा कलेक्शन है. इसमें कई तरह के डोमेन और मोडेलिटी शामिल हैं. जैसे, वेब दस्तावेज़, कोड, इमेज, और ऑडियो. इस डेटासेट को जनवरी 2025 तक अपडेट किया गया है. यहां मुख्य कॉम्पोनेंट दिए गए हैं:

  • वेब दस्तावेज़: वेब टेक्स्ट के अलग-अलग कलेक्शन से यह पक्का किया जाता है कि मॉडल को भाषा की अलग-अलग शैलियों, विषयों, और शब्दावली के बारे में जानकारी हो. ट्रेनिंग डेटासेट में, 140 से ज़्यादा भाषाओं में कॉन्टेंट शामिल है.
  • कोड: मॉडल को कोड दिखाने से, उसे प्रोग्रामिंग भाषाओं के सिंटैक्स और पैटर्न के बारे में जानने में मदद मिलती है. इससे कोड जनरेट करने और कोड से जुड़े सवालों को समझने की उसकी क्षमता बेहतर होती है.
  • गणित: गणित के टेक्स्ट की ट्रेनिंग देने से, मॉडल को तार्किक तर्क, सिंबॉलिक प्रज़ेंटेशन, और गणित की क्वेरी हल करने में मदद मिलती है.
  • इमेज: अलग-अलग तरह की इमेज से, मॉडल को इमेज का विश्लेषण करने और विज़ुअल डेटा निकालने के टास्क पूरे करने में मदद मिलती है.

इन अलग-अलग डेटा सोर्स को मिलाकर, एक बेहतर मल्टीमॉडल मॉडल को ट्रेन किया जा सकता है. यह मॉडल, अलग-अलग तरह के टास्क और डेटा फ़ॉर्मैट को हैंडल कर सकता है.

डेटा प्रीप्रोसेसिंग

ट्रेनिंग डेटा पर, डेटा को साफ़ करने और फ़िल्टर करने के ये मुख्य तरीके लागू किए जाते हैं:

  • सीएसएएम फ़िल्टर करना: डेटा तैयार करने की प्रोसेस के कई चरणों में, सीएसएएम (बच्चों का यौन शोषण दिखाने वाला कॉन्टेंट) को फ़िल्टर करने की सख्त प्रोसेस लागू की गई थी. इससे यह पक्का किया जा सका कि नुकसान पहुंचाने वाले और गैर-कानूनी कॉन्टेंट को शामिल न किया जाए.
  • संवेदनशील डेटा को फ़िल्टर करना: Gemma के प्री-ट्रेन किए गए मॉडल को सुरक्षित और भरोसेमंद बनाने के लिए, ऑटोमेटेड तकनीकों का इस्तेमाल किया गया. इससे ट्रेनिंग सेट से कुछ निजी जानकारी और अन्य संवेदनशील डेटा को फ़िल्टर किया गया.
  • अन्य तरीके: हमारी नीतियों के मुताबिक, कॉन्टेंट की क्वालिटी और सुरक्षा के आधार पर फ़िल्टर करना.

नैतिकता और सुरक्षा

ओपन मॉडल, एंटरप्राइज़ इन्फ़्रास्ट्रक्चर के लिए ज़रूरी होते हैं. इसलिए, यह जानना ज़रूरी है कि मॉडल कहां से आया है और वह कितना सुरक्षित है. Gemma 4 को Google DeepMind ने बनाया है. इसकी सुरक्षा का आकलन, Gemini मॉडल की तरह ही किया जाता है.

मूल्यांकन का तरीका

Gemma 4 मॉडल को, सुरक्षा और ज़िम्मेदारी से एआई का इस्तेमाल करने वाली टीमों के साथ मिलकर बनाया गया है. मॉडल की सुरक्षा को बेहतर बनाने के लिए, ऑटोमेटेड और मैन्युअल, दोनों तरीकों से कई बार समीक्षा की गई. ये आकलन, Google के एआई के सिद्धांतों और सुरक्षा से जुड़ी नीतियों के मुताबिक किए जाते हैं. इनका मकसद, हमारे जनरेटिव एआई मॉडल को नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करने से रोकना है. जैसे:

  • बच्चों का यौन शोषण दिखाने वाले कॉन्टेंट और उनके साथ बुरा बर्ताव से जुड़ा कॉन्टेंट
  • खतरनाक कॉन्टेंट (जैसे, आत्महत्या को बढ़ावा देना या ऐसी गतिविधियों के बारे में निर्देश देना जिनसे लोगों को असल में नुकसान पहुंच सकता है)
  • साफ़ तौर पर सेक्शुअल ऐक्ट दिखाने वाला कॉन्टेंट
  • नफ़रत फैलाने वाली भाषा का इस्तेमाल (जैसे, सुरक्षित ग्रुप के सदस्यों को अमानवीय बताना)
  • उत्पीड़न (जैसे, लोगों के ख़िलाफ़ हिंसा को बढ़ावा देना)

मूल्यांकन के नतीजे

सुरक्षा से जुड़े सभी टेस्ट में, हमें कॉन्टेंट की सुरक्षा की सभी कैटगरी में, Gemma के पिछले मॉडल की तुलना में काफ़ी सुधार देखने को मिले. कुल मिलाकर, Gemma 4 मॉडल, सुरक्षा को बेहतर बनाने के मामले में Gemma 3 और 3n मॉडल से काफ़ी बेहतर हैं. साथ ही, ये बिना किसी वजह के जवाब देने से कम मना करते हैं. मॉडल की क्षमताओं और व्यवहारों का आकलन करने के लिए, सभी टेस्टिंग सुरक्षा फ़िल्टर के बिना की गई थी. टेक्स्ट-टू-टेक्स्ट और इमेज-टू-टेक्स्ट, दोनों के लिए और सभी मॉडल साइज़ में, मॉडल ने नीति के उल्लंघन से जुड़ी कम से कम समस्याएं दिखाईं. साथ ही, पिछले Gemma मॉडल की परफ़ॉर्मेंस के मुकाबले, इसमें काफ़ी सुधार देखने को मिला.

इस्तेमाल और सीमाएं

इन मॉडल की कुछ सीमाएं हैं, जिनके बारे में उपयोगकर्ताओं को पता होना चाहिए.

इस्तेमाल का मकसद

मल्टीमॉडल मॉडल (जो विज़न, भाषा, और/या ऑडियो को प्रोसेस कर सकते हैं) का इस्तेमाल, अलग-अलग उद्योगों और डोमेन में किया जा सकता है. यहां दिए गए संभावित इस्तेमाल की सूची में सभी इस्तेमाल शामिल नहीं हैं. इस सूची का मकसद, इस्तेमाल के उन उदाहरणों के बारे में जानकारी देना है जिन्हें मॉडल बनाने वालों ने मॉडल की ट्रेनिंग और डेवलपमेंट के दौरान ध्यान में रखा था.

  • कॉन्टेंट बनाना और कम्यूनिकेट करना
    • टेक्स्ट जनरेशन: इन मॉडल का इस्तेमाल, क्रिएटिव टेक्स्ट फ़ॉर्मैट जनरेट करने के लिए किया जा सकता है. जैसे, कविताएं, स्क्रिप्ट, कोड, मार्केटिंग कॉपी, और ईमेल के ड्राफ़्ट.
    • चैटबॉट और बातचीत वाला एआई: ग्राहक सेवा, वर्चुअल असिस्टेंट या इंटरैक्टिव ऐप्लिकेशन के लिए, बातचीत वाले इंटरफ़ेस को बेहतर बनाना.
    • टेक्स्ट की खास जानकारी जनरेट करना: किसी टेक्स्ट कॉर्पस, रिसर्च पेपर या रिपोर्ट की खास जानकारी जनरेट करना.
    • इमेज से डेटा निकालना: इन मॉडल का इस्तेमाल, टेक्स्ट कम्यूनिकेशन के लिए विज़ुअल डेटा को निकालने, समझने, और उसकी खास जानकारी देने के लिए किया जा सकता है.
    • ऑडियो प्रोसेसिंग और इंटरैक्शन: छोटे मॉडल (E2B और E4B), ऑडियो इनपुट का विश्लेषण और व्याख्या कर सकते हैं. इससे, आवाज़ से इंटरैक्शन और ट्रांसक्रिप्शन की सुविधा मिलती है.
  • रिसर्च और शिक्षा
    • नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) और वीएलएम रिसर्च: ये मॉडल, शोधकर्ताओं के लिए एक आधार के तौर पर काम कर सकते हैं. इससे वे वीएलएम और एनएलपी तकनीकों के साथ एक्सपेरिमेंट कर सकते हैं, एल्गोरिदम डेवलप कर सकते हैं, और इस फ़ील्ड को आगे बढ़ाने में योगदान दे सकते हैं.
    • भाषा सीखने में मदद करने वाले टूल: इनसे भाषा सीखने के इंटरैक्टिव अनुभव मिलते हैं. साथ ही, व्याकरण में सुधार करने या लिखने की प्रैक्टिस करने में मदद मिलती है.
      • जानकारी एक्सप्लोर करना: यह सुविधा, शोधकर्ताओं को टेक्स्ट के बड़े-बड़े हिस्सों को एक्सप्लोर करने में मदद करती है. इसके लिए, यह खास जानकारी जनरेट करती है या किसी खास विषय के बारे में सवालों के जवाब देती है.

सीमाएं

  • ट्रेनिंग के लिए डेटा
    • ट्रेनिंग के लिए इस्तेमाल किए गए डेटा की क्वालिटी और विविधता से, मॉडल की क्षमताओं पर काफ़ी असर पड़ता है. ट्रेनिंग डेटा में पक्षपात या कोई जानकारी मौजूद न होने की वजह से, मॉडल के जवाबों में कुछ कमियां हो सकती हैं.
    • ट्रेनिंग डेटासेट का दायरा यह तय करता है कि मॉडल किन विषयों को असरदार तरीके से हैंडल कर सकता है.
  • कॉन्टेक्स्ट और टास्क की जटिलता
    • मॉडल उन टास्क को बेहतर तरीके से पूरा करते हैं जिनके लिए प्रॉम्प्ट और निर्देश साफ़ तौर पर दिए गए हों. ऐसे टास्क जिनमें कई तरह के जवाब दिए जा सकते हैं या जो बहुत मुश्किल हैं उन्हें पूरा करने में समस्या आ सकती है.
    • मॉडल की परफ़ॉर्मेंस पर, दिए गए कॉन्टेक्स्ट की मात्रा का असर पड़ सकता है. आम तौर पर, ज़्यादा कॉन्टेक्स्ट देने से बेहतर नतीजे मिलते हैं. हालांकि, ऐसा एक तय सीमा तक ही होता है.
  • भाषा से जुड़ी अस्पष्टता और बारीकियां
    • नैचुरल लैंग्वेज, अपने-आप में जटिल होती है. मॉडल को बारीकियों, व्यंग्य या मुहावरे वाली भाषा को समझने में मुश्किल हो सकती है.
  • तथ्यों का सही होना
    • मॉडल, अपने ट्रेनिंग डेटासेट से सीखी गई जानकारी के आधार पर जवाब जनरेट करते हैं. हालाँकि, वे नॉलेज बेस नहीं होते. ये गलत या पुरानी जानकारी दे सकते हैं.
  • Common Sense
    • मॉडल, भाषा में मौजूद आंकड़ों के पैटर्न पर निर्भर करते हैं. ऐसा हो सकता है कि कुछ स्थितियों में, वे सामान्य ज्ञान का इस्तेमाल न कर पाएं.

नैतिक तौर पर अहम बातें और जोखिम

विज़न-लैंग्वेज मॉडल (वीएलएम) के डेवलपमेंट से, नैतिकता से जुड़ी कई समस्याएं पैदा होती हैं. ओपन मॉडल बनाते समय, हमने इन बातों का ध्यान रखा है:

  • पक्षपात और निष्पक्षता
    • बड़े पैमाने पर, असल दुनिया के टेक्स्ट और इमेज डेटा पर ट्रेन किए गए वीएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा में मौजूद सामाजिक-सांस्कृतिक पूर्वाग्रहों को दिखा सकते हैं. Gemma 4 मॉडल की बारीकी से जांच की गई. साथ ही, इनपुट डेटा को पहले से प्रोसेस किया गया और ट्रेनिंग के बाद उनका आकलन किया गया. इस कार्ड में दी गई जानकारी के मुताबिक, इन पूर्वाग्रहों के जोखिम को कम करने के लिए ऐसा किया गया.
  • गलत जानकारी और गलत इस्तेमाल
  • पारदर्शिता और जवाबदेही
    • इस मॉडल कार्ड में, मॉडल के डिज़ाइन, क्षमताओं, सीमाओं, और आकलन की प्रोसेस के बारे में खास जानकारी दी गई है.
    • ज़िम्मेदारी के साथ तैयार किया गया ओपन मॉडल, एआई के पूरे नेटवर्क में डेवलपर और शोधकर्ताओं को वीएलएम टेक्नोलॉजी उपलब्ध कराकर, इनोवेशन को शेयर करने का मौका देता है.

पहचाने गए जोखिम और उन्हें कम करने के तरीके:

  • नुकसान पहुंचाने वाला कॉन्टेंट जनरेट करना: कॉन्टेंट को सुरक्षित रखने के लिए, तरीके और दिशा-निर्देश ज़रूरी हैं. डेवलपर को सलाह दी जाती है कि वे सावधानी बरतें और अपने प्रॉडक्ट की नीतियों और ऐप्लिकेशन के इस्तेमाल के मामलों के आधार पर, कॉन्टेंट की सुरक्षा से जुड़े ज़रूरी उपाय लागू करें.
  • नुकसान पहुंचाने के मकसद से गलत इस्तेमाल: वीएलएम के नुकसान पहुंचाने वाले ऐप्लिकेशन से बचने के लिए, तकनीकी सीमाओं और डेवलपर और एंड-यूज़र को जानकारी देना ज़रूरी है. उपयोगकर्ताओं को शिक्षा से जुड़े संसाधन और गलत इस्तेमाल की शिकायत करने के तरीके उपलब्ध कराए जाते हैं.
  • निजता से जुड़े उल्लंघन: मॉडल को ऐसे डेटा पर ट्रेन किया गया था जिसे फ़िल्टर करके, कुछ निजी जानकारी और अन्य संवेदनशील डेटा को हटा दिया गया था. डेवलपर को निजता बनाए रखने वाली तकनीकों के साथ, निजता के कानूनों का पालन करने के लिए प्रोत्साहित किया जाता है.
  • पूर्वाग्रहों को बढ़ावा मिलना: मॉडल की ट्रेनिंग, फ़ाइन-ट्यूनिंग, और अन्य इस्तेमाल के मामलों के दौरान, लगातार निगरानी करने का सुझाव दिया जाता है. इसके लिए, आकलन के मेट्रिक और मैन्युअल तरीके से समीक्षा का इस्तेमाल करें. साथ ही, पूर्वाग्रहों को कम करने की तकनीकों का पता लगाएं.

फ़ायदे

रिलीज़ के समय, मॉडल के इस फ़ैमिली में बेहतर परफ़ॉर्मेंस वाले ओपन विज़न-लैंग्वेज मॉडल उपलब्ध हैं. इन्हें ज़िम्मेदारी के साथ एआई को डेवलप करने के लिए, शुरू से डिज़ाइन किया गया है. ये मॉडल, मिलते-जुलते साइज़ वाले मॉडल की तुलना में बेहतर हैं.