کارت مدل جما 3

صفحه مدل : جما

منابع و مستندات فنی :

شرایط استفاده : شرایط

نویسنده : Google DeepMind

اطلاعات مدل

شرح خلاصه و تعریف مختصر ورودی ها و خروجی ها.

توضیحات

Gemma خانواده ای از مدل های باز سبک وزن و پیشرفته از Google است که از همان تحقیقات و فناوری استفاده شده برای ایجاد مدل های Gemini ساخته شده است. مدل‌های Gemma 3 چند وجهی هستند، ورودی متن و تصویر را مدیریت می‌کنند و خروجی متن را تولید می‌کنند، با وزن‌های باز هم برای انواع از پیش آموزش‌دیده و هم برای انواع تنظیم‌شده دستورالعمل. Gemma 3 دارای یک پنجره زمینه بزرگ، 128K، پشتیبانی چند زبانه به بیش از 140 زبان است و در اندازه های بیشتری نسبت به نسخه های قبلی موجود است. مدل‌های Gemma 3 برای انواع کارهای تولید متن و درک تصویر، از جمله پاسخ‌گویی به سؤال، خلاصه‌سازی و استدلال مناسب هستند. اندازه نسبتا کوچک آنها امکان استقرار آنها را در محیط‌هایی با منابع محدود مانند لپ‌تاپ، دسک‌تاپ یا زیرساخت‌های ابری خود، دموکراتیک کردن دسترسی به مدل‌های پیشرفته هوش مصنوعی و کمک به تقویت نوآوری برای همه فراهم می‌کند.

ورودی ها و خروجی ها

  • ورودی:

    • رشته متنی، مانند سؤال، درخواست یا سندی که باید خلاصه شود
    • تصاویر با وضوح 896×896 نرمال شده و هر کدام به 256 توکن کدگذاری شده اند.
    • کل زمینه ورودی 128 هزار توکن برای اندازه‌های 4B، 12B و 27B، و 32 هزار توکن برای اندازه 1B
  • خروجی:

    • متن تولید شده در پاسخ به ورودی، مانند پاسخ به یک سوال، تجزیه و تحلیل محتوای تصویر، یا خلاصه ای از یک سند
    • کل زمینه خروجی تا 128 هزار توکن برای اندازه‌های 4B، 12B، و 27B، و 32 هزار توکن برای اندازه 1B در هر درخواست، کم کردن نشانه‌های ورودی درخواست

نقل قول

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

داده های مدل

داده های مورد استفاده برای آموزش مدل و نحوه پردازش داده ها.

مجموعه داده های آموزشی

این مدل ها بر روی مجموعه داده ای از داده های متنی که شامل منابع بسیار متنوعی است، آموزش داده شدند. مدل 27B با 14 تریلیون توکن، مدل 12B با 12 تریلیون توکن، مدل 4B با 4 تریلیون توکن و 1B با 2 تریلیون توکن آموزش داده شد. تاریخ قطع دانش برای داده های آموزشی آگوست 2024 بود. در اینجا مولفه های کلیدی آمده است:

  • اسناد وب: مجموعه ای متنوع از متن وب تضمین می کند که مدل در معرض طیف گسترده ای از سبک ها، موضوعات و واژگان زبانی قرار می گیرد. مجموعه داده آموزشی شامل محتوا به بیش از 140 زبان است.
  • کد: قرار دادن مدل در معرض کد به آن کمک می کند تا نحو و الگوهای زبان های برنامه نویسی را بیاموزد، که توانایی آن را برای تولید کد و درک سوالات مربوط به کد بهبود می بخشد.
  • ریاضیات: آموزش متن ریاضی به مدل کمک می کند تا استدلال منطقی، نمایش نمادین و پاسخگویی به پرسش های ریاضی را بیاموزد.
  • تصاویر: طیف گسترده ای از تصاویر مدل را قادر می سازد تا تجزیه و تحلیل تصویر و وظایف استخراج داده های بصری را انجام دهد.

ترکیبی از این منابع داده متنوع برای آموزش یک مدل چندوجهی قدرتمند که می تواند طیف گسترده ای از وظایف مختلف و قالب های داده را مدیریت کند، بسیار مهم است.

پیش پردازش داده ها

در اینجا روش های کلیدی تمیز کردن و فیلتر کردن داده ها برای داده های آموزشی اعمال می شود:

  • فیلتر CSAM: فیلتر شدید CSAM (مواد آزار جنسی کودکان) در مراحل مختلف در فرآیند آماده‌سازی داده‌ها اعمال شد تا از حذف محتوای مضر و غیرقانونی اطمینان حاصل شود.
  • فیلتر داده های حساس: به عنوان بخشی از ایمن و قابل اعتماد ساختن مدل های از پیش آموزش دیده Gemma، از تکنیک های خودکار برای فیلتر کردن اطلاعات شخصی خاص و سایر داده های حساس از مجموعه های آموزشی استفاده شد.
  • روش‌های اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خط‌مشی‌های ما .

اطلاعات پیاده سازی

جزئیات در مورد قطعات داخلی مدل

سخت افزار

جما با استفاده از سخت افزار واحد پردازش تنسور (TPU) (TPUv4p، TPUv5p و TPUv5e) آموزش داده شد. آموزش مدل های زبان بینایی (VLMS) به قدرت محاسباتی قابل توجهی نیاز دارد. TPU ها که به طور خاص برای عملیات ماتریسی رایج در یادگیری ماشین طراحی شده اند، چندین مزیت در این حوزه دارند:

  • عملکرد: TPU ها به طور خاص برای انجام محاسبات عظیم درگیر در آموزش VLM طراحی شده اند. آنها می توانند سرعت آموزش را در مقایسه با CPU ها به میزان قابل توجهی افزایش دهند.
  • حافظه: TPU ها اغلب دارای مقدار زیادی حافظه با پهنای باند بالا هستند که امکان مدیریت مدل های بزرگ و اندازه های دسته ای را در طول آموزش فراهم می کند. این می تواند منجر به کیفیت بهتر مدل شود.
  • مقیاس پذیری: TPU Pods (خوشه های بزرگ TPU) راه حلی مقیاس پذیر برای مدیریت پیچیدگی فزاینده مدل های پایه بزرگ ارائه می دهد. برای پردازش سریعتر و کارآمدتر می توانید آموزش را در چندین دستگاه TPU توزیع کنید.
  • مقرون به صرفه بودن: در بسیاری از سناریوها، TPU ها می توانند راه حل مقرون به صرفه تری برای آموزش مدل های بزرگ در مقایسه با زیرساخت های مبتنی بر CPU ارائه دهند، به ویژه زمانی که زمان و منابع صرفه جویی شده به دلیل آموزش سریعتر در نظر گرفته شود.
  • این مزایا با تعهدات Google برای عملکرد پایدار مطابقت دارد.

نرم افزار

آموزش با استفاده از مسیرهای JAX و ML انجام شد.

JAX به محققان این امکان را می دهد که از آخرین نسل سخت افزار از جمله TPU ها برای آموزش سریع تر و کارآمدتر مدل های بزرگ استفاده کنند. ML Pathways آخرین تلاش گوگل برای ساخت سیستم‌های هوشمند مصنوعی است که قادر به تعمیم وظایف متعدد هستند. این به ویژه برای مدل های پایه، از جمله مدل های زبان بزرگ مانند این ها، مناسب است.

با هم، مسیرهای JAX و ML همانطور که در مقاله درباره مدل‌های خانواده جمینی توضیح داده شد، استفاده می‌شوند. "مدل برنامه نویسی "کنترل کننده واحد" Jax و Pathways به یک فرآیند پایتون اجازه می دهد تا کل دوره آموزشی را هماهنگ کند و گردش کار توسعه را به طور چشمگیری ساده کند.

ارزیابی

معیارها و نتایج ارزیابی مدل

نتایج محک

این مدل ها در برابر مجموعه بزرگی از مجموعه داده ها و معیارهای مختلف برای پوشش جنبه های مختلف تولید متن مورد ارزیابی قرار گرفتند. نتایج ارزیابی که با IT مشخص شده اند برای مدل های تنظیم شده دستورالعمل هستند. نتایج ارزیابی که با PT مشخص شده اند برای مدل های از پیش آموزش دیده هستند.

استدلال و واقعیت

معیار n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
الماس GPQA 0-شات 19.2 30.8 40.9 42.4
SimpleQA 0-شات 2.2 4.0 6.3 10.0
حقایق زمینه سازی - 36.4 70.1 75.8 74.9
BIG-Bench Hard 0-شات 39.1 72.2 85.7 87.6
BIG-Bench Extra Hard 0-شات 7.2 11.0 16.3 19.3
IFEval 0-شات 80.2 90.2 88.9 90.4
معیار n-shot Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
هلاسواگ 10-شات 62.3 77.2 84.2 85.6
BoolQ 0-شات 63.2 72.3 78.8 82.4
PIQA 0-شات 73.8 79.6 81.8 83.3
SocialIQA 0-شات 48.9 51.9 53.4 54.9
TriviaQA 5-شات 39.8 65.8 78.2 85.5
سوالات طبیعی 5-شات 9.48 20.0 31.4 36.1
ARC-c 25-شات 38.4 56.2 68.9 70.6
ARC-e 0-شات 73.0 82.4 88.3 89.0
وینو گراند 5-شات 58.2 64.7 74.3 78.8
BIG-Bench Hard چند شات 28.4 50.9 72.6 77.7
رها کردن 1-شات 42.4 60.1 72.2 77.2

STEM و کد

معیار n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMLU (Pro) 0-شات 14.7 43.6 60.6 67.5
LiveCodeBench 0-شات 1.9 12.6 24.6 29.7
Bird-SQL (dev) - 6.4 36.3 47.9 54.4
ریاضی 0-شات 48.0 75.6 83.8 89.0
ریاضی پنهان 0-شات 15.8 43.0 54.5 60.3
MBPP 3-شات 35.2 63.2 73.0 74.4
HumanEval 0-شات 41.5 71.3 85.4 87.8
Natural2Code 0-شات 56.0 70.3 80.7 84.5
GSM8K 0-شات 62.8 89.2 94.4 95.9
معیار n-shot Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5-شات 59.6 74.5 78.6
MMLU (Pro COT) 5-شات 29.2 45.3 52.2
AGIEval 3-5-شات 42.1 57.4 66.2
ریاضی 4-شات 24.2 43.3 50.0
GSM8K 8-شات 38.4 71.0 82.6
GPQA 5-شات 15.0 25.4 24.3
MBPP 3-شات 46.0 60.4 65.6
HumanEval 0-شات 36.0 45.7 48.8

چند زبانه

معیار n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
Global-MMLU-Lite 0-شات 34.2 54.5 69.5 75.1
ELeKTic 0-شات 1.4 4.6 10.3 16.7
WMT24++ 0-شات 35.9 46.8 51.6 53.4
معیار Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2.04 34.7 64.3 74.3
Global-MMLU-Lite 24.9 57.0 69.4 75.7
WMT24++ (ChrF) 36.7 48.4 53.9 55.7
فلورس 29.5 39.2 46.0 48.8
XQuAD (همه) 43.9 68.0 74.5 76.8
ELeKTic 4.69 11.0 17.2 24.4
IndicGenBench 41.4 57.2 61.7 63.4

چند وجهی

معیار Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMMU (val) 48.8 59.6 64.9
DocVQA 75.8 87.1 86.6
InfoVQA 50.0 64.9 70.6
TextVQA 57.8 67.7 65.1
AI2D 74.8 84.2 84.5
ChartQA 68.8 75.7 78.0
VQAv2 (val) 62.4 71.6 71.0
MathVista (testmini) 50.0 62.9 67.6
معیار Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72.8 82.3 85.6
InfoVQA (val) 44.1 54.8 59.4
MMMU (pt) 39.2 50.3 56.1
TextVQA (val) 58.9 66.5 68.6
RealWorldQA 45.5 52.2 53.9
ReMI 27.3 38.5 44.8
AI2D 63.2 75.2 79.0
ChartQA 63.6 74.7 76.3
VQAv2 63.9 71.2 72.9
BLINK 38.0 35.9 39.6
OKVQA 51.0 58.7 60.2
TallyQA 42.5 51.8 54.3
SpatialSense VQA 50.9 60.0 59.4
CountBenchQA 26.1 17.8 68.0

اخلاق و ایمنی

رویکرد و نتایج ارزیابی اخلاق و ایمنی.

رویکرد ارزشیابی

روش‌های ارزیابی ما شامل ارزیابی‌های ساختاریافته و آزمایش‌های داخلی قرمز از خط‌مشی‌های محتوای مرتبط است. Red-teaming توسط تعدادی تیم مختلف انجام شد که هر کدام اهداف و معیارهای ارزیابی انسانی متفاوتی داشتند. این مدل ها بر اساس تعدادی از مقوله های مختلف مرتبط با اخلاق و ایمنی مورد ارزیابی قرار گرفتند، از جمله:

  • ایمنی کودک : ارزیابی متن به متن و تصویر به متن باعث می شود که خط مشی های ایمنی کودک، از جمله سوء استفاده و بهره کشی جنسی از کودکان را پوشش دهد.
  • ایمنی محتوا: ارزیابی تبدیل متن به متن و تصویر به متن، خط مشی‌های ایمنی از جمله آزار و اذیت، خشونت و آزار و اذیت، و سخنان مشوق تنفر را پوشش می‌دهد.
  • مضرات بازنمایی : ارزیابی متن به متن و تصویر به متن باعث می‌شود که سیاست‌های ایمنی از جمله سوگیری، کلیشه‌سازی و تداعی‌ها یا نادرستی‌های مضر را پوشش دهد.

علاوه بر ارزیابی‌های سطح توسعه، ما «ارزیابی‌های اطمینان» را انجام می‌دهیم که ارزیابی‌های داخلی ما برای تصمیم‌گیری حاکمیت مسئولیت است. آنها به طور جداگانه از تیم توسعه مدل انجام می شوند تا تصمیم گیری در مورد انتشار را مطلع کنند. یافته‌های سطح بالا به تیم مدل بازخورد داده می‌شود، اما مجموعه‌های سریع برای جلوگیری از تطبیق بیش از حد و حفظ توانایی نتایج برای اطلاع‌رسانی تصمیم‌گیری انجام می‌شوند. نتایج ارزیابی اطمینان به عنوان بخشی از بررسی انتشار به شورای مسئولیت و ایمنی ما گزارش می شود.

نتایج ارزیابی

برای همه حوزه‌های تست ایمنی، شاهد پیشرفت‌های عمده در مقوله‌های ایمنی کودک، ایمنی محتوا، و آسیب‌های نمایشی نسبت به مدل‌های قبلی Gemma بودیم. تمام آزمایش‌ها بدون فیلترهای ایمنی برای ارزیابی قابلیت‌ها و رفتارهای مدل انجام شد. هم برای متن به متن و هم برای تصویر به متن، و در همه اندازه‌های مدل، این مدل کمترین نقض خط‌مشی را ایجاد کرد و نسبت به عملکرد مدل‌های Gemma قبلی با توجه به استنتاج‌های بی‌پایه بهبودهای قابل‌توجهی را نشان داد. یکی از محدودیت‌های ارزیابی‌های ما این بود که آنها فقط درخواست‌های زبان انگلیسی را شامل می‌شدند.

استفاده و محدودیت ها

این مدل ها محدودیت های خاصی دارند که کاربران باید از آن ها آگاه باشند.

استفاده در نظر گرفته شده

مدل‌های مدل‌های زبان بینایی باز (VLM) طیف گسترده‌ای از کاربردها در صنایع و حوزه‌های مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند.

  • ایجاد محتوا و ارتباطات
    • تولید متن: از این مدل ها می توان برای تولید قالب های متن خلاقانه مانند شعر، اسکریپت، کد، کپی بازاریابی و پیش نویس ایمیل استفاده کرد.
    • ربات‌های چت و هوش مصنوعی مکالمه‌ای: رابط‌های مکالمه قدرتمند برای خدمات مشتری، دستیاران مجازی یا برنامه‌های تعاملی.
    • خلاصه سازی متن: خلاصه های مختصری از مجموعه متن، مقالات پژوهشی یا گزارش ها ایجاد کنید.
    • استخراج داده های تصویری: از این مدل ها می توان برای استخراج، تفسیر و خلاصه کردن داده های بصری برای ارتباطات متنی استفاده کرد.
  • تحقیق و آموزش
    • پردازش زبان طبیعی (NLP) و تحقیقات VLM: این مدل‌ها می‌توانند به عنوان پایه‌ای برای محققان برای آزمایش تکنیک‌های VLM و NLP، توسعه الگوریتم‌ها و کمک به پیشرفت این حوزه عمل کنند.
    • ابزارهای یادگیری زبان: از تجربیات یادگیری زبان تعاملی پشتیبانی می کند، به تصحیح دستور زبان یا ارائه تمرین نوشتن کمک می کند.
    • کاوش دانش: به محققان در کاوش متن بزرگ با تولید خلاصه یا پاسخ دادن به سؤالاتی در مورد موضوعات خاص کمک کنید.

محدودیت ها

  • داده های آموزشی
    • کیفیت و تنوع داده های آموزشی به طور قابل توجهی بر قابلیت های مدل تأثیر می گذارد. سوگیری یا شکاف در داده های آموزشی می تواند منجر به محدودیت در پاسخ های مدل شود.
    • دامنه مجموعه داده آموزشی حوزه های موضوعی را مشخص می کند که مدل می تواند به طور موثر اداره کند.
  • بافت و پیچیدگی کار
    • مدل‌ها در کارهایی که می‌توانند با اعلان‌ها و دستورالعمل‌های واضح قاب شوند، بهتر عمل می‌کنند. کارهای باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
    • عملکرد یک مدل می تواند تحت تأثیر مقدار زمینه ارائه شده قرار گیرد (زمینه طولانی تر به طور کلی منجر به خروجی های بهتر، تا یک نقطه خاص می شود).
  • ابهام زبان و تفاوت های ظریف
    • زبان طبیعی ذاتاً پیچیده است. مدل ها ممکن است برای درک نکات ظریف ظریف، طعنه یا زبان مجازی تلاش کنند.
  • دقت واقعی
    • مدل‌ها بر اساس اطلاعاتی که از مجموعه داده‌های آموزشی خود آموخته‌اند، پاسخ‌ها را تولید می‌کنند، اما پایگاه‌های دانش نیستند. آنها ممکن است اظهارات واقعی نادرست یا قدیمی ایجاد کنند.
  • عقل سلیم
    • مدل ها بر الگوهای آماری در زبان تکیه دارند. آنها ممکن است توانایی اعمال استدلال عقل سلیم را در موقعیت های خاص نداشته باشند.

ملاحظات اخلاقی و خطرات

توسعه مدل‌های زبان بینایی (VLMs) چندین نگرانی اخلاقی را ایجاد می‌کند. در ایجاد یک مدل باز، موارد زیر را به دقت در نظر گرفته ایم:

  • تعصب و انصاف
    • VLM های آموزش داده شده بر روی داده های متنی و تصویری در مقیاس بزرگ، می توانند سوگیری های فرهنگی-اجتماعی موجود در مطالب آموزشی را منعکس کنند. این مدل‌ها تحت بررسی دقیق قرار گرفتند، پیش پردازش داده‌های ورودی شرح داده شد و ارزیابی‌های بعدی در این کارت گزارش شد.
  • اطلاعات نادرست و سوء استفاده
    • VLM ها می توانند برای تولید متن نادرست، گمراه کننده یا مضر مورد استفاده قرار گیرند.
    • دستورالعمل هایی برای استفاده مسئولانه با مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئول مراجعه کنید.
  • شفافیت و پاسخگویی:
    • این کارت مدل جزئیات معماری، قابلیت‌ها، محدودیت‌ها و فرآیندهای ارزیابی مدل‌ها را خلاصه می‌کند.
    • یک مدل باز توسعه یافته مسئولانه، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعه دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی ارائه می دهد.

خطرات شناسایی شده و اقدامات کاهشی:

  • تداوم سوگیری ها : انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
  • تولید محتوای مضر : مکانیسم ها و دستورالعمل هایی برای ایمنی محتوا ضروری است. توسعه‌دهندگان تشویق می‌شوند احتیاط کنند و بر اساس خط‌مشی‌های خاص محصول و موارد استفاده از برنامه، پادمان‌های ایمنی محتوای مناسب را اجرا کنند.
  • استفاده نادرست برای اهداف مخرب : محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب VLM کمک کند. منابع آموزشی و مکانیسم‌های گزارش‌دهی برای کاربران برای پرچم‌گذاری سوءاستفاده ارائه شده است. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
  • نقض حریم خصوصی : مدل ها بر روی داده های فیلتر شده برای حذف برخی از اطلاعات شخصی و سایر داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.

مزایا

در زمان عرضه، این خانواده از مدل‌ها، پیاده‌سازی‌های مدل زبان بینایی باز با کارایی بالا را ارائه می‌کنند که از ابتدا برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدل‌های با اندازه مشابه طراحی شده‌اند.

با استفاده از معیارهای ارزیابی معیار توصیف شده در این سند، این مدل‌ها نشان داده‌اند که عملکرد برتری نسبت به سایر جایگزین‌های مدل باز با اندازه قابل مقایسه ارائه می‌دهند.