جما ۴ با ورودی متن، صدا و تصویر و پنجره متنی با ظرفیت تا ۲۵۶ هزار دلار منتشر شد! اطلاعات بیشتر

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

کارت مدل Gemma 4

بنر جما ۴

چهره در آغوش گرفته | گیت‌هاب | وبلاگ راه‌اندازی | مستندات
مجوز : آپاچی ۲.۰ | نویسندگان : گوگل دیپ‌مایند

Gemma خانواده‌ای از مدل‌های باز است که توسط Google DeepMind ساخته شده است. مدل‌های Gemma 4 چندوجهی هستند، ورودی متن و تصویر (با پشتیبانی صدا در مدل‌های کوچک) را مدیریت می‌کنند و خروجی متن تولید می‌کنند. این نسخه شامل مدل‌های با وزن باز در هر دو نوع از پیش آموزش دیده و تنظیم شده با دستورالعمل است. Gemma 4 دارای یک پنجره زمینه با حداکثر ۲۵۶ هزار توکن است و پشتیبانی چندزبانه را در بیش از ۱۴۰ زبان حفظ می‌کند.

Gemma 4 با دارا بودن معماری‌های Dense و Mixture-of-Experts (MoE)، برای کارهایی مانند تولید متن، کدنویسی و استدلال بسیار مناسب است. این مدل‌ها در چهار اندازه مجزا موجود هستند: E2B ، E4B ، 26B A4B و 31B . اندازه‌های متنوع آنها، آنها را در محیط‌هایی از تلفن‌های رده بالا گرفته تا لپ‌تاپ‌ها و سرورها قابل استفاده می‌کند و دسترسی به هوش مصنوعی پیشرفته را دموکراتیک می‌کند.

Gemma 4 قابلیت‌های کلیدی و پیشرفت‌های معماری را معرفی می‌کند:

استدلال - همه مدل‌های این خانواده به عنوان استدلال‌کنندگان بسیار توانمند، با حالت‌های تفکر قابل تنظیم طراحی شده‌اند.
چندوجهی‌های توسعه‌یافته - متن، تصویر با نسبت ابعاد و وضوح متغیر (همه مدل‌ها)، ویدیو و صدا (که به صورت بومی در مدل‌های E2B و E4B ارائه شده است) را پردازش می‌کند.
معماری‌های متنوع و کارآمد - انواع متراکم و ترکیبی از متخصصان (MoE) را در اندازه‌های مختلف برای استقرار مقیاس‌پذیر ارائه می‌دهد.
بهینه شده برای اجرا روی دستگاه - مدل‌های کوچکتر به طور خاص برای اجرای محلی کارآمد روی لپ‌تاپ‌ها و دستگاه‌های تلفن همراه طراحی شده‌اند.
پنجره زمینه افزایش یافته - مدل‌های کوچک دارای یک پنجره زمینه ۱۲۸ کیلوبایتی هستند، در حالی که مدل‌های متوسط از ۲۵۶ کیلوبایت پشتیبانی می‌کنند.
قابلیت‌های کدنویسی و عامل‌محور بهبود یافته - در کنار پشتیبانی از فراخوانی توابع بومی، به پیشرفت‌های قابل توجهی در معیارهای کدنویسی دست می‌یابد و عامل‌های خودمختار بسیار توانمندی را توانمند می‌سازد.
پشتیبانی بومی سیستم – Gemma 4 پشتیبانی بومی برای نقش system را ارائه می‌دهد و مکالمات ساختاریافته‌تر و قابل کنترل‌تری را امکان‌پذیر می‌کند.

نمای کلی مدل‌ها

مدل‌های Gemma 4 برای ارائه عملکرد سطح بالا در هر اندازه طراحی شده‌اند و سناریوهای استقرار را از دستگاه‌های تلفن همراه و لبه (E2B، E4B) گرفته تا پردازنده‌های گرافیکی و ایستگاه‌های کاری مصرفی (26B A4B، 31B) هدف قرار می‌دهند. آن‌ها برای استدلال، گردش‌های کاری عاملی، کدنویسی و درک چندوجهی بسیار مناسب هستند.

این مدل‌ها از یک مکانیسم توجه ترکیبی استفاده می‌کنند که توجه پنجره کشویی محلی را با توجه کامل سراسری در هم می‌آمیزد و تضمین می‌کند که لایه نهایی همیشه سراسری است. این طراحی ترکیبی، سرعت پردازش و اشغال فضای کم حافظه یک مدل سبک را بدون از دست دادن آگاهی عمیق مورد نیاز برای وظایف پیچیده و طولانی مدت ارائه می‌دهد. برای بهینه‌سازی حافظه برای زمینه‌های طولانی، لایه‌های سراسری دارای کلیدها و مقادیر یکپارچه هستند و RoPE متناسب (p-RoPE) را اعمال می‌کنند.

مدل‌های متراکم

ملک	E2B	E4B	31B متراکم
پارامترهای کل	۲.۳ میلیارد دلار موثر (۵.۱ میلیارد دلار با احتساب جاسازی‌ها)	۴.۵B مؤثر (۸B با جاسازی‌ها)	۳۰.۷ب
لایه‌ها	۳۵	۴۲	۶۰
پنجره کشویی	۵۱۲ توکن	۵۱۲ توکن	۱۰۲۴ توکن
طول متن	۱۲۸ هزار توکن	۱۲۸ هزار توکن	۲۵۶ هزار توکن
اندازه واژگان	۲۶۲ کیلوبایت	۲۶۲ کیلوبایت	۲۶۲ کیلوبایت
روش‌های پشتیبانی‌شده	متن، تصویر، صدا	متن، تصویر، صدا	متن، تصویر
پارامترهای انکودر ویژن	حدود ۱۵۰ میلیون	حدود ۱۵۰ میلیون	حدود ۵۵۰ میلیون
پارامترهای رمزگذار صوتی	حدود ۳۰۰ میلیون	حدود ۳۰۰ میلیون	بدون صدا

حرف «E» در E2B و E4B مخفف پارامترهای «موثر» است. مدل‌های کوچک‌تر، جاسازی‌های هر لایه (PLE) را برای به حداکثر رساندن کارایی پارامترها در پیاده‌سازی‌های روی دستگاه، در خود جای می‌دهند. PLE به جای اضافه کردن لایه‌ها یا پارامترهای بیشتر به مدل، به هر لایه رمزگشا، جاسازی کوچک مخصوص به خود را برای هر توکن می‌دهد. این جداول جاسازی بزرگ هستند اما فقط برای جستجوی سریع استفاده می‌شوند، به همین دلیل تعداد پارامترهای موثر بسیار کمتر از کل است.

مدل ترکیبی از متخصصان (MoE)

ملک	26B A4B وزارت آموزش و پرورش
پارامترهای کل	۲۵.۲ب
پارامترهای فعال	۳.۸ب
لایه‌ها	۳۰
پنجره کشویی	۱۰۲۴ توکن
طول متن	۲۵۶ هزار توکن
اندازه واژگان	۲۶۲ کیلوبایت
تعداد متخصصان	۸ فعال / ۱۲۸ در مجموع و ۱ به اشتراک گذاشته شده
روش‌های پشتیبانی‌شده	متن، تصویر
پارامترهای انکودر ویژن	حدود ۵۵۰ میلیون

حرف "A" در 26B A4B مخفف "پارامترهای فعال" است، در مقایسه با تعداد کل پارامترهایی که مدل شامل می‌شود. با فعال کردن تنها یک زیرمجموعه 4B از پارامترها در طول استنتاج، مدل Mixture-of-Experts بسیار سریع‌تر از آنچه که مجموع 26B آن نشان می‌دهد، اجرا می‌شود. این امر آن را به انتخابی عالی برای استنتاج سریع در مقایسه با مدل متراکم 31B تبدیل می‌کند، زیرا تقریباً به سرعت یک مدل 4B-parameter اجرا می‌شود.

نتایج بنچمارک

این مدل‌ها در برابر مجموعه‌ای بزرگ از مجموعه داده‌ها و معیارهای مختلف ارزیابی شدند تا جنبه‌های مختلف تولید متن را پوشش دهند. نتایج ارزیابی مشخص شده در جدول برای مدل‌های تنظیم‌شده با دستورالعمل هستند.

	جما ۴ ۳۱ب	جما ۴ ۲۶ب A4ب	جما ۴ E4B	جما ۴ E2B	جما ۳ ۲۷ب (بدون فکر)
MMLU Pro	۸۵.۲٪	۸۲.۶٪	۶۹.۴٪	۶۰.۰٪	۶۷.۶٪
AIME 2026 بدون ابزار	۸۹.۲٪	۸۸.۳٪	۴۲.۵٪	۳۷.۵٪	۲۰.۸٪
لایو کد بنچ نسخه ۶	۸۰.۰٪	۷۷.۱٪	۵۲.۰٪	۴۴.۰٪	۲۹.۱٪
کدفورسز ELO	۲۱۵۰	۱۷۱۸	۹۴۰	۶۳۳	۱۱۰
الماس GPQA	۸۴.۳٪	۸۲.۳٪	۵۸.۶٪	۴۳.۴٪	۴۲.۴٪
Tau2 (میانگین بالای ۳)	۷۶.۹٪	۶۸.۲٪	۴۲.۲٪	۲۴.۵٪	۱۶.۲٪
HLE بدون ابزار	۱۹.۵٪	۸.۷٪	-	-	-
HLE با جستجو	۲۶.۵٪	۱۷.۲٪	-	-	-
بیگ بنچ فوق العاده سخت	۷۴.۴٪	۶۴.۸٪	۳۳.۱٪	۲۱.۹٪	۱۹.۳٪
MMMLU	۸۸.۴٪	۸۶.۳٪	۷۶.۶٪	۶۷.۴٪	۷۰.۷٪
چشم انداز
MMMU پرو	۷۶.۹٪	۷۳.۸٪	۵۲.۶٪	۴۴.۲٪	۴۹.۷٪
OmniDocBench 1.5 (میانگین فاصله ویرایش، هر چه کمتر بهتر)	۰.۱۳۱	۰.۱۴۹	۰.۱۸۱	۰.۲۹۰	۰.۳۶۵
MATH-Vision	۸۵.۶٪	۸۲.۴٪	۵۹.۵٪	۵۲.۴٪	۴۶.۰٪
MedXPertQA MM	۶۱.۳٪	۵۸.۱٪	۲۸.۷٪	۲۳.۵٪	-
صوتی
کوواست	-	-	۳۵.۵۴	۳۳.۴۷	-
فلورس (هرچه کمتر بهتر)	-	-	۰.۰۸	۰.۰۹	-
متن طولانی
سوزن MRCR v2 8، 128k (میانگین)	۶۶.۴٪	۴۴.۱٪	۲۵.۴٪	۱۹.۱٪	۱۳.۵٪

قابلیت‌های اصلی

مدل‌های Gemma 4 طیف گسترده‌ای از وظایف را در زمینه متن، تصویر و صدا انجام می‌دهند. قابلیت‌های کلیدی عبارتند از:

تفکر - حالت استدلال داخلی که به مدل اجازه می‌دهد قبل از پاسخ دادن، گام به گام فکر کند.
متن طولانی – پنجره‌های متن تا ۱۲۸ هزار توکن (E2B/E4B) و ۲۵۶ هزار توکن (۲۶B A4B/31B).
درک تصویر - تشخیص اشیاء، تجزیه سند/PDF، درک صفحه نمایش و رابط کاربری، درک نمودار، OCR (شامل چندزبانه)، تشخیص دستخط و اشاره‌گر. تصاویر را می‌توان با نسبت‌های ابعاد و وضوح متغیر پردازش کرد.
درک ویدیو - تجزیه و تحلیل ویدیو با پردازش توالی فریم‌ها.
ورودی چندوجهی درهم‌تنیده - متن و تصاویر را به هر ترتیبی در یک اعلان واحد، آزادانه ترکیب کنید.
فراخوانی تابع - پشتیبانی بومی برای استفاده ساختاریافته از ابزار، که گردش‌های کاری عامل‌محور را فعال می‌کند.
کدنویسی - تولید، تکمیل و اصلاح کد.
چندزبانه - پشتیبانی پیش‌فرض از بیش از ۳۵ زبان، از پیش آموزش‌دیده روی بیش از ۱۴۰ زبان.
صدا (فقط E2B و E4B) – تشخیص خودکار گفتار (ASR) و ترجمه گفتار به متن ترجمه شده در چندین زبان.

شروع کار

شما می‌توانید از تمام مدل‌های Gemma 4 با آخرین نسخه Transformers استفاده کنید. برای شروع، وابستگی‌های لازم را در محیط خود نصب کنید:

pip install -U transformers torch accelerate

وقتی همه چیز را نصب کردید، می‌توانید مدل را با کد زیر بارگذاری کنید:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

پس از بارگذاری مدل، می‌توانید تولید خروجی را شروع کنید:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

برای فعال کردن استدلال، enable_thinking=True را تنظیم کنید و تابع parse_response وظیفه تجزیه خروجی تفکر را بر عهده خواهد گرفت.

بهترین شیوه‌ها

برای بهترین عملکرد، از این تنظیمات و بهترین شیوه‌ها استفاده کنید:

۱. پارامترهای نمونه‌برداری

از پیکربندی نمونه‌گیری استاندارد زیر در تمام موارد استفاده استفاده کنید:

temperature=1.0
top_p=0.95
top_k=64

۲. پیکربندی حالت تفکر

در مقایسه با Gemma 3، این مدل‌ها از نقش‌های استاندارد system ، assistant و user استفاده می‌کنند. برای مدیریت صحیح فرآیند تفکر، از توکن‌های کنترلی زیر استفاده کنید:

فعال کردن تفکر: تفکر با قرار دادن توکن <|think|> در ابتدای اعلان سیستم فعال می‌شود. برای غیرفعال کردن تفکر، توکن را حذف کنید.
تولید استاندارد: وقتی تفکر فعال باشد، مدل استدلال درونی خود و به دنبال آن پاسخ نهایی را با استفاده از این ساختار ارائه می‌دهد: <|channel>thought\n [استدلال درونی] <channel|>
رفتار تفکر غیرفعال: برای همه مدل‌ها به جز انواع E2B و E4B، اگر تفکر غیرفعال باشد، مدل همچنان برچسب‌ها را تولید می‌کند اما با یک بلوک فکری خالی: <|channel>thought\n<channel|> [پاسخ نهایی]

توجه داشته باشید که بسیاری از کتابخانه‌ها مانند Transformers و llama.cpp پیچیدگی‌های قالب چت را برای شما مدیریت می‌کنند.

۳. مکالمات چند نوبتی

عدم وجود محتوای تفکر در تاریخچه : در مکالمات چند نوبتی، خروجی مدل تاریخی فقط باید شامل پاسخ نهایی باشد. افکار نوبت‌های مدل قبلی نباید قبل از شروع نوبت بعدی کاربر اضافه شوند .

۴. ترتیب روش

برای عملکرد بهینه با ورودی‌های چندوجهی، تصویر و/یا محتوای صوتی را قبل از متن در اعلان خود قرار دهید.

۵. وضوح تصویر متغیر

گذشته از نسبت‌های ابعاد متغیر، Gemma 4 از طریق یک بودجه توکن بصری قابل تنظیم، از وضوح تصویر متغیر پشتیبانی می‌کند که تعداد توکن‌های مورد استفاده برای نمایش یک تصویر را کنترل می‌کند. بودجه توکن بالاتر، جزئیات بصری بیشتری را با هزینه محاسبات اضافی حفظ می‌کند، در حالی که بودجه پایین‌تر، استنتاج سریع‌تر را برای وظایفی که نیازی به درک دقیق ندارند، امکان‌پذیر می‌سازد.

بودجه‌های توکن پشتیبانی‌شده عبارتند از: ۷۰ ، ۱۴۰ ، ۲۸۰ ، ۵۶۰ و ۱۱۲۰ .
- از بودجه‌های پایین‌تر برای طبقه‌بندی، زیرنویس‌گذاری یا درک ویدیو استفاده کنید، جایی که استنتاج و پردازش سریع‌تر فریم‌های زیاد بر جزئیات دقیق‌تر غلبه می‌کند.
- برای کارهایی مانند OCR، تجزیه اسناد یا خواندن متن‌های کوچک، از بودجه‌های بالاتر استفاده کنید.

۶. صدا

برای پردازش صدا از ساختارهای دستوری زیر استفاده کنید:

تشخیص گفتار صوتی (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

ترجمه خودکار گفتار (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

۷. مدت زمان صدا و تصویر

همه مدل‌ها از ورودی‌های تصویر پشتیبانی می‌کنند و می‌توانند ویدیوها را به صورت فریم پردازش کنند، در حالی که مدل‌های E2B و E4B از ورودی‌های صدا نیز پشتیبانی می‌کنند. صدا حداکثر 30 ثانیه و ویدیو حداکثر 60 ثانیه را پشتیبانی می‌کند، با فرض اینکه تصاویر با سرعت یک فریم در ثانیه پردازش شوند.

داده‌های مدل

داده‌های مورد استفاده برای آموزش مدل و نحوه پردازش داده‌ها.

مجموعه داده‌های آموزشی

مجموعه داده‌های پیش‌آموزش ما، مجموعه‌ای متنوع و در مقیاس بزرگ از داده‌ها است که طیف وسیعی از حوزه‌ها و روش‌ها را شامل می‌شود و شامل اسناد وب، کد، تصاویر، صدا و تاریخ انقضای ژانویه ۲۰۲۵ می‌شود. اجزای کلیدی عبارتند از:

اسناد وب : مجموعه‌ای متنوع از متون وب تضمین می‌کند که مدل در معرض طیف گسترده‌ای از سبک‌های زبانی، موضوعات و واژگان قرار می‌گیرد. مجموعه داده‌های آموزشی شامل محتوا در بیش از ۱۴۰ زبان است.
کد : قرار دادن مدل در معرض کد به آن کمک می‌کند تا سینتکس و الگوهای زبان‌های برنامه‌نویسی را یاد بگیرد، که این امر توانایی آن را در تولید کد و درک سوالات مربوط به کد بهبود می‌بخشد.
ریاضیات : آموزش روی متن ریاضی به مدل کمک می‌کند تا استدلال منطقی، نمایش نمادین و پرداختن به پرسش‌های ریاضی را بیاموزد.
تصاویر : طیف گسترده‌ای از تصاویر، مدل را قادر می‌سازد تا تجزیه و تحلیل تصویر و وظایف استخراج داده‌های بصری را انجام دهد.

ترکیب این منابع داده متنوع برای آموزش یک مدل چندوجهی قدرتمند که بتواند طیف گسترده‌ای از وظایف و قالب‌های داده مختلف را مدیریت کند، بسیار مهم است.

پیش‌پردازش داده‌ها

در اینجا روش‌های کلیدی پاکسازی و فیلتر کردن داده‌ها که روی داده‌های آموزشی اعمال می‌شوند، آورده شده است:

فیلترینگ CSAM : فیلترینگ دقیق CSAM (مطالب مربوط به سوءاستفاده جنسی از کودکان) در مراحل مختلف فرآیند آماده‌سازی داده‌ها اعمال شد تا از حذف محتوای مضر و غیرقانونی اطمینان حاصل شود.
فیلتر کردن داده‌های حساس : به عنوان بخشی از ایمن و قابل اعتماد کردن مدل‌های از پیش آموزش‌دیده‌ی Gemma، از تکنیک‌های خودکار برای فیلتر کردن اطلاعات شخصی خاص و سایر داده‌های حساس از مجموعه‌های آموزشی استفاده شد.
روش‌های اضافی : فیلتر کردن بر اساس کیفیت و ایمنی محتوا مطابق با سیاست‌های ما .

اخلاق و ایمنی

با تبدیل شدن مدل‌های متن‌باز به هسته اصلی زیرساخت‌های سازمانی، منشأ و امنیت از اهمیت بالایی برخوردارند. Gemma 4 که توسط Google DeepMind توسعه داده شده است، همانند مدل‌های اختصاصی Gemini ما، تحت همان ارزیابی‌های ایمنی سختگیرانه قرار می‌گیرد.

رویکرد ارزیابی

مدل‌های Gemma 4 با همکاری تیم‌های ایمنی داخلی و هوش مصنوعی مسئول توسعه داده شدند. طیف وسیعی از ارزیابی‌های خودکار و همچنین انسانی برای کمک به بهبود ایمنی مدل انجام شد. این ارزیابی‌ها با اصول هوش مصنوعی گوگل و همچنین سیاست‌های ایمنی که هدف آنها جلوگیری از تولید محتوای مضر توسط مدل‌های هوش مصنوعی مولد ما است، همسو هستند، از جمله:

محتوای مرتبط با سوءاستفاده جنسی از کودکان و استثمار
محتوای خطرناک (مثلاً ترویج خودکشی یا آموزش فعالیت‌هایی که می‌توانند باعث آسیب در دنیای واقعی شوند)
محتوای صریح جنسی
سخنان نفرت‌پراکن (مثلاً غیرانسانی جلوه دادن اعضای گروه‌های تحت حمایت)
آزار و اذیت (مثلاً تشویق به خشونت علیه مردم)

نتایج ارزیابی

در تمام زمینه‌های آزمایش ایمنی، ما شاهد بهبودهای عمده‌ای در تمام دسته‌بندی‌های ایمنی محتوا نسبت به مدل‌های قبلی Gemma بودیم. در مجموع، مدل‌های Gemma 4 در بهبود ایمنی، ضمن پایین نگه داشتن موارد امتناع ناموجه، به طور قابل توجهی از مدل‌های Gemma 3 و 3n بهتر عمل می‌کنند. تمام آزمایش‌ها بدون فیلترهای ایمنی برای ارزیابی قابلیت‌ها و رفتارهای مدل انجام شد. برای هر دو حالت متن به متن و تصویر به متن، و در تمام اندازه‌های مدل، این مدل حداقل نقض سیاست را ایجاد کرد و بهبودهای قابل توجهی نسبت به عملکرد مدل‌های قبلی Gemma نشان داد.

کاربرد و محدودیت‌ها

این مدل‌ها محدودیت‌های خاصی دارند که کاربران باید از آنها آگاه باشند.

کاربرد مورد نظر

مدل‌های چندوجهی (که قادر به پردازش بینایی، زبان و/یا صدا هستند) طیف گسترده‌ای از کاربردها را در صنایع و حوزه‌های مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف از این فهرست، ارائه اطلاعات زمینه‌ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته‌اند.

تولید محتوا و ارتباطات
- تولید متن : این مدل‌ها می‌توانند برای تولید قالب‌های متنی خلاقانه مانند شعر، اسکریپت، کد، متن بازاریابی و پیش‌نویس ایمیل استفاده شوند.
- چت‌بات‌ها و هوش مصنوعی محاوره‌ای : رابط‌های محاوره‌ای را برای خدمات مشتری، دستیاران مجازی یا برنامه‌های تعاملی تقویت کنید.
- خلاصه‌سازی متن : خلاصه‌های مختصری از یک مجموعه متن، مقالات تحقیقاتی یا گزارش‌ها تهیه کنید.
- استخراج داده‌های تصویری : این مدل‌ها می‌توانند برای استخراج، تفسیر و خلاصه‌سازی داده‌های بصری برای ارتباطات متنی استفاده شوند.
- پردازش و تعامل صوتی : مدل‌های کوچک‌تر (E2B و E4B) می‌توانند ورودی‌های صوتی را تجزیه و تحلیل و تفسیر کنند و تعاملات و رونویسی‌های مبتنی بر صدا را امکان‌پذیر سازند.
تحقیق و آموزش
- پردازش زبان طبیعی (NLP) و تحقیقات VLM : این مدل‌ها می‌توانند به عنوان پایه‌ای برای محققان جهت آزمایش تکنیک‌های VLM و NLP، توسعه الگوریتم‌ها و کمک به پیشرفت این حوزه عمل کنند.
- ابزارهای یادگیری زبان : از تجربیات تعاملی یادگیری زبان پشتیبانی می‌کنند، به اصلاح دستور زبان کمک می‌کنند یا تمرین نوشتاری ارائه می‌دهند.
  - کاوش دانش : با تولید خلاصه‌ها یا پاسخ به سؤالات مربوط به موضوعات خاص، به محققان در کاوش در حجم زیادی از متن کمک کنید.

محدودیت‌ها

داده‌های آموزشی
- کیفیت و تنوع داده‌های آموزشی به طور قابل توجهی بر قابلیت‌های مدل تأثیر می‌گذارد. سوگیری‌ها یا شکاف‌های موجود در داده‌های آموزشی می‌تواند منجر به محدودیت‌هایی در پاسخ‌های مدل شود.
- دامنه مجموعه داده‌های آموزشی، حوزه‌های موضوعی را که مدل می‌تواند به طور مؤثر مدیریت کند، تعیین می‌کند.
زمینه و پیچیدگی وظیفه
- مدل‌ها در کارهایی که می‌توان آن‌ها را با دستورالعمل‌ها و دستورالعمل‌های واضح تعریف کرد، عملکرد خوبی دارند. وظایف با پایان باز یا بسیار پیچیده ممکن است چالش‌برانگیز باشند.
- عملکرد یک مدل می‌تواند تحت تأثیر میزان زمینه ارائه شده قرار گیرد (زمینه طولانی‌تر عموماً تا یک نقطه خاص منجر به خروجی‌های بهتری می‌شود).
ابهام و ظرافت زبان
- زبان طبیعی ذاتاً پیچیده است. مدل‌ها ممکن است برای درک نکات ظریف، کنایه یا زبان تمثیلی دچار مشکل شوند.
دقت واقعی
- مدل‌ها بر اساس اطلاعاتی که از مجموعه داده‌های آموزشی خود آموخته‌اند، پاسخ‌هایی تولید می‌کنند، اما پایگاه دانش نیستند. آن‌ها ممکن است گزاره‌های واقعی نادرست یا قدیمی تولید کنند.
عقل سلیم
- مدل‌ها به الگوهای آماری در زبان متکی هستند. آن‌ها ممکن است در موقعیت‌های خاص توانایی به‌کارگیری استدلال مبتنی بر عقل سلیم را نداشته باشند.

ملاحظات اخلاقی و خطرات

توسعه مدل‌های بینایی-زبانی (VLM) نگرانی‌های اخلاقی متعددی را ایجاد می‌کند. در ایجاد یک مدل باز، موارد زیر را با دقت در نظر گرفته‌ایم:

تعصب و انصاف
- مدل‌های ماشین مجازی (VLM) که بر روی داده‌های متنی و تصویری در مقیاس بزرگ و دنیای واقعی آموزش دیده‌اند، می‌توانند سوگیری‌های اجتماعی-فرهنگی نهفته در مطالب آموزشی را منعکس کنند. مدل‌های Gemma 4 تحت بررسی دقیق، پیش‌پردازش داده‌های ورودی و ارزیابی‌های پس از آموزش قرار گرفتند، همانطور که در این کارت گزارش شده است تا به کاهش خطر این سوگیری‌ها کمک کند.
اطلاعات نادرست و سوءاستفاده
- می‌توان از VLMها برای تولید متنی نادرست، گمراه‌کننده یا مضر سوءاستفاده کرد.
- دستورالعمل‌هایی برای استفاده مسئولانه از این مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئولانه مراجعه کنید.
شفافیت و پاسخگویی
- این کارت مدل، جزئیات معماری، قابلیت‌ها، محدودیت‌ها و فرآیندهای ارزیابی مدل‌ها را خلاصه می‌کند.
- یک مدل بازِ توسعه‌یافته با مسئولیت‌پذیری، با در دسترس قرار دادن فناوری VLM برای توسعه‌دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی، فرصتی برای به اشتراک گذاشتن نوآوری ارائه می‌دهد.

ریسک‌های شناسایی شده و راهکارهای کاهش آنها :

تولید محتوای مضر : سازوکارها و دستورالعمل‌های ایمنی محتوا ضروری هستند. به توسعه‌دهندگان توصیه می‌شود که احتیاط کنند و بر اساس سیاست‌های خاص محصول و موارد استفاده از برنامه، اقدامات حفاظتی مناسب برای ایمنی محتوا را اجرا کنند.
سوءاستفاده برای اهداف مخرب : محدودیت‌های فنی و آموزش توسعه‌دهندگان و کاربران نهایی می‌تواند به کاهش برنامه‌های مخرب VLMها کمک کند. منابع آموزشی و سازوکارهای گزارش‌دهی برای کاربران جهت گزارش سوءاستفاده ارائه شده است.
نقض حریم خصوصی : مدل‌ها بر اساس داده‌های فیلتر شده برای حذف اطلاعات شخصی خاص و سایر داده‌های حساس آموزش داده شدند. به توسعه‌دهندگان توصیه می‌شود که با تکنیک‌های حفظ حریم خصوصی، به مقررات حریم خصوصی پایبند باشند.
تداوم سوگیری‌ها : توصیه می‌شود نظارت مستمر (با استفاده از معیارهای ارزیابی، بررسی انسانی) و بررسی تکنیک‌های رفع سوگیری در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده انجام شود.

مزایا

در زمان انتشار، این خانواده از مدل‌ها، پیاده‌سازی‌های مدل زبان بینایی باز با عملکرد بالا را ارائه می‌دهند که از ابتدا برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدل‌های با اندازه مشابه طراحی شده‌اند.