
چهره در آغوش گرفته | گیتهاب | وبلاگ راهاندازی | مستندات
مجوز : آپاچی ۲.۰ | نویسندگان : گوگل دیپمایند
Gemma خانوادهای از مدلهای باز است که توسط Google DeepMind ساخته شده است. مدلهای Gemma 4 چندوجهی هستند، ورودی متن و تصویر (با پشتیبانی صدا در مدلهای کوچک) را مدیریت میکنند و خروجی متن تولید میکنند. این نسخه شامل مدلهای با وزن باز در هر دو نوع از پیش آموزش دیده و تنظیم شده با دستورالعمل است. Gemma 4 دارای یک پنجره زمینه با حداکثر ۲۵۶ هزار توکن است و پشتیبانی چندزبانه را در بیش از ۱۴۰ زبان حفظ میکند.
Gemma 4 با دارا بودن معماریهای Dense و Mixture-of-Experts (MoE)، برای کارهایی مانند تولید متن، کدنویسی و استدلال بسیار مناسب است. این مدلها در چهار اندازه مجزا موجود هستند: E2B ، E4B ، 26B A4B و 31B . اندازههای متنوع آنها، آنها را در محیطهایی از تلفنهای رده بالا گرفته تا لپتاپها و سرورها قابل استفاده میکند و دسترسی به هوش مصنوعی پیشرفته را دموکراتیک میکند.
Gemma 4 قابلیتهای کلیدی و پیشرفتهای معماری را معرفی میکند:
استدلال - همه مدلهای این خانواده به عنوان استدلالکنندگان بسیار توانمند، با حالتهای تفکر قابل تنظیم طراحی شدهاند.
چندوجهیهای توسعهیافته - متن، تصویر با نسبت ابعاد و وضوح متغیر (همه مدلها)، ویدیو و صدا (که به صورت بومی در مدلهای E2B و E4B ارائه شده است) را پردازش میکند.
معماریهای متنوع و کارآمد - انواع متراکم و ترکیبی از متخصصان (MoE) را در اندازههای مختلف برای استقرار مقیاسپذیر ارائه میدهد.
بهینه شده برای اجرا روی دستگاه - مدلهای کوچکتر به طور خاص برای اجرای محلی کارآمد روی لپتاپها و دستگاههای تلفن همراه طراحی شدهاند.
پنجره زمینه افزایش یافته - مدلهای کوچک دارای یک پنجره زمینه ۱۲۸ کیلوبایتی هستند، در حالی که مدلهای متوسط از ۲۵۶ کیلوبایت پشتیبانی میکنند.
قابلیتهای کدنویسی و عاملمحور بهبود یافته - در کنار پشتیبانی از فراخوانی توابع بومی، به پیشرفتهای قابل توجهی در معیارهای کدنویسی دست مییابد و عاملهای خودمختار بسیار توانمندی را توانمند میسازد.
پشتیبانی بومی سیستم – Gemma 4 پشتیبانی بومی برای نقش
systemرا ارائه میدهد و مکالمات ساختاریافتهتر و قابل کنترلتری را امکانپذیر میکند.
نمای کلی مدلها
مدلهای Gemma 4 برای ارائه عملکرد سطح بالا در هر اندازه طراحی شدهاند و سناریوهای استقرار را از دستگاههای تلفن همراه و لبه (E2B، E4B) گرفته تا پردازندههای گرافیکی و ایستگاههای کاری مصرفی (26B A4B، 31B) هدف قرار میدهند. آنها برای استدلال، گردشهای کاری عاملی، کدنویسی و درک چندوجهی بسیار مناسب هستند.
این مدلها از یک مکانیسم توجه ترکیبی استفاده میکنند که توجه پنجره کشویی محلی را با توجه کامل سراسری در هم میآمیزد و تضمین میکند که لایه نهایی همیشه سراسری است. این طراحی ترکیبی، سرعت پردازش و اشغال فضای کم حافظه یک مدل سبک را بدون از دست دادن آگاهی عمیق مورد نیاز برای وظایف پیچیده و طولانی مدت ارائه میدهد. برای بهینهسازی حافظه برای زمینههای طولانی، لایههای سراسری دارای کلیدها و مقادیر یکپارچه هستند و RoPE متناسب (p-RoPE) را اعمال میکنند.
مدلهای متراکم
| ملک | E2B | E4B | 31B متراکم |
|---|---|---|---|
| پارامترهای کل | ۲.۳ میلیارد دلار موثر (۵.۱ میلیارد دلار با احتساب جاسازیها) | ۴.۵B مؤثر (۸B با جاسازیها) | ۳۰.۷ب |
| لایهها | ۳۵ | ۴۲ | ۶۰ |
| پنجره کشویی | ۵۱۲ توکن | ۵۱۲ توکن | ۱۰۲۴ توکن |
| طول متن | ۱۲۸ هزار توکن | ۱۲۸ هزار توکن | ۲۵۶ هزار توکن |
| اندازه واژگان | ۲۶۲ کیلوبایت | ۲۶۲ کیلوبایت | ۲۶۲ کیلوبایت |
| روشهای پشتیبانیشده | متن، تصویر، صدا | متن، تصویر، صدا | متن، تصویر |
| پارامترهای انکودر ویژن | حدود ۱۵۰ میلیون | حدود ۱۵۰ میلیون | حدود ۵۵۰ میلیون |
| پارامترهای رمزگذار صوتی | حدود ۳۰۰ میلیون | حدود ۳۰۰ میلیون | بدون صدا |
حرف «E» در E2B و E4B مخفف پارامترهای «موثر» است. مدلهای کوچکتر، جاسازیهای هر لایه (PLE) را برای به حداکثر رساندن کارایی پارامترها در پیادهسازیهای روی دستگاه، در خود جای میدهند. PLE به جای اضافه کردن لایهها یا پارامترهای بیشتر به مدل، به هر لایه رمزگشا، جاسازی کوچک مخصوص به خود را برای هر توکن میدهد. این جداول جاسازی بزرگ هستند اما فقط برای جستجوی سریع استفاده میشوند، به همین دلیل تعداد پارامترهای موثر بسیار کمتر از کل است.
مدل ترکیبی از متخصصان (MoE)
| ملک | 26B A4B وزارت آموزش و پرورش |
|---|---|
| پارامترهای کل | ۲۵.۲ب |
| پارامترهای فعال | ۳.۸ب |
| لایهها | ۳۰ |
| پنجره کشویی | ۱۰۲۴ توکن |
| طول متن | ۲۵۶ هزار توکن |
| اندازه واژگان | ۲۶۲ کیلوبایت |
| تعداد متخصصان | ۸ فعال / ۱۲۸ در مجموع و ۱ به اشتراک گذاشته شده |
| روشهای پشتیبانیشده | متن، تصویر |
| پارامترهای انکودر ویژن | حدود ۵۵۰ میلیون |
حرف "A" در 26B A4B مخفف "پارامترهای فعال" است، در مقایسه با تعداد کل پارامترهایی که مدل شامل میشود. با فعال کردن تنها یک زیرمجموعه 4B از پارامترها در طول استنتاج، مدل Mixture-of-Experts بسیار سریعتر از آنچه که مجموع 26B آن نشان میدهد، اجرا میشود. این امر آن را به انتخابی عالی برای استنتاج سریع در مقایسه با مدل متراکم 31B تبدیل میکند، زیرا تقریباً به سرعت یک مدل 4B-parameter اجرا میشود.
نتایج بنچمارک
این مدلها در برابر مجموعهای بزرگ از مجموعه دادهها و معیارهای مختلف ارزیابی شدند تا جنبههای مختلف تولید متن را پوشش دهند. نتایج ارزیابی مشخص شده در جدول برای مدلهای تنظیمشده با دستورالعمل هستند.
| جما ۴ ۳۱ب | جما ۴ ۲۶ب A4ب | جما ۴ E4B | جما ۴ E2B | جما ۳ ۲۷ب (بدون فکر) | |
|---|---|---|---|---|---|
| MMLU Pro | ۸۵.۲٪ | ۸۲.۶٪ | ۶۹.۴٪ | ۶۰.۰٪ | ۶۷.۶٪ |
| AIME 2026 بدون ابزار | ۸۹.۲٪ | ۸۸.۳٪ | ۴۲.۵٪ | ۳۷.۵٪ | ۲۰.۸٪ |
| لایو کد بنچ نسخه ۶ | ۸۰.۰٪ | ۷۷.۱٪ | ۵۲.۰٪ | ۴۴.۰٪ | ۲۹.۱٪ |
| کدفورسز ELO | ۲۱۵۰ | ۱۷۱۸ | ۹۴۰ | ۶۳۳ | ۱۱۰ |
| الماس GPQA | ۸۴.۳٪ | ۸۲.۳٪ | ۵۸.۶٪ | ۴۳.۴٪ | ۴۲.۴٪ |
| Tau2 (میانگین بالای ۳) | ۷۶.۹٪ | ۶۸.۲٪ | ۴۲.۲٪ | ۲۴.۵٪ | ۱۶.۲٪ |
| HLE بدون ابزار | ۱۹.۵٪ | ۸.۷٪ | - | - | - |
| HLE با جستجو | ۲۶.۵٪ | ۱۷.۲٪ | - | - | - |
| بیگ بنچ فوق العاده سخت | ۷۴.۴٪ | ۶۴.۸٪ | ۳۳.۱٪ | ۲۱.۹٪ | ۱۹.۳٪ |
| MMMLU | ۸۸.۴٪ | ۸۶.۳٪ | ۷۶.۶٪ | ۶۷.۴٪ | ۷۰.۷٪ |
| چشم انداز | |||||
| MMMU پرو | ۷۶.۹٪ | ۷۳.۸٪ | ۵۲.۶٪ | ۴۴.۲٪ | ۴۹.۷٪ |
| OmniDocBench 1.5 (میانگین فاصله ویرایش، هر چه کمتر بهتر) | ۰.۱۳۱ | ۰.۱۴۹ | ۰.۱۸۱ | ۰.۲۹۰ | ۰.۳۶۵ |
| MATH-Vision | ۸۵.۶٪ | ۸۲.۴٪ | ۵۹.۵٪ | ۵۲.۴٪ | ۴۶.۰٪ |
| MedXPertQA MM | ۶۱.۳٪ | ۵۸.۱٪ | ۲۸.۷٪ | ۲۳.۵٪ | - |
| صوتی | |||||
| کوواست | - | - | ۳۵.۵۴ | ۳۳.۴۷ | - |
| فلورس (هرچه کمتر بهتر) | - | - | ۰.۰۸ | ۰.۰۹ | - |
| متن طولانی | |||||
| سوزن MRCR v2 8، 128k (میانگین) | ۶۶.۴٪ | ۴۴.۱٪ | ۲۵.۴٪ | ۱۹.۱٪ | ۱۳.۵٪ |
قابلیتهای اصلی
مدلهای Gemma 4 طیف گستردهای از وظایف را در زمینه متن، تصویر و صدا انجام میدهند. قابلیتهای کلیدی عبارتند از:
- تفکر - حالت استدلال داخلی که به مدل اجازه میدهد قبل از پاسخ دادن، گام به گام فکر کند.
- متن طولانی – پنجرههای متن تا ۱۲۸ هزار توکن (E2B/E4B) و ۲۵۶ هزار توکن (۲۶B A4B/31B).
- درک تصویر - تشخیص اشیاء، تجزیه سند/PDF، درک صفحه نمایش و رابط کاربری، درک نمودار، OCR (شامل چندزبانه)، تشخیص دستخط و اشارهگر. تصاویر را میتوان با نسبتهای ابعاد و وضوح متغیر پردازش کرد.
- درک ویدیو - تجزیه و تحلیل ویدیو با پردازش توالی فریمها.
- ورودی چندوجهی درهمتنیده - متن و تصاویر را به هر ترتیبی در یک اعلان واحد، آزادانه ترکیب کنید.
- فراخوانی تابع - پشتیبانی بومی برای استفاده ساختاریافته از ابزار، که گردشهای کاری عاملمحور را فعال میکند.
- کدنویسی - تولید، تکمیل و اصلاح کد.
- چندزبانه - پشتیبانی پیشفرض از بیش از ۳۵ زبان، از پیش آموزشدیده روی بیش از ۱۴۰ زبان.
- صدا (فقط E2B و E4B) – تشخیص خودکار گفتار (ASR) و ترجمه گفتار به متن ترجمه شده در چندین زبان.
شروع کار
شما میتوانید از تمام مدلهای Gemma 4 با آخرین نسخه Transformers استفاده کنید. برای شروع، وابستگیهای لازم را در محیط خود نصب کنید:
pip install -U transformers torch accelerate
وقتی همه چیز را نصب کردید، میتوانید مدل را با کد زیر بارگذاری کنید:
import torch
from transformers import AutoProcessor, AutoModelForCausalLM
MODEL_ID = "google/gemma-4-E2B-it"
# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
dtype=torch.bfloat16,
device_map="auto"
)
پس از بارگذاری مدل، میتوانید تولید خروجی را شروع کنید:
# Prompt
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
# Process input
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]
# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
# Parse thinking
processor.parse_response(response)
برای فعال کردن استدلال، enable_thinking=True را تنظیم کنید و تابع parse_response وظیفه تجزیه خروجی تفکر را بر عهده خواهد گرفت.
بهترین شیوهها
برای بهترین عملکرد، از این تنظیمات و بهترین شیوهها استفاده کنید:
۱. پارامترهای نمونهبرداری
از پیکربندی نمونهگیری استاندارد زیر در تمام موارد استفاده استفاده کنید:
-
temperature=1.0 -
top_p=0.95 -
top_k=64
۲. پیکربندی حالت تفکر
در مقایسه با Gemma 3، این مدلها از نقشهای استاندارد system ، assistant و user استفاده میکنند. برای مدیریت صحیح فرآیند تفکر، از توکنهای کنترلی زیر استفاده کنید:
- فعال کردن تفکر: تفکر با قرار دادن توکن
<|think|>در ابتدای اعلان سیستم فعال میشود. برای غیرفعال کردن تفکر، توکن را حذف کنید. - تولید استاندارد: وقتی تفکر فعال باشد، مدل استدلال درونی خود و به دنبال آن پاسخ نهایی را با استفاده از این ساختار ارائه میدهد:
<|channel>thought\n[استدلال درونی]<channel|> - رفتار تفکر غیرفعال: برای همه مدلها به جز انواع E2B و E4B، اگر تفکر غیرفعال باشد، مدل همچنان برچسبها را تولید میکند اما با یک بلوک فکری خالی:
<|channel>thought\n<channel|>[پاسخ نهایی]
توجه داشته باشید که بسیاری از کتابخانهها مانند Transformers و llama.cpp پیچیدگیهای قالب چت را برای شما مدیریت میکنند.
۳. مکالمات چند نوبتی
- عدم وجود محتوای تفکر در تاریخچه : در مکالمات چند نوبتی، خروجی مدل تاریخی فقط باید شامل پاسخ نهایی باشد. افکار نوبتهای مدل قبلی نباید قبل از شروع نوبت بعدی کاربر اضافه شوند .
۴. ترتیب روش
- برای عملکرد بهینه با ورودیهای چندوجهی، تصویر و/یا محتوای صوتی را قبل از متن در اعلان خود قرار دهید.
۵. وضوح تصویر متغیر
گذشته از نسبتهای ابعاد متغیر، Gemma 4 از طریق یک بودجه توکن بصری قابل تنظیم، از وضوح تصویر متغیر پشتیبانی میکند که تعداد توکنهای مورد استفاده برای نمایش یک تصویر را کنترل میکند. بودجه توکن بالاتر، جزئیات بصری بیشتری را با هزینه محاسبات اضافی حفظ میکند، در حالی که بودجه پایینتر، استنتاج سریعتر را برای وظایفی که نیازی به درک دقیق ندارند، امکانپذیر میسازد.
- بودجههای توکن پشتیبانیشده عبارتند از: ۷۰ ، ۱۴۰ ، ۲۸۰ ، ۵۶۰ و ۱۱۲۰ .
- از بودجههای پایینتر برای طبقهبندی، زیرنویسگذاری یا درک ویدیو استفاده کنید، جایی که استنتاج و پردازش سریعتر فریمهای زیاد بر جزئیات دقیقتر غلبه میکند.
- برای کارهایی مانند OCR، تجزیه اسناد یا خواندن متنهای کوچک، از بودجههای بالاتر استفاده کنید.
۶. صدا
برای پردازش صدا از ساختارهای دستوری زیر استفاده کنید:
- تشخیص گفتار صوتی (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- ترجمه خودکار گفتار (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
۷. مدت زمان صدا و تصویر
همه مدلها از ورودیهای تصویر پشتیبانی میکنند و میتوانند ویدیوها را به صورت فریم پردازش کنند، در حالی که مدلهای E2B و E4B از ورودیهای صدا نیز پشتیبانی میکنند. صدا حداکثر 30 ثانیه و ویدیو حداکثر 60 ثانیه را پشتیبانی میکند، با فرض اینکه تصاویر با سرعت یک فریم در ثانیه پردازش شوند.
دادههای مدل
دادههای مورد استفاده برای آموزش مدل و نحوه پردازش دادهها.
مجموعه دادههای آموزشی
مجموعه دادههای پیشآموزش ما، مجموعهای متنوع و در مقیاس بزرگ از دادهها است که طیف وسیعی از حوزهها و روشها را شامل میشود و شامل اسناد وب، کد، تصاویر، صدا و تاریخ انقضای ژانویه ۲۰۲۵ میشود. اجزای کلیدی عبارتند از:
- اسناد وب : مجموعهای متنوع از متون وب تضمین میکند که مدل در معرض طیف گستردهای از سبکهای زبانی، موضوعات و واژگان قرار میگیرد. مجموعه دادههای آموزشی شامل محتوا در بیش از ۱۴۰ زبان است.
- کد : قرار دادن مدل در معرض کد به آن کمک میکند تا سینتکس و الگوهای زبانهای برنامهنویسی را یاد بگیرد، که این امر توانایی آن را در تولید کد و درک سوالات مربوط به کد بهبود میبخشد.
- ریاضیات : آموزش روی متن ریاضی به مدل کمک میکند تا استدلال منطقی، نمایش نمادین و پرداختن به پرسشهای ریاضی را بیاموزد.
- تصاویر : طیف گستردهای از تصاویر، مدل را قادر میسازد تا تجزیه و تحلیل تصویر و وظایف استخراج دادههای بصری را انجام دهد.
ترکیب این منابع داده متنوع برای آموزش یک مدل چندوجهی قدرتمند که بتواند طیف گستردهای از وظایف و قالبهای داده مختلف را مدیریت کند، بسیار مهم است.
پیشپردازش دادهها
در اینجا روشهای کلیدی پاکسازی و فیلتر کردن دادهها که روی دادههای آموزشی اعمال میشوند، آورده شده است:
- فیلترینگ CSAM : فیلترینگ دقیق CSAM (مطالب مربوط به سوءاستفاده جنسی از کودکان) در مراحل مختلف فرآیند آمادهسازی دادهها اعمال شد تا از حذف محتوای مضر و غیرقانونی اطمینان حاصل شود.
- فیلتر کردن دادههای حساس : به عنوان بخشی از ایمن و قابل اعتماد کردن مدلهای از پیش آموزشدیدهی Gemma، از تکنیکهای خودکار برای فیلتر کردن اطلاعات شخصی خاص و سایر دادههای حساس از مجموعههای آموزشی استفاده شد.
- روشهای اضافی : فیلتر کردن بر اساس کیفیت و ایمنی محتوا مطابق با سیاستهای ما .
اخلاق و ایمنی
با تبدیل شدن مدلهای متنباز به هسته اصلی زیرساختهای سازمانی، منشأ و امنیت از اهمیت بالایی برخوردارند. Gemma 4 که توسط Google DeepMind توسعه داده شده است، همانند مدلهای اختصاصی Gemini ما، تحت همان ارزیابیهای ایمنی سختگیرانه قرار میگیرد.
رویکرد ارزیابی
مدلهای Gemma 4 با همکاری تیمهای ایمنی داخلی و هوش مصنوعی مسئول توسعه داده شدند. طیف وسیعی از ارزیابیهای خودکار و همچنین انسانی برای کمک به بهبود ایمنی مدل انجام شد. این ارزیابیها با اصول هوش مصنوعی گوگل و همچنین سیاستهای ایمنی که هدف آنها جلوگیری از تولید محتوای مضر توسط مدلهای هوش مصنوعی مولد ما است، همسو هستند، از جمله:
- محتوای مرتبط با سوءاستفاده جنسی از کودکان و استثمار
- محتوای خطرناک (مثلاً ترویج خودکشی یا آموزش فعالیتهایی که میتوانند باعث آسیب در دنیای واقعی شوند)
- محتوای صریح جنسی
- سخنان نفرتپراکن (مثلاً غیرانسانی جلوه دادن اعضای گروههای تحت حمایت)
- آزار و اذیت (مثلاً تشویق به خشونت علیه مردم)
نتایج ارزیابی
در تمام زمینههای آزمایش ایمنی، ما شاهد بهبودهای عمدهای در تمام دستهبندیهای ایمنی محتوا نسبت به مدلهای قبلی Gemma بودیم. در مجموع، مدلهای Gemma 4 در بهبود ایمنی، ضمن پایین نگه داشتن موارد امتناع ناموجه، به طور قابل توجهی از مدلهای Gemma 3 و 3n بهتر عمل میکنند. تمام آزمایشها بدون فیلترهای ایمنی برای ارزیابی قابلیتها و رفتارهای مدل انجام شد. برای هر دو حالت متن به متن و تصویر به متن، و در تمام اندازههای مدل، این مدل حداقل نقض سیاست را ایجاد کرد و بهبودهای قابل توجهی نسبت به عملکرد مدلهای قبلی Gemma نشان داد.
کاربرد و محدودیتها
این مدلها محدودیتهای خاصی دارند که کاربران باید از آنها آگاه باشند.
کاربرد مورد نظر
مدلهای چندوجهی (که قادر به پردازش بینایی، زبان و/یا صدا هستند) طیف گستردهای از کاربردها را در صنایع و حوزههای مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف از این فهرست، ارائه اطلاعات زمینهای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفتهاند.
- تولید محتوا و ارتباطات
- تولید متن : این مدلها میتوانند برای تولید قالبهای متنی خلاقانه مانند شعر، اسکریپت، کد، متن بازاریابی و پیشنویس ایمیل استفاده شوند.
- چتباتها و هوش مصنوعی محاورهای : رابطهای محاورهای را برای خدمات مشتری، دستیاران مجازی یا برنامههای تعاملی تقویت کنید.
- خلاصهسازی متن : خلاصههای مختصری از یک مجموعه متن، مقالات تحقیقاتی یا گزارشها تهیه کنید.
- استخراج دادههای تصویری : این مدلها میتوانند برای استخراج، تفسیر و خلاصهسازی دادههای بصری برای ارتباطات متنی استفاده شوند.
- پردازش و تعامل صوتی : مدلهای کوچکتر (E2B و E4B) میتوانند ورودیهای صوتی را تجزیه و تحلیل و تفسیر کنند و تعاملات و رونویسیهای مبتنی بر صدا را امکانپذیر سازند.
- تحقیق و آموزش
- پردازش زبان طبیعی (NLP) و تحقیقات VLM : این مدلها میتوانند به عنوان پایهای برای محققان جهت آزمایش تکنیکهای VLM و NLP، توسعه الگوریتمها و کمک به پیشرفت این حوزه عمل کنند.
- ابزارهای یادگیری زبان : از تجربیات تعاملی یادگیری زبان پشتیبانی میکنند، به اصلاح دستور زبان کمک میکنند یا تمرین نوشتاری ارائه میدهند.
- کاوش دانش : با تولید خلاصهها یا پاسخ به سؤالات مربوط به موضوعات خاص، به محققان در کاوش در حجم زیادی از متن کمک کنید.
محدودیتها
- دادههای آموزشی
- کیفیت و تنوع دادههای آموزشی به طور قابل توجهی بر قابلیتهای مدل تأثیر میگذارد. سوگیریها یا شکافهای موجود در دادههای آموزشی میتواند منجر به محدودیتهایی در پاسخهای مدل شود.
- دامنه مجموعه دادههای آموزشی، حوزههای موضوعی را که مدل میتواند به طور مؤثر مدیریت کند، تعیین میکند.
- زمینه و پیچیدگی وظیفه
- مدلها در کارهایی که میتوان آنها را با دستورالعملها و دستورالعملهای واضح تعریف کرد، عملکرد خوبی دارند. وظایف با پایان باز یا بسیار پیچیده ممکن است چالشبرانگیز باشند.
- عملکرد یک مدل میتواند تحت تأثیر میزان زمینه ارائه شده قرار گیرد (زمینه طولانیتر عموماً تا یک نقطه خاص منجر به خروجیهای بهتری میشود).
- ابهام و ظرافت زبان
- زبان طبیعی ذاتاً پیچیده است. مدلها ممکن است برای درک نکات ظریف، کنایه یا زبان تمثیلی دچار مشکل شوند.
- دقت واقعی
- مدلها بر اساس اطلاعاتی که از مجموعه دادههای آموزشی خود آموختهاند، پاسخهایی تولید میکنند، اما پایگاه دانش نیستند. آنها ممکن است گزارههای واقعی نادرست یا قدیمی تولید کنند.
- عقل سلیم
- مدلها به الگوهای آماری در زبان متکی هستند. آنها ممکن است در موقعیتهای خاص توانایی بهکارگیری استدلال مبتنی بر عقل سلیم را نداشته باشند.
ملاحظات اخلاقی و خطرات
توسعه مدلهای بینایی-زبانی (VLM) نگرانیهای اخلاقی متعددی را ایجاد میکند. در ایجاد یک مدل باز، موارد زیر را با دقت در نظر گرفتهایم:
- تعصب و انصاف
- مدلهای ماشین مجازی (VLM) که بر روی دادههای متنی و تصویری در مقیاس بزرگ و دنیای واقعی آموزش دیدهاند، میتوانند سوگیریهای اجتماعی-فرهنگی نهفته در مطالب آموزشی را منعکس کنند. مدلهای Gemma 4 تحت بررسی دقیق، پیشپردازش دادههای ورودی و ارزیابیهای پس از آموزش قرار گرفتند، همانطور که در این کارت گزارش شده است تا به کاهش خطر این سوگیریها کمک کند.
- اطلاعات نادرست و سوءاستفاده
- میتوان از VLMها برای تولید متنی نادرست، گمراهکننده یا مضر سوءاستفاده کرد.
- دستورالعملهایی برای استفاده مسئولانه از این مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئولانه مراجعه کنید.
- شفافیت و پاسخگویی
- این کارت مدل، جزئیات معماری، قابلیتها، محدودیتها و فرآیندهای ارزیابی مدلها را خلاصه میکند.
- یک مدل بازِ توسعهیافته با مسئولیتپذیری، با در دسترس قرار دادن فناوری VLM برای توسعهدهندگان و محققان در سراسر اکوسیستم هوش مصنوعی، فرصتی برای به اشتراک گذاشتن نوآوری ارائه میدهد.
ریسکهای شناسایی شده و راهکارهای کاهش آنها :
- تولید محتوای مضر : سازوکارها و دستورالعملهای ایمنی محتوا ضروری هستند. به توسعهدهندگان توصیه میشود که احتیاط کنند و بر اساس سیاستهای خاص محصول و موارد استفاده از برنامه، اقدامات حفاظتی مناسب برای ایمنی محتوا را اجرا کنند.
- سوءاستفاده برای اهداف مخرب : محدودیتهای فنی و آموزش توسعهدهندگان و کاربران نهایی میتواند به کاهش برنامههای مخرب VLMها کمک کند. منابع آموزشی و سازوکارهای گزارشدهی برای کاربران جهت گزارش سوءاستفاده ارائه شده است.
- نقض حریم خصوصی : مدلها بر اساس دادههای فیلتر شده برای حذف اطلاعات شخصی خاص و سایر دادههای حساس آموزش داده شدند. به توسعهدهندگان توصیه میشود که با تکنیکهای حفظ حریم خصوصی، به مقررات حریم خصوصی پایبند باشند.
- تداوم سوگیریها : توصیه میشود نظارت مستمر (با استفاده از معیارهای ارزیابی، بررسی انسانی) و بررسی تکنیکهای رفع سوگیری در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده انجام شود.
مزایا
در زمان انتشار، این خانواده از مدلها، پیادهسازیهای مدل زبان بینایی باز با عملکرد بالا را ارائه میدهند که از ابتدا برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدلهای با اندازه مشابه طراحی شدهاند.