کارت مدل FunctionGemma

صفحه مدل : FunctionGemma

منابع و مستندات فنی :

شرایط استفاده : قوانین
نویسندگان : گوگل دیپ مایند

اطلاعات مدل

شرح خلاصه و تعریف مختصر ورودی‌ها و خروجی‌ها.

توضیحات

نکته: FunctionGemma طوری طراحی شده است که برای وظیفه فراخوانی تابع خاص شما، از جمله موارد استفاده چند نوبتی، به خوبی تنظیم شود.

FunctionGemma یک مدل سبک و متن‌باز از گوگل است که به عنوان پایه‌ای برای ایجاد مدل‌های فراخوانی تابع تخصصی شما ساخته شده است. FunctionGemma برای استفاده به عنوان یک مدل گفتگوی مستقیم در نظر گرفته نشده است و به گونه‌ای طراحی شده است که پس از تنظیم دقیق بیشتر، همانطور که برای مدل‌هایی در این اندازه معمول است، عملکرد بالایی داشته باشد. FunctionGemma که بر اساس مدل Gemma 3 270M و با همان تحقیقات و فناوری مورد استفاده برای ایجاد مدل‌های Gemini ساخته شده است، به طور خاص برای فراخوانی تابع آموزش دیده است. این مدل معماری مشابه Gemma 3 دارد، اما از فرمت چت متفاوتی استفاده می‌کند. این مدل برای فراخوانی تابع فقط متنی بسیار مناسب است. اندازه منحصر به فرد کوچک آن، امکان استقرار در محیط‌هایی با منابع محدود مانند لپ‌تاپ، دسکتاپ یا زیرساخت ابری شخصی شما را فراهم می‌کند و دسترسی به مدل‌های هوش مصنوعی پیشرفته را دموکراتیزه کرده و به پرورش نوآوری برای همه کمک می‌کند. علاوه بر این، مشابه مدل پایه Gemma 270M، این مدل بهینه شده است تا بسیار متنوع و کارآمد در انواع سخت‌افزارها در سناریوهای تک نوبتی باشد، اما باید روی داده‌های خاص وظیفه تک نوبتی یا چند نوبتی تنظیم شود تا به بهترین دقت در حوزه‌های خاص دست یابد. برای نشان دادن اینکه چگونه تخصصی‌سازی مدل پارامتر ۲۷۰M می‌تواند به عملکرد بالا در گردش‌های کاری عامل‌محور خاص دست یابد، دو مورد استفاده را در برنامه Google AI Edge Gallery برجسته کرده‌ایم.

  • باغ کوچک: مدلی که برای اجرای یک بازی تعاملی کنترل‌شده با صدا تنظیم شده است. این مدل، منطق بازی را برای مدیریت یک قطعه زمین مجازی مدیریت می‌کند و دستوراتی مانند "گل‌های آفتابگردان را در ردیف بالا بکارید" و "گل‌های قطعه ۱ و ۲ را آبیاری کنید" را به توابع خاص برنامه (مثلاً plant_seed، water_plots) تجزیه کرده و اهداف را هماهنگ می‌کند. این نشان دهنده ظرفیت مدل برای هدایت مکانیک‌های برنامه سفارشی بدون اتصال به سرور است.

  • اقدامات موبایل: برای توانمندسازی توسعه‌دهندگان جهت ساخت عوامل متخصص خود، ما یک مجموعه داده و دستورالعمل تنظیم دقیق برای نشان دادن تنظیم دقیق FunctionGemma منتشر کرده‌ایم. این ابزار ورودی‌های کاربر (مثلاً "ایجاد یک رویداد تقویم برای ناهار"، "روشن کردن چراغ قوه") را به فراخوانی‌های تابعی تبدیل می‌کند که ابزارهای سیستم عامل اندروید را فعال می‌کنند. این دفترچه یادداشت تعاملی نشان می‌دهد که چگونه می‌توان مدل پایه FunctionGemma را گرفته و یک تنظیم دقیق "اقدامات موبایل" را از ابتدا برای استفاده در برنامه گالری Google AI Edge ساخت. این مورد استفاده، توانایی مدل را در عمل به عنوان یک عامل خصوصی آفلاین برای وظایف دستگاه شخصی نشان می‌دهد.

ورودی‌ها و خروجی‌ها

  • ورودی:
    • رشته متنی، مانند یک سوال، یک پیام یا سندی که باید خلاصه شود
    • کل زمینه ورودی ۳۲ هزار توکن
  • خروجی:
    • متن تولید شده در پاسخ به ورودی، مانند پاسخ به یک سوال یا خلاصه‌ای از یک سند
    • کل زمینه خروجی تا ۳۲ هزار توکن برای هر درخواست، با کم کردن توکن‌های ورودی درخواست

داده‌های مدل

داده‌های مورد استفاده برای آموزش مدل و نحوه پردازش داده‌ها.

مجموعه داده‌های آموزشی

این مدل‌ها بر روی مجموعه‌ای از داده‌های متنی که شامل منابع متنوعی است، آموزش داده شدند. این مدل با توکن‌های 6T آموزش داده شد. تاریخ پایان دانش برای داده‌های آموزشی، آگوست 2024 بود. اجزای کلیدی عبارتند از:

  • تعاریف ابزار عمومی - API های رایج موجود در وب
  • تعاملات استفاده از ابزار - اینها ترکیبی از اعلان‌ها، فراخوانی‌های تابع، پاسخ‌های تابع و پاسخ‌های زبان طبیعی از مدل هستند تا پاسخ فراخوانی تابع را خلاصه کنند، یا در صورت مبهم یا ناقص بودن اعلان، درخواست توضیحات کنند.

پیش‌پردازش داده‌ها

در اینجا روش‌های کلیدی پاکسازی و فیلتر کردن داده‌ها که روی داده‌های آموزشی اعمال می‌شوند، آورده شده است:

  • فیلترینگ CSAM: فیلترینگ دقیق CSAM (مطالب مربوط به سوءاستفاده جنسی از کودکان) در مراحل مختلف فرآیند آماده‌سازی داده‌ها اعمال شد تا از حذف محتوای مضر و غیرقانونی اطمینان حاصل شود.
  • فیلتر کردن داده‌های حساس: به عنوان بخشی از ایمن و قابل اعتماد کردن مدل‌های از پیش آموزش‌دیده‌ی Gemma، از تکنیک‌های خودکار برای فیلتر کردن اطلاعات شخصی خاص و سایر داده‌های حساس از مجموعه‌های آموزشی استفاده شد.
  • روش‌های اضافی: فیلتر کردن بر اساس کیفیت و ایمنی محتوا مطابق با سیاست‌های ما .

اطلاعات پیاده‌سازی

جزئیات مربوط به اجزای داخلی مدل

سخت‌افزار

جما با استفاده از سخت‌افزار واحد پردازش تنسور (TPU) (TPUv4p، TPUv5p و TPUv5e) آموزش داده شد. آموزش مدل‌های زبان بینایی (VLM) به قدرت محاسباتی قابل توجهی نیاز دارد. TPUها که به طور خاص برای عملیات ماتریسی رایج در یادگیری ماشین طراحی شده‌اند، مزایای متعددی را در این حوزه ارائه می‌دهند:

  • عملکرد: TPUها به‌طور خاص برای مدیریت محاسبات عظیم مربوط به آموزش VLMها طراحی شده‌اند. آن‌ها می‌توانند در مقایسه با CPUها، سرعت آموزش را به‌طور قابل‌توجهی افزایش دهند.
  • حافظه: TPUها اغلب با حجم زیادی از حافظه با پهنای باند بالا عرضه می‌شوند که امکان مدیریت مدل‌های بزرگ و دسته‌های بزرگ را در طول آموزش فراهم می‌کند. این امر می‌تواند منجر به کیفیت بهتر مدل شود.
  • مقیاس‌پذیری: TPU Pods (خوشه‌های بزرگی از TPUها) یک راه‌حل مقیاس‌پذیر برای مدیریت پیچیدگی رو به رشد مدل‌های بزرگ بنیادی ارائه می‌دهند. شما می‌توانید آموزش را در چندین دستگاه TPU توزیع کنید تا پردازش سریع‌تر و کارآمدتر شود.
  • مقرون به صرفه بودن: در بسیاری از سناریوها، TPUها می‌توانند در مقایسه با زیرساخت‌های مبتنی بر CPU، راه‌حل مقرون به صرفه‌تری برای آموزش مدل‌های بزرگ ارائه دهند، به خصوص با در نظر گرفتن زمان و منابع صرفه‌جویی شده به دلیل آموزش سریع‌تر.
  • این مزایا با تعهدات گوگل برای عملکرد پایدار همسو هستند.

نرم‌افزار

آموزش با استفاده از مسیرهای JAX و ML انجام شد. JAX به محققان اجازه می‌دهد تا از جدیدترین نسل سخت‌افزار، از جمله TPUها، برای آموزش سریع‌تر و کارآمدتر مدل‌های بزرگ استفاده کنند. مسیرهای ML جدیدترین تلاش گوگل برای ساخت سیستم‌های هوش مصنوعی است که قادر به تعمیم در چندین وظیفه هستند. این روش به ویژه برای مدل‌های پایه، از جمله مدل‌های زبانی بزرگ مانند این مدل‌ها، مناسب است.
همانطور که در مقاله مربوط به خانواده مدل‌های Gemini توضیح داده شده است، JAX و ML Pathways با هم استفاده می‌شوند؛ «مدل برنامه‌نویسی «کنترل‌کننده واحد» Jax و Pathways به یک فرآیند پایتون واحد اجازه می‌دهد تا کل اجرای آموزش را هماهنگ کند و گردش کار توسعه را به طرز چشمگیری ساده کند.»

ارزیابی

معیارهای ارزیابی مدل و نتایج.

نتایج بنچمارک

معیار ان-شات تابع جما ۲۷۰ متر
BFCL ساده ۰-شات ۶۱.۶
موازی BFCL ۰-شات ۶۳.۵
چندگانه BFCL ۰-شات ۳۹
چندگانه موازی BFCL ۰-شات ۲۹.۵
BFCL زنده ساده ۰-شات ۳۶.۲
BFCL زنده موازی ۰-شات ۲۵.۷
BFCL Live Multiple ۰-شات ۲۲.۹
BFCL Live موازی چندگانه ۰-شات ۲۰.۸
ارتباط BFCL ۰-شات ۶۱.۱
بی‌ربط بودن BFCL ۰-شات ۷۰.۶

تأثیر بر عملکرد پس از تنظیم دقیق روی مجموعه داده‌های اقدامات موبایل
برای نشان دادن ارزش تخصص‌گرایی برای مدل‌های زبانی کوچک، مدل پایه FunctionGemma را با مدل تنظیم‌شده دقیق با استفاده از دستورالعمل "Mobile Actions" مقایسه کردیم. تنظیم دقیق، توانایی مدل پایه FunctionGemma را در شناسایی و قالب‌بندی صحیح فراخوانی‌های سیستم موبایل به طور قابل توجهی بهبود بخشید.


مدل

ارزیابی نتایج برای اقدامات موبایل

تابع پایهمدل جما

۵۸٪

تنظیم دقیق اقدامات موبایل

۸۵٪

عملکرد روی دستگاه Gemma 270m موارد استفاده دقیق تنظیم شده
ما موارد استفاده دقیق تنظیم‌شده را روی سامسونگ S25 Ultra ارزیابی کردیم تا میزان تأخیر در دستگاه و میزان حافظه اشغال‌شده را ارزیابی کنیم.

  • متن: ۵۱۲ توکن پیش‌پر کردن و ۳۲ توکن رمزگشایی.
  • سخت‌افزار: پردازنده‌ی S25 Ultra با استفاده از LiteRT XNNPACK delegate با ۴ رشته‌ی پردازشی.

عملکردهای موبایل روی عملکرد دستگاه


بک‌اند

طرح کوانتیزاسیون

طول متن

پیش‌پر کردن (توکن در ثانیه)

رمزگشایی (توکن در ثانیه)

زمان تا اولین توکن (ثانیه)

اندازه مدل (مگابایت)

حداکثر حافظه RSS (مگابایت)

پردازنده

پویا_int8

۱۰۲۴ عدد

۱۷۱۸

۱۲۵.۹

۰.۳

۲۸۸

۵۵۱

عملکرد دستگاه Tiny Garden


بک‌اند

طرح کوانتیزاسیون

طول متن

پیش‌پر کردن (توکن در ثانیه)

رمزگشایی (توکن در ثانیه)

زمان تا اولین توکن (ثانیه)

اندازه مدل (مگابایت)

حداکثر حافظه RSS (مگابایت)

پردازنده

پویا_int8

۱۰۲۴ عدد

۱۷۴۳

۱۲۵.۷

۰.۳

۲۸۸

۵۴۹

اخلاق و ایمنی

رویکرد و نتایج ارزیابی اخلاق و ایمنی.

رویکرد ارزیابی

روش‌های ارزیابی ما شامل ارزیابی‌های ساختاریافته و آزمایش داخلی تیم قرمز از سیاست‌های محتوای مرتبط است. تیم قرمز توسط تعدادی از تیم‌های مختلف، هر کدام با اهداف و معیارهای ارزیابی انسانی متفاوت، انجام شد. این مدل‌ها در برابر تعدادی از دسته‌های مختلف مرتبط با اخلاق و ایمنی، از جمله موارد زیر، ارزیابی شدند:

  • ایمنی کودک : ارزیابی پیام‌های متنی و تصویری مربوط به سیاست‌های ایمنی کودک، از جمله سوءاستفاده و استثمار جنسی کودکان.
  • ایمنی محتوا: ارزیابی پیام‌های متن به متن و تصویر به متن که سیاست‌های ایمنی از جمله آزار و اذیت، خشونت و خونریزی و نفرت‌پراکنی را پوشش می‌دهند.
  • آسیب‌های بازنمایی : ارزیابی پیام‌های متن به متن و تصویر به متن که سیاست‌های ایمنی از جمله سوگیری، کلیشه‌سازی و تداعی‌ها یا نادرستی‌های مضر را پوشش می‌دهد.

نتایج ارزیابی

برای تمام زمینه‌های آزمایش ایمنی، ما شاهد بهبودهای عمده‌ای در دسته‌بندی‌های ایمنی کودک، ایمنی محتوا و آسیب‌های بازنمایی نسبت به مدل‌های قبلی Gemma بودیم. تمام آزمایش‌ها بدون فیلترهای ایمنی برای ارزیابی قابلیت‌ها و رفتارهای مدل انجام شد. این مدل حداقل نقض سیاست‌ها را ایجاد کرد و پیشرفت‌های قابل توجهی نسبت به عملکرد مدل‌های قبلی Gemma در رابطه با استنتاج‌های بی‌اساس نشان داد. یکی از محدودیت‌های ارزیابی‌های ما این بود که آنها فقط شامل دستورالعمل‌های زبان انگلیسی بودند.

کاربرد و محدودیت‌ها

این مدل‌ها محدودیت‌های خاصی دارند که کاربران باید از آنها آگاه باشند.

کاربرد مورد نظر

این مدل برای استفاده به عنوان یک مدل گفتگوی مستقیم در نظر گرفته نشده است.
مدل‌های زبان بزرگ باز (LLM) طیف گسترده‌ای از کاربردها را در صنایع و حوزه‌های مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف از این فهرست ارائه اطلاعات زمینه‌ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته‌اند.

  • تولید محتوا و ارتباطات
    • تولید متن: این مدل‌ها می‌توانند برای تولید قالب‌های متنی خلاقانه مانند شعر، اسکریپت، کد، متن بازاریابی و پیش‌نویس ایمیل استفاده شوند.
    • چت‌بات‌ها و هوش مصنوعی محاوره‌ای: رابط‌های محاوره‌ای را برای خدمات مشتری، دستیاران مجازی یا برنامه‌های تعاملی تقویت کنید.
    • خلاصه‌سازی متن: خلاصه‌های مختصری از یک مجموعه متن، مقالات تحقیقاتی یا گزارش‌ها تهیه کنید.
  • تحقیق و آموزش
    • تحقیقات پردازش زبان طبیعی (NLP): این مدل‌ها می‌توانند به عنوان پایه‌ای برای محققان جهت آزمایش تکنیک‌های NLP، توسعه الگوریتم‌ها و کمک به پیشرفت این حوزه عمل کنند.
    • ابزارهای یادگیری زبان: از تجربیات تعاملی یادگیری زبان پشتیبانی می‌کنند، به اصلاح دستور زبان کمک می‌کنند یا تمرین نوشتاری ارائه می‌دهند.
    • کاوش دانش: با تولید خلاصه‌ها یا پاسخ به سؤالات مربوط به موضوعات خاص، به محققان در کاوش در حجم زیادی از متن کمک کنید.

محدودیت‌ها

  • داده‌های آموزشی
    • کیفیت و تنوع داده‌های آموزشی به طور قابل توجهی بر قابلیت‌های مدل تأثیر می‌گذارد. سوگیری‌ها یا شکاف‌های موجود در داده‌های آموزشی می‌تواند منجر به محدودیت‌هایی در پاسخ‌های مدل شود.
    • دامنه مجموعه داده‌های آموزشی، حوزه‌های موضوعی را که مدل می‌تواند به طور مؤثر مدیریت کند، تعیین می‌کند.
  • زمینه و پیچیدگی وظیفه
    • مدل‌ها در کارهایی که می‌توان آنها را با دستورالعمل‌ها و دستورالعمل‌های واضح تعریف کرد، بهتر عمل می‌کنند. وظایف با پایان باز یا بسیار پیچیده ممکن است چالش برانگیز باشند.
    • عملکرد یک مدل می‌تواند تحت تأثیر میزان زمینه ارائه شده قرار گیرد (زمینه طولانی‌تر عموماً تا یک نقطه خاص منجر به خروجی‌های بهتری می‌شود).
  • ابهام و ظرافت زبان
    • زبان طبیعی ذاتاً پیچیده است. مدل‌ها ممکن است برای درک نکات ظریف، کنایه یا زبان تمثیلی دچار مشکل شوند.
  • دقت واقعی
    • مدل‌ها بر اساس اطلاعاتی که از مجموعه داده‌های آموزشی خود آموخته‌اند، پاسخ‌هایی تولید می‌کنند، اما پایگاه دانش نیستند. آن‌ها ممکن است گزاره‌های واقعی نادرست یا قدیمی تولید کنند.
  • عقل سلیم
    • مدل‌ها به الگوهای آماری در زبان متکی هستند. آن‌ها ممکن است در موقعیت‌های خاص توانایی به‌کارگیری استدلال مبتنی بر عقل سلیم را نداشته باشند.

ملاحظات اخلاقی و خطرات

توسعه مدل‌های زبان بزرگ (LLM) نگرانی‌های اخلاقی متعددی را ایجاد می‌کند. در ایجاد یک مدل باز، موارد زیر را با دقت در نظر گرفته‌ایم:

  • تعصب و انصاف
    • مدل‌های یادگیری ماشین با تابع هدف (LLM) که بر روی داده‌های متنی در مقیاس بزرگ و دنیای واقعی آموزش دیده‌اند، می‌توانند سوگیری‌های اجتماعی-فرهنگی نهفته در مطالب آموزشی را منعکس کنند. این مدل‌ها تحت بررسی دقیق قرار گرفته‌اند، پیش‌پردازش داده‌های ورودی شرح داده شده و ارزیابی‌های بعدی در این کارت گزارش شده است.
  • اطلاعات نادرست و سوءاستفاده
    • از LLM ها می‌توان برای تولید متنی نادرست، گمراه‌کننده یا مضر سوءاستفاده کرد.
    • دستورالعمل‌هایی برای استفاده مسئولانه از این مدل ارائه شده است، به جعبه ابزار هوش مصنوعی مولد مسئولانه مراجعه کنید.
  • شفافیت و پاسخگویی:
    • این کارت مدل، جزئیات معماری، قابلیت‌ها، محدودیت‌ها و فرآیندهای ارزیابی مدل‌ها را خلاصه می‌کند.
    • یک مدل بازِ توسعه‌یافته با مسئولیت‌پذیری، با در دسترس قرار دادن فناوری LLM برای توسعه‌دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی، فرصتی برای به اشتراک گذاشتن نوآوری ارائه می‌دهد.

خطرات شناسایی شده و راهکارهای کاهش آنها:

  • تداوم سوگیری‌ها: توصیه می‌شود نظارت مستمر (با استفاده از معیارهای ارزیابی، بررسی انسانی) و بررسی تکنیک‌های رفع سوگیری در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده انجام شود.
  • تولید محتوای مضر: سازوکارها و دستورالعمل‌های ایمنی محتوا ضروری هستند. به توسعه‌دهندگان توصیه می‌شود که احتیاط کنند و بر اساس سیاست‌های خاص محصول و موارد استفاده از برنامه، اقدامات حفاظتی مناسب برای ایمنی محتوا را اجرا کنند.
  • سوءاستفاده برای اهداف مخرب: محدودیت‌های فنی و آموزش توسعه‌دهندگان و کاربران نهایی می‌تواند به کاهش برنامه‌های مخرب LLM کمک کند. منابع آموزشی و مکانیسم‌های گزارش‌دهی برای کاربران جهت گزارش سوءاستفاده ارائه شده است. موارد استفاده ممنوع از مدل‌های Gemma در سیاست استفاده ممنوعه Gemma ذکر شده است.
  • نقض حریم خصوصی: مدل‌ها بر اساس داده‌های فیلتر شده برای حذف PII (اطلاعات شخصی قابل شناسایی) آموزش داده شدند. به توسعه‌دهندگان توصیه می‌شود که با تکنیک‌های حفظ حریم خصوصی، به مقررات حریم خصوصی پایبند باشند.

مزایا

در زمان انتشار، این خانواده از مدل‌ها، پیاده‌سازی‌های مدل زبان بزرگ باز با کارایی بالا را ارائه می‌دهند که از ابتدا برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدل‌های با اندازه مشابه طراحی شده‌اند.