تولید محتوا و استنتاج Gemma را اجرا کنید

وقتی می‌خواهید یک مدل Gemma را اجرا کنید، دو تصمیم کلیدی باید بگیرید: 1) چه نوع Gemma را می‌خواهید اجرا کنید، و 2) از چه چارچوب اجرای هوش مصنوعی برای اجرای آن استفاده می‌کنید؟ یک مسئله کلیدی در اتخاذ هر دو این تصمیمات مربوط به سخت افزاری است که شما و کاربرانتان برای اجرای مدل در دسترس دارید.

این نمای کلی به شما کمک می کند تا در این تصمیمات پیمایش کنید و کار با مدل های Gemma را شروع کنید. مراحل کلی اجرای یک مدل Gemma به شرح زیر است:

چارچوبی را انتخاب کنید

مدل‌های Gemma با انواع چارچوب‌های اجرایی هوش مصنوعی مولد سازگار هستند. یکی از عوامل کلیدی تصمیم گیری در اجرای یک مدل Gemma این است که چه منابع محاسباتی برای اجرای مدل در دسترس دارید (یا خواهید داشت). بیشتر چارچوب‌های هوش مصنوعی سازگار به سخت‌افزار تخصصی مانند GPU یا TPU برای اجرای مؤثر مدل Gemma نیاز دارند. ابزارهایی مانند Google Colab می توانند این منابع محاسباتی تخصصی را به صورت محدود ارائه دهند. برخی از چارچوب‌های اجرای هوش مصنوعی، مانند Ollama و Gemma.cpp ، به شما امکان می‌دهند Gemma را روی پردازنده‌های متداول‌تر با استفاده از معماری‌های سازگار با x86 یا ARM اجرا کنید.

در اینجا راهنمای اجرای مدل‌های Gemma با چارچوب‌های زمان اجرا هوش مصنوعی مختلف آورده شده است:

اطمینان حاصل کنید که قالب مدل Gemma استقرار مورد نظر شما، مانند قالب بومی Keras، Safetensors، یا GGUF توسط چارچوب انتخابی شما پشتیبانی می‌شود.

یک نوع Gemma را انتخاب کنید

مدل‌های Gemma در انواع و اندازه‌های مختلف موجود هستند، از جمله مدل‌های پایه یا هسته Gemma، و انواع مدل‌های تخصصی‌تر مانند PaliGemma و DataGemma ، و بسیاری از انواع ایجاد شده توسط جامعه توسعه‌دهندگان هوش مصنوعی در سایت‌هایی مانند Kaggle و Hugging Face . اگر مطمئن نیستید که با چه نوع دیگری باید شروع کنید، آخرین مدل Gemma core instruction-tuned (IT) را با کمترین تعداد پارامتر انتخاب کنید. این نوع از مدل Gemma نیازهای محاسباتی کمی دارد و قادر است به طیف گسترده ای از درخواست ها بدون نیاز به توسعه اضافی پاسخ دهد.

هنگام انتخاب نوع Gemma فاکتورهای زیر را در نظر بگیرید:

  • هسته Gemma، و خانواده های دیگر مانند PaliGemma، CodeGemma : Gemma (هسته) را توصیه کنید. انواع Gemma فراتر از نسخه اصلی معماری مشابهی با مدل اصلی دارند و برای انجام بهتر در کارهای خاص آموزش دیده اند. اگر برنامه یا اهداف شما با تخصص یک نوع خاص Gemma هماهنگ نباشد، بهتر است با یک هسته یا مدل پایه Gemma شروع کنید.
  • تنظیم شده (IT)، از پیش آموزش دیده (PT)، تنظیم دقیق (FT)، ترکیبی (میکس) : IT را توصیه کنید.
    • انواع Gemma با تنظیم دستورالعمل (IT) مدل هایی هستند که برای پاسخگویی به دستورالعمل ها یا درخواست های مختلف به زبان انسان آموزش دیده اند. این مدل‌های مدل بهترین مکان برای شروع هستند زیرا می‌توانند بدون آموزش بیشتر مدل به درخواست‌ها پاسخ دهند.
    • انواع Gemma از پیش آموزش دیده (PT) مدل هایی هستند که برای استنباط در مورد زبان یا سایر داده ها آموزش دیده اند، اما برای پیروی از دستورالعمل های انسانی آموزش ندیده اند. این مدل ها به آموزش یا تنظیم اضافی نیاز دارند تا بتوانند وظایف را به طور موثر انجام دهند، و برای محققان یا توسعه دهندگانی که می خواهند قابلیت های مدل و معماری آن را مطالعه یا توسعه دهند، در نظر گرفته شده است.
    • گونه‌های Gemma با تنظیم دقیق (FT) را می‌توان انواع IT در نظر گرفت، اما معمولاً برای انجام یک کار خاص یا عملکرد خوبی بر روی یک معیار هوش مصنوعی مولد خاص آموزش دیده‌اند. خانواده انواع PaliGemma شامل تعدادی از انواع FT است.
    • انواع Mixed (Mix) Gemma نسخه هایی از مدل های PaliGemma هستند که دستورالعمل ها با دستورالعمل های مختلف تنظیم شده اند و برای استفاده عمومی مناسب هستند.
  • پارامترها : کوچکترین تعداد موجود را توصیه کنید . به طور کلی، هر چه یک مدل پارامترهای بیشتری داشته باشد، توانایی آن بیشتر است. با این حال، اجرای مدل‌های بزرگ‌تر به منابع محاسباتی بزرگ‌تر و پیچیده‌تری نیاز دارد و به طور کلی توسعه یک برنامه هوش مصنوعی را کند می‌کند. مگر اینکه قبلاً تعیین کرده باشید که یک مدل جما کوچکتر نمی تواند نیازهای شما را برآورده کند، مدلی با تعداد کمی پارامتر انتخاب کنید.
  • سطوح کوانتیزاسیون: به جز برای تنظیم، نیم دقت (16 بیت) را توصیه می کند . Quantization یک موضوع پیچیده است که به اندازه و دقت داده ها و در نتیجه میزان حافظه یک مدل هوش مصنوعی مولد برای محاسبات و تولید پاسخ ها خلاصه می شود. پس از آموزش یک مدل با داده‌های با دقت بالا، که معمولاً داده‌های ممیز شناور 32 بیتی هستند، مدل‌هایی مانند Gemma را می‌توان برای استفاده از داده‌های با دقت پایین‌تر مانند اندازه‌های 16، 8 یا 4 بیتی تغییر داد. این مدل‌های جما کوانتیزه‌شده همچنان بسته به پیچیدگی کارها می‌توانند عملکرد خوبی داشته باشند، در حالی که از منابع محاسباتی و حافظه به‌طور قابل توجهی استفاده می‌کنند. با این حال، ابزارهای تنظیم مدل های کوانتیزه محدود هستند و ممکن است در چارچوب توسعه هوش مصنوعی انتخابی شما در دسترس نباشند. به طور معمول، شما باید مدلی مانند Gemma را با دقت کامل تنظیم کنید، سپس مدل حاصل را کمی کنید.

برای لیستی از مدل های کلیدی Gemma منتشر شده توسط Google، به شروع با مدل های Gemma ، لیست مدل Gemma مراجعه کنید.

درخواست های تولید و استنتاج را اجرا کنید

پس از اینکه یک چارچوب اجرای هوش مصنوعی و یک نوع Gemma را انتخاب کردید، می‌توانید مدل را اجرا کنید و از آن بخواهید محتوا تولید کند یا وظایف را کامل کند. برای اطلاعات بیشتر در مورد نحوه اجرای Gemma با یک فریمورک خاص، به راهنماهای پیوند شده در بخش Choose a Framework مراجعه کنید.

قالب بندی سریع

همه انواع Gemma که توسط دستورالعمل تنظیم شده اند، الزامات قالب بندی سریع خاصی دارند. برخی از این الزامات قالب‌بندی به‌طور خودکار توسط چارچوبی که برای اجرای مدل‌های Gemma استفاده می‌کنید انجام می‌شود، اما زمانی که داده‌های فوری را مستقیماً به یک نشانه‌ساز ارسال می‌کنید، باید برچسب‌های خاصی را اضافه کنید، و الزامات برچسب‌گذاری می‌تواند بسته به نوع Gemma که استفاده می‌کنید تغییر کند. برای اطلاعات در مورد قالب بندی سریع نسخه Gemma و دستورالعمل های سیستم به راهنماهای زیر مراجعه کنید: