وقتی میخواهید یک مدل Gemma را اجرا کنید، دو تصمیم کلیدی باید بگیرید: 1) چه نوع Gemma را میخواهید اجرا کنید، و 2) از چه چارچوب اجرای هوش مصنوعی برای اجرای آن استفاده میکنید؟ یک مسئله کلیدی در اتخاذ هر دو این تصمیمات مربوط به سخت افزاری است که شما و کاربرانتان برای اجرای مدل در دسترس دارید.
این نمای کلی به شما کمک می کند تا در این تصمیمات پیمایش کنید و کار با مدل های Gemma را شروع کنید. مراحل کلی اجرای یک مدل Gemma به شرح زیر است:
- یک چارچوب برای اجرا انتخاب کنید
- یک نوع Gemma را انتخاب کنید
- درخواست های تولید و استنتاج را اجرا کنید
چارچوبی را انتخاب کنید
مدلهای Gemma با انواع چارچوبهای اجرایی هوش مصنوعی مولد سازگار هستند. یکی از عوامل کلیدی تصمیم گیری در اجرای یک مدل Gemma این است که چه منابع محاسباتی برای اجرای مدل در دسترس دارید (یا خواهید داشت). بیشتر چارچوبهای هوش مصنوعی سازگار به سختافزار تخصصی مانند GPU یا TPU برای اجرای مؤثر مدل Gemma نیاز دارند. ابزارهایی مانند Google Colab می توانند این منابع محاسباتی تخصصی را به صورت محدود ارائه دهند. برخی از چارچوبهای اجرای هوش مصنوعی، مانند Ollama و Gemma.cpp ، به شما امکان میدهند Gemma را روی پردازندههای متداولتر با استفاده از معماریهای سازگار با x86 یا ARM اجرا کنید.
در اینجا راهنمای اجرای مدلهای Gemma با چارچوبهای زمان اجرا هوش مصنوعی مختلف آورده شده است:
- اولاما
- ترانسفورماتورهای صورت در آغوش کشیدن
- کتابخانه Gemma برای JAX
- کراس
- PyTorch
- MediaPipe LLM Inference API
- ترانسفورماتورهای صورت در آغوش کشیدن
- Gemma.cpp
- vLLM
- Google Cloud Vertex AI
- Google Cloud Run
- Google Cloud Kubernetes Engine (GKE)
اطمینان حاصل کنید که قالب مدل Gemma استقرار مورد نظر شما، مانند قالب بومی Keras، Safetensors، یا GGUF توسط چارچوب انتخابی شما پشتیبانی میشود.
یک نوع Gemma را انتخاب کنید
مدلهای Gemma در انواع و اندازههای مختلف موجود هستند، از جمله مدلهای پایه یا هسته Gemma، و انواع مدلهای تخصصیتر مانند PaliGemma و DataGemma ، و بسیاری از انواع ایجاد شده توسط جامعه توسعهدهندگان هوش مصنوعی در سایتهایی مانند Kaggle و Hugging Face . اگر مطمئن نیستید که با چه نوع دیگری باید شروع کنید، آخرین مدل Gemma core instruction-tuned (IT) را با کمترین تعداد پارامتر انتخاب کنید. این نوع از مدل Gemma نیازهای محاسباتی کمی دارد و قادر است به طیف گسترده ای از درخواست ها بدون نیاز به توسعه اضافی پاسخ دهد.
هنگام انتخاب نوع Gemma فاکتورهای زیر را در نظر بگیرید:
- هسته Gemma، و خانواده های دیگر مانند PaliGemma، CodeGemma : Gemma (هسته) را توصیه کنید. انواع Gemma فراتر از نسخه اصلی معماری مشابهی با مدل اصلی دارند و برای انجام بهتر در کارهای خاص آموزش دیده اند. اگر برنامه یا اهداف شما با تخصص یک نوع خاص Gemma هماهنگ نباشد، بهتر است با یک هسته یا مدل پایه Gemma شروع کنید.
- تنظیم شده (IT)، از پیش آموزش دیده (PT)، تنظیم دقیق (FT)، ترکیبی (میکس) : IT را توصیه کنید.
- انواع Gemma با تنظیم دستورالعمل (IT) مدل هایی هستند که برای پاسخگویی به دستورالعمل ها یا درخواست های مختلف به زبان انسان آموزش دیده اند. این مدلهای مدل بهترین مکان برای شروع هستند زیرا میتوانند بدون آموزش بیشتر مدل به درخواستها پاسخ دهند.
- انواع Gemma از پیش آموزش دیده (PT) مدل هایی هستند که برای استنباط در مورد زبان یا سایر داده ها آموزش دیده اند، اما برای پیروی از دستورالعمل های انسانی آموزش ندیده اند. این مدل ها به آموزش یا تنظیم اضافی نیاز دارند تا بتوانند وظایف را به طور موثر انجام دهند، و برای محققان یا توسعه دهندگانی که می خواهند قابلیت های مدل و معماری آن را مطالعه یا توسعه دهند، در نظر گرفته شده است.
- گونههای Gemma با تنظیم دقیق (FT) را میتوان انواع IT در نظر گرفت، اما معمولاً برای انجام یک کار خاص یا عملکرد خوبی بر روی یک معیار هوش مصنوعی مولد خاص آموزش دیدهاند. خانواده انواع PaliGemma شامل تعدادی از انواع FT است.
- انواع Mixed (Mix) Gemma نسخه هایی از مدل های PaliGemma هستند که دستورالعمل ها با دستورالعمل های مختلف تنظیم شده اند و برای استفاده عمومی مناسب هستند.
- پارامترها : کوچکترین تعداد موجود را توصیه کنید . به طور کلی، هر چه یک مدل پارامترهای بیشتری داشته باشد، توانایی آن بیشتر است. با این حال، اجرای مدلهای بزرگتر به منابع محاسباتی بزرگتر و پیچیدهتری نیاز دارد و به طور کلی توسعه یک برنامه هوش مصنوعی را کند میکند. مگر اینکه قبلاً تعیین کرده باشید که یک مدل جما کوچکتر نمی تواند نیازهای شما را برآورده کند، مدلی با تعداد کمی پارامتر انتخاب کنید.
- سطوح کوانتیزاسیون: به جز برای تنظیم، نیم دقت (16 بیت) را توصیه می کند . Quantization یک موضوع پیچیده است که به اندازه و دقت داده ها و در نتیجه میزان حافظه یک مدل هوش مصنوعی مولد برای محاسبات و تولید پاسخ ها خلاصه می شود. پس از آموزش یک مدل با دادههای با دقت بالا، که معمولاً دادههای ممیز شناور 32 بیتی هستند، مدلهایی مانند Gemma را میتوان برای استفاده از دادههای با دقت پایینتر مانند اندازههای 16، 8 یا 4 بیتی تغییر داد. این مدلهای جما کوانتیزهشده همچنان بسته به پیچیدگی کارها میتوانند عملکرد خوبی داشته باشند، در حالی که از منابع محاسباتی و حافظه بهطور قابل توجهی استفاده میکنند. با این حال، ابزارهای تنظیم مدل های کوانتیزه محدود هستند و ممکن است در چارچوب توسعه هوش مصنوعی انتخابی شما در دسترس نباشند. به طور معمول، شما باید مدلی مانند Gemma را با دقت کامل تنظیم کنید، سپس مدل حاصل را کمی کنید.
برای لیستی از مدل های کلیدی Gemma منتشر شده توسط Google، به شروع با مدل های Gemma ، لیست مدل Gemma مراجعه کنید.
درخواست های تولید و استنتاج را اجرا کنید
پس از اینکه یک چارچوب اجرای هوش مصنوعی و یک نوع Gemma را انتخاب کردید، میتوانید مدل را اجرا کنید و از آن بخواهید محتوا تولید کند یا وظایف را کامل کند. برای اطلاعات بیشتر در مورد نحوه اجرای Gemma با یک فریمورک خاص، به راهنماهای پیوند شده در بخش Choose a Framework مراجعه کنید.
قالب بندی سریع
همه انواع Gemma که توسط دستورالعمل تنظیم شده اند، الزامات قالب بندی سریع خاصی دارند. برخی از این الزامات قالببندی بهطور خودکار توسط چارچوبی که برای اجرای مدلهای Gemma استفاده میکنید انجام میشود، اما زمانی که دادههای فوری را مستقیماً به یک نشانهساز ارسال میکنید، باید برچسبهای خاصی را اضافه کنید، و الزامات برچسبگذاری میتواند بسته به نوع Gemma که استفاده میکنید تغییر کند. برای اطلاعات در مورد قالب بندی سریع نسخه Gemma و دستورالعمل های سیستم به راهنماهای زیر مراجعه کنید: