פריסה של Gemma 3 ב-Cloud Run באמצעות Google AI Studio

במדריך הזה תלמדו איך לפרוס מודלים פתוחים של Gemma 3 ב-Cloud Run בלחיצה אחת ב-Google AI Studio.

Google AI Studio היא פלטפורמה מבוססת-דפדפן שמאפשרת לנסות מודלים במהירות ולהתנסות בהנחיות שונות. אחרי שמזינים הנחיה בצ'אט כדי לתכנן אב טיפוס של אפליקציית אינטרנט שמשתמשת במודל Gemma 3 שנבחר, אפשר לבחור באפשרות פריסה ל-Cloud Run כדי להריץ את מודל Gemma בשירות Cloud Run עם תמיכה ב-GPU.

כשמשתמשים ב-Google AI Studio כדי לפרוס שירות חזית שנוצר ב-Cloud Run, אפשר לדלג על רוב שלבי ההגדרה של הכנת קונטיינר, כי Cloud Run מספק קונטיינר מובנה מראש להצגת מודלים פתוחים של Gemma ב-Cloud Run שתומך ב-Google Gen AI SDK.

תחילת העבודה עם Google AI Studio

בקטע הזה נסביר איך לפרוס את Gemma 3 ב-Cloud Run באמצעות Google AI Studio.

  1. בוחרים מודל Gemma ב-Google AI Studio.

    כניסה ל-Google AI Studio

    בחלונית Run settings בדף Chat, משתמשים במודל ברירת המחדל של Gemma או בוחרים באחד מהמודלים של Gemma.

  2. בסרגל העליון, בוחרים באפשרות View more actions (הצגת פעולות נוספות) ולוחצים על Deploy to Cloud Run (פריסה ב-Cloud Run).

  3. בתיבת הדו-שיח Deploy Gemma 3 on Google Cloud Run, פועלים לפי ההוראות כדי ליצור פרויקט חדש ב-Google Cloud או בוחרים פרויקט קיים. אם אין חשבון לחיוב משויך, יכול להיות שתופיע בקשה להפעיל את החיוב.

  4. אחרי שמערכת Google AI Studio תאמת את הפרויקט, לוחצים על פריסה ב-Google Cloud.

  5. אחרי שפרסתם את מודל Gemma 3 ב-Google Cloud, תוצג תיבת הדו-שיח הבאה:

    • כתובת URL של נקודת קצה ב-Cloud Run של שירות Cloud Run שבו פועלים Gemma 3 ו-Ollama.
    • מפתח API שנוצר ומשמשים לאימות באמצעות ספריות Gemini API. המפתח הזה מוגדר כמשתנה סביבה של שירות Cloud Run שנפרס, כדי לאשר בקשות נכנסות. מומלץ לשנות את מפתח ה-API כך שישתמש באימות IAM. פרטים נוספים זמינים במאמר אינטראקציה מאובטחת עם Google Gen AI SDK.
    • קישור לשירות Cloud Run במסוף Google Cloud. כדי לקבל מידע על הגדרות ברירת המחדל של השירות ב-Cloud Run, עוברים לקישור ובוחרים באפשרות Edit & deploy new revision (עריכה ופריסה של גרסה חדשה) כדי להציג או לשנות את הגדרות התצורה.
  6. כדי להציג את קוד הדוגמה של Gemini API ששימש ליצירת שירות Cloud Run, בוחרים באפשרות Get Code.

  7. אופציונלי: מעתיקים את הקוד ומבצעים בו שינויים לפי הצורך.

אתם יכולים להשתמש בקוד שלכם בנקודת הקצה (endpoint) ובמפתח ה-API של Cloud Run שנפרסו באמצעות Google Gen AI SDK.

לדוגמה, אם אתם משתמשים ב-Google Gen AI SDK ל-Python, קוד Python עשוי להיראות כך:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

לתשומת ליבכם

כשפורסים שירות Cloud Run מ-Google AI Studio, חשוב לשקול את האפשרויות הבאות:

  • תמחור: Cloud Run הוא רכיב שאפשר לחייב עליו. כדי ליצור הערכת עלות על סמך השימוש החזוי, תוכלו להשתמש במחשבון התמחור.
  • מכסה: Cloud Run שולח באופן אוטומטי בקשה למכסה של Request Total Nvidia L4 GPU allocation, per project per region במסגרת Cloud Run Admin API.
  • שרת proxy לאפליקציות: השירות שנפרס משתמש בשרת ה-proxy של Gemini לאפליקציות של Google AI Studio כדי לעטוף את Ollama ולהפוך את השירות שלכם לתואם ל-Gemini API.
  • הרשאות: אם אתם צריכים לשנות את שירות Cloud Run, עליכם לקבל את תפקידי ה-IAM הנדרשים לחשבון שלכם בפרויקט.
  • אימות: כברירת מחדל, כשפורסים שירות Cloud Run מ-Google AI Studio, השירות מופעל עם גישה ציבורית (לא מאומתת) (דגל --allow-unauthenticated). כדי להשתמש במנגנון אבטחה חזק יותר, מומלץ לבצע אימות באמצעות IAM.

המאמרים הבאים

איך מבצעים פריסה ב-Cloud Run מ-Google AI Studio – שיטות מומלצות לאבטחה ולביצוע אופטימיזציה של הביצועים