הפעלת Gemma באמצעות Ollama

הפעלת מודלים של בינה מלאכותית (AI) גנרטיבית כמו Gemma יכולה להיות מאתגרת בלי החומרה המתאימה. מסגרות קוד פתוח כמו llama.cpp ו-Ollama מקלות על התהליך הזה. הן מאפשרות להגדיר סביבת זמן ריצה שהוגדרה מראש, שבה אפשר להריץ גרסאות של Gemma עם פחות משאבי מחשוב. למעשה, באמצעות llama.cpp ו-Ollama אפשר להריץ גרסאות של Gemma במחשב נייד או במכשיר מחשוב קטן אחר ללא יחידת עיבוד גרפי (GPU).

כדי להפעיל מודלים של Gemma עם פחות משאבי מחשוב, נעשה שימוש בגרסאות קוונטיות של המודלים בפורמט קובץ המודל Georgi Gerganov Unified Format ‏ (GGUF) במסגרות llama.cpp ו-Ollama. המודלים הכמותיים האלה עוברים שינוי כדי לעבד בקשות באמצעות נתונים קטנים יותר ולא מדויקים. שימוש בנתונים פחות מדויקים במודלים שעברו קוונטיזציה כדי לעבד בקשות בדרך כלל מוריד את האיכות של הפלט של המודלים, אבל היתרון הוא שגם עלויות משאבי המחשוב יורדות.

במדריך הזה מוסבר איך להגדיר את Ollama ולהשתמש בו כדי להריץ את Gemma וליצור תגובות טקסט.

הגדרה

בקטע הזה מוסבר איך להגדיר את Ollama ולהכין מופע של מודל Gemma כדי להשיב לבקשות, כולל בקשת גישה למודל, התקנת תוכנה והגדרת מודל Gemma ב-Ollama.

התקנת Ollama

כדי להשתמש ב-Gemma עם Ollama, צריך להוריד ולהתקין את תוכנת Ollama במכשיר המחשוב.

כדי להוריד ולהתקין את Ollama:

  1. עוברים לדף ההורדה: https://ollama.com/download
  2. בוחרים את מערכת ההפעלה, לוחצים על הלחצן הורדה או פועלים לפי ההוראות בדף ההורדה.
  3. מריצים את קובץ ההתקנה כדי להתקין את האפליקציה.
    • Windows: מריצים את קובץ ההתקנה ‎ *.exe ופועלים לפי ההוראות.
    • Mac: פורקים את חבילת ה-zip ומעבירים את תיקיית האפליקציה Ollama לספריית Applications.
    • Linux: פועלים לפי ההוראות במתקין של סקריפט bash.
  4. כדי לוודא ש-Ollama מותקן, פותחים חלון טרמינל ומזינים את הפקודה הבאה:

    ollama --version

אמורה להתקבל תגובה דומה לזו: ollama version is #.#.##. אם לא קיבלתם את התוצאה הזו, ודאו שקובץ ההפעלה של Ollama נוסף לנתיב של מערכת ההפעלה.

הגדרת Gemma ב-Ollama

חבילת ההתקנה של Ollama לא כוללת מודלים כברירת מחדל. מורידים מודל באמצעות הפקודה pull.

כדי להגדיר את Gemma ב-Ollama:

  1. כדי להוריד ולהגדיר את וריאנט ברירת המחדל של Gemma 4, פותחים חלון טרמינל ומזינים את הפקודה הבאה:

    ollama pull gemma4

  2. אחרי שמסיימים את ההורדה, אפשר לוודא שהמודל זמין באמצעות הפקודה הבאה:

    ollama list

המודלים מצוינים כ-<model_name>:<tag>. ‫Gemma 4, ארבעה גדלים: פרמטרים של E2B,‏ E4B, ‏ 26B ו-31B:

  • פרמטרים של E2B gemma4:e2b
  • פרמטרים של E4B gemma4:e4b
  • ‫26B A4B Parameters gemma4:26b
  • פרמטרים של 31B gemma4:31b

אפשר למצוא את התגים הזמינים באתר Ollama, כולל Gemma 4, Gemma 3n, ‏ Gemma 3, ‏ Gemma 2 ו-Gemma.

יצירת תשובות

אחרי שמסיימים להתקין מודל Gemma ב-Ollama, אפשר ליצור תשובות באופן מיידי באמצעות ממשק שורת הפקודה של Ollama, הפקודה run. ‫Ollama גם מגדיר שירות אינטרנט לגישה למודל, שאפשר לבדוק באמצעות הפקודה curl.

כדי ליצור תשובה משורת הפקודה:

  • בחלון המסוף, מזינים את הפקודה הבאה:

    ollama run gemma4 "roses are red"
    
  • כדי להשתמש בקלט חזותי, צריך לכלול את הנתיב לתמונה:

    ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
    

כדי ליצור תגובה באמצעות שירות האינטרנט המקומי של Ollama:

  • בחלון המסוף, מזינים את הפקודה הבאה:

    curl http://localhost:11434/api/generate -d '{\
          "model": "gemma4",\
          "prompt":"roses are red"\
    }'
    
  • כדי להשתמש בקלט חזותי, צריך לכלול רשימה של תמונות בקידוד Base64:

    curl http://localhost:11434/api/generate -d '{\
          "model": "gemma4",\
          "prompt":"caption this image",\
          "images":[...]\
    }'
    

מודלים מכווננים של Gemma

‫Ollama מספקת קבוצה של וריאציות רשמיות של מודל Gemma לשימוש מיידי, שעברו קוונטיזציה ונשמרו בפורמט GGUF. אתם יכולים להשתמש במודלים של Gemma שעברו כוונון באמצעות Ollama, על ידי המרה שלהם לפורמט GGUF. ‫Ollama כולל כמה פונקציות להמרת מודלים שעברו כוונון מפורמט Modelfile ל-GGUF. מידע נוסף על המרת מודל שעבר התאמה ל-GGUF זמין בקובץ README של Ollama.

השלבים הבאים

אחרי שמפעילים את Gemma עם Ollama, אפשר להתחיל להתנסות וליצור פתרונות באמצעות יכולות ה-AI הגנרטיבי של Gemma. ממשק שורת הפקודה של Ollama יכול להיות שימושי ליצירת פתרונות לסקריפטים. ממשק שירות האינטרנט המקומי של Ollama יכול להיות שימושי לבניית אפליקציות ניסיוניות ולשימוש בנפח נמוך.