הפעלת Gemma באמצעות Ollama

הפעלת מודלים של בינה מלאכותית (AI) גנרטיבית כמו Gemma יכולה להיות מאתגרת בלי החומרה המתאימה. מסגרות קוד פתוח כמו llama.cpp ו-Ollama עוזרות לעשות זאת בקלות רבה יותר על ידי הגדרת סביבת זמן ריצה מוגדרת מראש שמאפשרת להריץ גרסאות של Gemma עם פחות משאבי מחשוב. למעשה, באמצעות llama.cpp ו-Ollama אפשר להריץ גרסאות של Gemma במחשב נייד או במכשיר מחשוב קטן אחר בלי יחידת עיבוד גרפי (GPU).

כדי להריץ מודלים של Gemma עם פחות משאבי מחשוב, המסגרות llama.cpp ו-Ollama משתמשות בגרסאות מוקצנות של המודלים בפורמט הקובץ GPT-Generated Unified Format‏ (GGUF). המודלים האלה עוברים שינוי כדי לעבד בקשות באמצעות נתונים קטנים יותר ולא מדויקים. שימוש בנתונים פחות מדויקים במודלים מקוטעים לעיבוד בקשות בדרך כלל מוריד את איכות הפלט של המודלים, אבל מצד שני מפחית את עלויות משאבי המחשוב.

במדריך הזה מוסבר איך להגדיר את Ollama ולהשתמש בה כדי להריץ את Gemma ליצירת תשובות טקסט.

הגדרה

בקטע הזה נסביר איך מגדירים את Ollama ומכינים מכונה של מודל Gemma כדי להגיב לבקשות, כולל בקשה לגישה למודל, התקנת תוכנה והגדרת מודל Gemma ב-Ollama.

גישה למודלים של Gemma

לפני שמתחילים לעבוד עם מודלים של Gemma, חשוב לוודא ששלחתם בקשת גישה דרך Kaggle ועיינתם בתנאי השימוש של Gemma.

התקנת Ollama

כדי להשתמש ב-Gemma עם Ollama, צריך להוריד ולהתקין את תוכנת Ollama במחשב.

כדי להוריד ולהתקין את Ollama:

  1. עוברים לדף ההורדה: https://ollama.com/download
  2. בוחרים את מערכת ההפעלה, לוחצים על הלחצן Download או פועלים לפי ההוראות בדף ההורדה.
  3. מריצים את מנהל ההתקנה כדי להתקין את האפליקציה.
    • Windows: מריצים את קובץ ה-exe. של מנהל ההתקנה ופועלים לפי ההוראות.
    • Mac: פותחים את חבילת ה-zip ומעבירים את תיקיית האפליקציה Ollama לספרייה Applications.
    • Linux: פועלים לפי ההוראות במתקין הסקריפטים של bash.
  4. כדי לוודא ש-Ollama מותקן, פותחים חלון טרמינל ומזינים את הפקודה הבאה:

    ollama --version
    

התגובה אמורה להיות דומה לדוגמה הבאה: ollama version is #.#.##. אם התוצאה לא מופיעה, צריך לוודא שהקובץ ההפעלה של Ollama נוסף לנתיב של מערכת ההפעלה.

הגדרת Gemma ב-Ollama

חבילת ההתקנה של Ollama לא כוללת מודלים כברירת מחדל. כדי להוריד מודל, משתמשים בפקודה pull.

כדי להגדיר את Gemma ב-Ollama:

  1. כדי להוריד ולהגדיר את גרסת ברירת המחדל של Gemma 2, פותחים חלון מסוף ומזינים את הפקודה הבאה:

    ollama pull gemma2
    
  2. אחרי השלמת ההורדה, אפשר לוודא שהמודל זמין באמצעות הפקודה הבאה:

    ollama list
    

כברירת מחדל, Ollama מורידים את וריאנט המודל של Gemma עם 9 מיליארד פרמטרים, וקידוד 4 ביט (Q4_0). אפשר גם להוריד גדלים אחרים של המודל Gemma ולהשתמש בהם על ידי ציון גודל של פרמטר.

המודלים מצוינים כ-<model_name>:<tag>. עבור מודל Gemma 2 עם 2 מיליארד פרמטרים, מזינים gemma2:2b. לדגם עם 27 מיליארד פרמטרים, מזינים gemma2:27b. התגים הזמינים מפורטים באתר של Ollama, כולל Gemma 2 ו-Gemma.

יצירת תשובות

אחרי שתסיימו להתקין מודל Gemma ב-Ollama, תוכלו ליצור תשובות באופן מיידי באמצעות הפקודה run בממשק שורת הפקודה של Ollama. Ollama מגדירה גם שירות אינטרנט לגישה למודל, שאפשר לבדוק באמצעות הפקודה curl.

כדי ליצור תגובה משורת הפקודה:

  • בחלון מסוף, מזינים את הפקודה הבאה:

    ollama run gemma2 "roses are red"
    

כדי ליצור תגובה באמצעות שירות האינטרנט המקומי של Ollama:

  • בחלון מסוף, מזינים את הפקודה הבאה:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma2",\
      "prompt":"roses are red"\
    }'
    

מודלים מותאמים של Gemma

Ollama מספקת קבוצה של וריאנטים רשמיים של מודלים של Gemma לשימוש מיידי, שמקונטיזים ונשמרים בפורמט GGUF. אתם יכולים להשתמש במודלים מותאמים אישית של Gemma ב-Ollama על ידי המרתם לפורמט GGUF. Ollama כולל כמה פונקציות להמרת מודלים מותאמים מפורמט Modelfile ל-GGUF. מידע נוסף על המרת המודל המכוונן ל-GGUF זמין בקובץ ה-README של Ollama.

השלבים הבאים

אחרי שתפעילו את Gemma עם Ollama, תוכלו להתחיל להתנסות ולפתח פתרונות באמצעות יכולות ה-AI הגנרטיבי של Gemma. ממשק שורת הפקודה של Ollama יכול להיות שימושי לפיתוח פתרונות של סקריפטים. ממשק האינטרנט המקומי של Ollama יכול להיות שימושי לפיתוח אפליקציות ניסיוניות ואפליקציות לשימוש בנפח נמוך.