Gemma 3n – הגרסה החדשה כוללת קלט אודיו ועברה אופטימיזציה לשימוש במכשירים יומיומיים. מידע נוסף

דף זה תורגם על ידי Cloud Translation API.

הסקת מסקנות מ-CodeGemma באמצעות JAX ו-Flatx

אנחנו שמחים להציג את CodeGemma – אוסף של מודלים בקוד פתוח שמבוססים על המודלים של Gemma מ-Google DeepMind (Gemma Team et al., 2024). CodeGemma היא משפחה של מודלים פתוחים וקלים לייצור, שמבוססים על אותם מחקר וטכנולוגיה ששימשו ליצירת המודלים של Gemini.

בהמשך למודלים המאומנים מראש של Gemma, מודלים של CodeGemma עוברים אימון נוסף על יותר מ-500 עד 1,000 מיליארד אסימונים של קוד בעיקר, באמצעות אותן ארכיטקטורות כמו משפחת המודלים של Gemma. כתוצאה מכך, מודלים של CodeGemma מניבים ביצועי קוד מתקדמים גם במשימות השלמה וגם במשימות יצירה, תוך שמירה על יכולות הבנה וסיבה חזקות בקנה מידה נרחב.

ל-CodeGemma יש 3 וריאציות:

מודל שעבר אימון מקדים על 7 מיליארד שורות קוד
מודל קוד עם כוונון לפי הוראות 7B
מודל 2B, שאומן במיוחד למילוי קוד וליצירה פתוחה.

במדריך הזה נסביר איך משתמשים במודל CodeGemma עם Flax כדי להשלים משימת קוד.

הגדרה

1. הגדרת גישה ל-Kaggle ב-CodeGemma

כדי להשלים את המדריך הזה, קודם צריך לפעול לפי הוראות ההגדרה במאמר הגדרת Gemma, שבו מוסבר איך לבצע את הפעולות הבאות:

אפשר לקבל גישה ל-CodeGemma בכתובת kaggle.com.
בוחרים סביבת זמן ריצה ב-Colab עם משאבים מספיקים (ל-T4 GPU אין מספיק זיכרון, צריך להשתמש ב-TPU v2 במקום זאת) כדי להריץ את מודל CodeGemma.
יצירת שם משתמש ומפתח API ב-Kaggle והגדרתם.

אחרי שתסיימו את הגדרת Gemma, תוכלו לעבור לקטע הבא שבו תגדירו משתני סביבה לסביבת Colab.

2. הגדרה של משתני סביבה

מגדירים את משתני הסביבה KAGGLE_USERNAME ו-KAGGLE_KEY. כשמוצגת ההודעה 'מתן גישה?', מאשרים את הבקשה לגשת לסוד.

import os
from google.colab import userdata # `userdata` is a Colab API.

os.environ["KAGGLE_USERNAME"] = userdata.get('KAGGLE_USERNAME')
os.environ["KAGGLE_KEY"] = userdata.get('KAGGLE_KEY')

3. התקנת הספרייה `gemma`

כרגע, שיפור המהירות באמצעות חומרה ב-Colab בחינם insufficient כדי להריץ את ה-notebook הזה. אם אתם משתמשים ב-Colab Pay As You Go או ב-Colab Pro, לוחצים על Edit (עריכה) > Notebook settings (הגדרות notebook) > בוחרים באפשרות A100 GPU (GPU מסוג A100) > Save (שמירה) כדי להפעיל את שיפור המהירות באמצעות החומרה.

בשלב הבא, צריך להתקין את ספריית gemma של Google DeepMind מ-github.com/google-deepmind/gemma. אם מופיעה שגיאה לגבי 'פותר יחסי התלות של pip', בדרך כלל אפשר להתעלם ממנה.

pip install -q git+https://github.com/google-deepmind/gemma.git

4. ייבוא ספריות

ביומן הזה נעשה שימוש ב-Gemma (שמשתמש ב-Flax כדי ליצור את השכבות של רשת העצבים שלו) וב-SentencePiece (לצורך יצירת אסימונים).

import os
from gemma.deprecated import params as params_lib
from gemma.deprecated import sampler as sampler_lib
from gemma.deprecated import transformer as transformer_lib
import sentencepiece as spm

טעינת המודל של CodeGemma

טוענים את מודל CodeGemma באמצעות kagglehub.model_download, עם שלושה ארגומנטים:

handle: ה-handle של המודל מ-Kaggle
path: (מחרוזת אופציונלית) הנתיב המקומי
force_download: (בוליאני אופציונלי) מאלץ להוריד מחדש את המודל

GEMMA_VARIANT = '2b-pt' # @param ['2b-pt', '7b-it', '7b-pt', '1.1-2b-pt', '1.1-7b-it'] {type:"string"}

import kagglehub

GEMMA_PATH = kagglehub.model_download(f'google/codegemma/flax/{GEMMA_VARIANT}')

Warning: Looks like you're using an outdated `kagglehub` version, please consider updating (latest version: 0.2.7)
Downloading from https://www.kaggle.com/api/v1/models/google/codegemma/flax/2b-pt/3/download...
100%|██████████| 3.67G/3.67G [00:22<00:00, 173MB/s]
Extracting model files...

print('GEMMA_PATH:', GEMMA_PATH)

GEMMA_PATH: /root/.cache/kagglehub/models/google/codegemma/flax/2b-pt/3

בודקים את המיקום של משקלות המודל ושל ה-tokenizer, ואז מגדירים את משתני הנתיב. ספריית ה-tokenizer תהיה בספרייה הראשית שבה הורדתם את המודל, והמשקלים של המודל יהיו בספריית משנה. לדוגמה:

קובץ ה-tokenizer של spm.model יהיה ב-/LOCAL/PATH/TO/codegemma/flax/2b-pt/3
נקודת הבדיקה של המודל תהיה ב-/LOCAL/PATH/TO/codegemma/flax/2b-pt/3/2b-pt

CKPT_PATH = os.path.join(GEMMA_PATH, GEMMA_VARIANT[-5:])
TOKENIZER_PATH = os.path.join(GEMMA_PATH, 'spm.model')
print('CKPT_PATH:', CKPT_PATH)
print('TOKENIZER_PATH:', TOKENIZER_PATH)

CKPT_PATH: /root/.cache/kagglehub/models/google/codegemma/flax/2b-pt/3/2b-pt
TOKENIZER_PATH: /root/.cache/kagglehub/models/google/codegemma/flax/2b-pt/3/spm.model

ביצוע דגימה/הסקה

טוענים את נקודת הבדיקה של מודל CodeGemma ומעבירים אותה לפורמט באמצעות השיטה gemma.params.load_and_format_params:

params = params_lib.load_and_format_params(CKPT_PATH)

טוענים את מקודד הטקסט של CodeGemma, שנוצר באמצעות sentencepiece.SentencePieceProcessor:

vocab = spm.SentencePieceProcessor()
vocab.Load(TOKENIZER_PATH)

True

כדי לטעון באופן אוטומטי את התצורה הנכונה מנקודת הבדיקה של מודל CodeGemma, משתמשים ב-gemma.deprecated.transformer.TransformerConfig. הארגומנט cache_size הוא מספר שלבי הזמן במטמון Transformer של CodeGemma. לאחר מכן יוצרים מופע של מודל CodeGemma בתור model_2b באמצעות gemma.deprecated.transformer.Transformer (ששואב בירושה מ-flax.linen.Module).

transformer_config = transformer_lib.TransformerConfig.from_params(
    params,
    cache_size=1024
)

transformer = transformer_lib.Transformer(config=transformer_config)

יוצרים sampler באמצעות gemma.sampler.Sampler. הוא משתמש בנקודת הבדיקה של מודל CodeGemma ובמקודד.

sampler = sampler_lib.Sampler(
    transformer=transformer,
    vocab=vocab,
    params=params['transformer']
)

יוצרים משתנים שמייצגים את האסימונים של מילוי החסר (fim) ויוצרים פונקציות עזר כדי לעצב את ההנחיה ואת הפלט שנוצר.

לדוגמה, נסתכל על הקוד הבא:

def function(string):
assert function('asdf') == 'fdsa'

אנחנו רוצים למלא את function כך שהטענה True תהיה נכונה. במקרה כזה, התחילית תהיה:

"def function(string):\n"

הסיומת תהיה:

"assert function('asdf') == 'fdsa'"

לאחר מכן אנחנו מעצבים את הנתונים האלה כהודעת הנחיה לפי הפורמט PREFIX-SUFFIX-MIDDLE (החלק האמצעי שצריך למלא תמיד מופיע בסוף ההודעה):

"<|fim_prefix|>def function(string):\n<|fim_suffix|>assert function('asdf') == 'fdsa'<|fim_middle|>"

# In the context of a code editor,
# the cursor is the location where the text will be inserted
BEFORE_CURSOR = "<|fim_prefix|>"
AFTER_CURSOR = "<|fim_suffix|>"
AT_CURSOR = "<|fim_middle|>"
FILE_SEPARATOR = "<|file_separator|>"

def format_completion_prompt(before, after):
  print(f"\nORIGINAL PROMPT:\n{before}{after}")
  prompt = f"{BEFORE_CURSOR}{before}{AFTER_CURSOR}{after}{AT_CURSOR}"
  print(f"\nFORMATTED PROMPT:\n{repr(prompt)}")
  return prompt
def format_generated_output(before, after, output):
  print(f"\nGENERATED OUTPUT:\n{repr(output)}")
  formatted_output = f"{before}{output.replace(FILE_SEPARATOR, '')}{after}"
  print(f"\nFILL-IN COMPLETION:\n{formatted_output}")
  return formatted_output

יוצרים הנחיה ומבצעים היסק. מציינים את הטקסט של הקידומת before ואת הטקסט של הסיומת after ויוצרים את ההנחיה המעוצבת באמצעות פונקציית העזר format_completion prompt.

אפשר לשנות את הערך של total_generation_steps (מספר השלבים שמתבצעים בזמן יצירת התגובה – בדוגמה הזו נעשה שימוש ב-100 כדי לשמור על זיכרון המארח).

before = "def function(string):\n"
after = "assert function('asdf') == 'fdsa'"
prompt = format_completion_prompt(before, after)

output = sampler(
    [prompt],
    total_generation_steps=100,
    ).text

formatted_output = format_generated_output(before, after, output[0])

ORIGINAL PROMPT:
def function(string):
assert function('asdf') == 'fdsa'

FORMATTED PROMPT:
"<|fim_prefix|>def function(string):\n<|fim_suffix|>assert function('asdf') == 'fdsa'<|fim_middle|>"

GENERATED OUTPUT:
'    return string[::-1]\n\n<|file_separator|>'

FILL-IN COMPLETION:
def function(string):
    return string[::-1]

assert function('asdf') == 'fdsa'

before = "import "
after = """if __name__ == "__main__":\n    sys.exit(0)"""
prompt = format_completion_prompt(before, after)

output = sampler(
    [prompt],
    total_generation_steps=100,
    ).text

formatted_output = format_generated_output(before, after, output[0])

ORIGINAL PROMPT:
import if __name__ == "__main__":
    sys.exit(0)

FORMATTED PROMPT:
'<|fim_prefix|>import <|fim_suffix|>if __name__ == "__main__":\n    sys.exit(0)<|fim_middle|>'

GENERATED OUTPUT:
'sys\n<|file_separator|>'

FILL-IN COMPLETION:
import sys
if __name__ == "__main__":
    sys.exit(0)

before = """import numpy as np
def reflect(matrix):
  # horizontally reflect a matrix
"""
after = ""
prompt = format_completion_prompt(before, after)

output = sampler(
    [prompt],
    total_generation_steps=100,
    ).text

formatted_output = format_generated_output(before, after, output[0])

ORIGINAL PROMPT:
import numpy as np
def reflect(matrix):
  # horizontally reflect a matrix


FORMATTED PROMPT:
'<|fim_prefix|>import numpy as np\ndef reflect(matrix):\n  # horizontally reflect a matrix\n<|fim_suffix|><|fim_middle|>'

GENERATED OUTPUT:
'  return np.flip(matrix, axis=1)\n<|file_separator|>'

FILL-IN COMPLETION:
import numpy as np
def reflect(matrix):
  # horizontally reflect a matrix
  return np.flip(matrix, axis=1)

מידע נוסף

מידע נוסף על ספריית gemma של Google DeepMind ב-GitHub, שמכילה docstrings של המודולים שבהם השתמשתם במדריך הזה, כמו gemma.params,‏ gemma.deprecated.transformer ו-gemma.sampler.
לספריות הבאות יש אתרי מסמכי עזרה משלהם: core JAX,‏ Flax ו-Orbax.
למסמכי העזרה בנושא ניתוח/ביטול ניתוח של sentencepiece, אפשר לעיין במאגר sentencepiece של Google ב-GitHub.
למסמכי העזרה של kagglehub, אפשר לעיין ב-README.md במאגר kagglehub ב-GitHub של Kaggle.
איך משתמשים במודלים של Gemma עם Google Cloud Vertex AI
אם אתם משתמשים ב-Google Cloud TPUs (גרסה 3-8 ואילך), חשוב לעדכן גם לחבילת jax[tpu] העדכנית ביותר (!pip install -U jax[tpu] -f https://storage.googleapis.com/jax-releases/libtpu_releases.html), להפעיל מחדש את סביבת זמן הריצה ולבדוק שהגרסאות של jax ו-jaxlib תואמות (!pip list | grep jax). הפעולות האלה יכולות למנוע את השגיאה RuntimeError שעלולה להתרחש בגלל חוסר התאמה בין הגרסאות של jaxlib ו-jax. הוראות נוספות להתקנת JAX זמינות במסמכי התיעוד של JAX.