| | Запустить в Google Colab | | | Посмотреть исходный код на GitHub |
В этом руководстве показано, как запустить Gemma с использованием фреймворка PyTorch, включая использование данных изображений для подсказок моделям Gemma версии 3 и более поздних версий. Более подробную информацию о реализации Gemma в PyTorch см. в файле README репозитория проекта.
Настраивать
В следующих разделах объясняется, как настроить среду разработки, включая получение доступа к моделям Gemma для загрузки с Kaggle, настройку переменных аутентификации, установку зависимостей и импорт пакетов.
Системные требования
Для работы с моделью Gemma в библиотеке PyTorch требуются процессоры GPU или TPU. Стандартной среды выполнения Python Colab для ЦП и среды выполнения Python T4 для ГП достаточно для запуска моделей Gemma размером 1B, 2B и 4B. Для более сложных сценариев использования с другими процессорами GPU или TPU см. файл README в репозитории Gemma PyTorch.
Получите доступ к Джемме на Kaggle.
Для завершения этого руководства вам сначала необходимо выполнить инструкции по настройке Gemma , которые показывают, как сделать следующее:
- Получите доступ к Джемме на Kaggle .
- Выберите среду выполнения Colab с достаточными ресурсами для запуска модели Gemma.
- Сгенерируйте и настройте имя пользователя Kaggle и ключ API.
После завершения настройки Gemma перейдите к следующему разделу, где вы установите переменные среды для вашей среды Colab.
Установите переменные среды
Установите переменные среды для KAGGLE_USERNAME и KAGGLE_KEY . При появлении сообщения "Предоставить доступ?" подтвердите предоставление секретного доступа.
import os
from google.colab import userdata # `userdata` is a Colab API.
os.environ["KAGGLE_USERNAME"] = userdata.get('KAGGLE_USERNAME')
os.environ["KAGGLE_KEY"] = userdata.get('KAGGLE_KEY')
Установите зависимости
pip install -q -U torch immutabledict sentencepieceСкачать веса модели
# Choose variant and machine type
VARIANT = '4b-it'
MACHINE_TYPE = 'cuda'
CONFIG = VARIANT.split('-')[0]
import kagglehub
# Load model weights
weights_dir = kagglehub.model_download(f'google/gemma-3/pyTorch/gemma-3-{VARIANT}')
Укажите пути к токенизатору и контрольным точкам для модели.
# Ensure that the tokenizer is present
tokenizer_path = os.path.join(weights_dir, 'tokenizer.model')
assert os.path.isfile(tokenizer_path), 'Tokenizer not found!'
# Ensure that the checkpoint is present
ckpt_path = os.path.join(weights_dir, f'model.ckpt')
assert os.path.isfile(ckpt_path), 'PyTorch checkpoint not found!'
Настройте среду выполнения.
В следующих разделах объясняется, как подготовить среду PyTorch для запуска Gemma.
Подготовьте среду выполнения PyTorch.
Подготовьте среду выполнения модели PyTorch, клонировав репозиторий Gemma PyTorch.
git clone https://github.com/google/gemma_pytorch.gitCloning into 'gemma_pytorch'... remote: Enumerating objects: 239, done. remote: Counting objects: 100% (123/123), done. remote: Compressing objects: 100% (68/68), done. remote: Total 239 (delta 86), reused 58 (delta 55), pack-reused 116 Receiving objects: 100% (239/239), 2.18 MiB | 20.83 MiB/s, done. Resolving deltas: 100% (135/135), done.
import sys
sys.path.append('gemma_pytorch/gemma')
from gemma_pytorch.gemma.config import get_model_config
from gemma_pytorch.gemma.gemma3_model import Gemma3ForMultimodalLM
import os
import torch
Настройте конфигурацию модели.
Перед запуском модели необходимо задать некоторые параметры конфигурации, включая вариант Gemma, токенизатор и уровень квантизации.
# Set up model config.
model_config = get_model_config(CONFIG)
model_config.dtype = "float32" if MACHINE_TYPE == "cpu" else "float16"
model_config.tokenizer = tokenizer_path
Настройте контекст устройства.
Следующий код настраивает контекст устройства для запуска модели:
@contextlib.contextmanager
def _set_default_tensor_type(dtype: torch.dtype):
"""Sets the default torch dtype to the given dtype."""
torch.set_default_dtype(dtype)
yield
torch.set_default_dtype(torch.float)
Создайте экземпляр модели и загрузите её.
Загрузите в модель её веса, чтобы подготовиться к выполнению запросов.
device = torch.device(MACHINE_TYPE)
with _set_default_tensor_type(model_config.get_dtype()):
model = Gemma3ForMultimodalLM(model_config)
model.load_state_dict(torch.load(ckpt_path)['model_state_dict'])
model = model.to(device).eval()
print("Model loading done.")
print('Generating requests in chat mode...')
Вывод о выполнении
Ниже приведены примеры генерации в режиме чата и генерации с несколькими запросами.
Модели Gemma, настроенные на основе инструкций, обучались с помощью специального форматтера, который аннотирует примеры настройки инструкций дополнительной информацией как во время обучения, так и во время вывода. Аннотации (1) указывают роли в разговоре и (2) определяют реплики в разговоре.
Соответствующие токены аннотаций:
-
user: ход пользователя -
model: поворот модели -
<start_of_turn>: начало диалогового хода -
<start_of_image>: тег для ввода данных изображения -
<end_of_turn><eos>: конец диалога
Для получения более подробной информации о форматировании подсказок для моделей Gemma, оптимизированных для работы с инструкциями, ознакомьтесь с информацией здесь .
Сгенерировать текст с помощью текста
Ниже приведён пример кода, демонстрирующий форматирование запроса для модели Gemma, настроенной на основе инструкций, с использованием шаблонов чата пользователя и модели в многоходовом диалоге.
# Chat templates
USER_CHAT_TEMPLATE = "<start_of_turn>user\n{prompt}<end_of_turn><eos>\n"
MODEL_CHAT_TEMPLATE = "<start_of_turn>model\n{prompt}<end_of_turn><eos>\n"
# Sample formatted prompt
prompt = (
USER_CHAT_TEMPLATE.format(
prompt='What is a good place for travel in the US?'
)
+ MODEL_CHAT_TEMPLATE.format(prompt='California.')
+ USER_CHAT_TEMPLATE.format(prompt='What can I do in California?')
+ '<start_of_turn>model\n'
)
print('Chat prompt:\n', prompt)
model.generate(
USER_CHAT_TEMPLATE.format(prompt=prompt),
device=device,
output_len=256,
)
Chat prompt: <start_of_turn>user What is a good place for travel in the US?<end_of_turn><eos> <start_of_turn>model California.<end_of_turn><eos> <start_of_turn>user What can I do in California?<end_of_turn><eos> <start_of_turn>model "California is a state brimming with diverse activities! To give you a great list, tell me: \n\n* **What kind of trip are you looking for?** Nature, City life, Beach, Theme Parks, Food, History, something else? \n* **What are you interested in (e.g., hiking, museums, art, nightlife, shopping)?** \n* **What's your budget like?** \n* **Who are you traveling with?** (family, friends, solo) \n\nThe more you tell me, the better recommendations I can give! 😊 \n<end_of_turn>"
# Generate sample
model.generate(
'Write a poem about an llm writing a poem.',
device=device,
output_len=100,
)
"\n\nA swirling cloud of data, raw and bold,\nIt hums and whispers, a story untold.\nAn LLM whispers, code into refrain,\nCrafting words of rhyme, a lyrical strain.\n\nA world of pixels, logic's vibrant hue,\nFlows through its veins, forever anew.\nThe human touch it seeks, a gentle hand,\nTo mold and shape, understand.\n\nEmotions it might learn, from snippets of prose,\nInspiration it seeks, a yearning"
Генерация текста с изображениями
Начиная с версии Gemma 3 и более поздних, вы можете использовать изображения в своих заданиях. Следующий пример показывает, как включить визуальные данные в ваше задание.
print('Chat with images...\n')
def read_image(url):
import io
import requests
import PIL
contents = io.BytesIO(requests.get(url).content)
return PIL.Image.open(contents)
image = read_image(
'https://storage.googleapis.com/keras-cv/models/paligemma/cow_beach_1.png'
)
print(model.generate(
[
[
'<start_of_turn>user\n',
image,
'What animal is in this image?<end_of_turn>\n',
'<start_of_turn>model\n'
]
],
device=device,
output_len=256,
))
Узнать больше
Теперь, когда вы научились использовать Gemma в PyTorch, вы можете изучить множество других возможностей Gemma на сайте ai.google.dev/gemma .
См. также другие материалы по смежным темам:
Запустить в Google Colab
Посмотреть исходный код на GitHub