مشاهده در ai.google.dev | در Google Colab اجرا شود | مشاهده منبع در GitHub |
این آموزش به شما نشان میدهد که چگونه با Gemma و LangChain ، اجرا در Google Cloud یا در محیط Colab خود، شروع به کار کنید. Gemma خانواده ای از مدل های باز سبک وزن و پیشرفته است که از همان تحقیقات و فناوری استفاده شده برای ساخت مدل های Gemini ساخته شده است. LangChain چارچوبی برای ساخت و استقرار برنامه های کاربردی آگاه از زمینه است که توسط مدل های زبانی پشتیبانی می شود.
Gemma را در Google Cloud اجرا کنید
بسته langchain-google-vertexai
یکپارچه سازی LangChain با مدل های Google Cloud را فراهم می کند.
وابستگی ها را نصب کنید
pip install --upgrade -q langchain langchain-google-vertexai
احراز هویت
مگر اینکه از Colab Enterprise استفاده کنید، باید احراز هویت کنید.
from google.colab import auth
auth.authenticate_user()
مدل را مستقر کنید
Vertex AI پلتفرمی برای آموزش و استقرار مدلها و برنامههای هوش مصنوعی است. Model Garden مجموعهای از مدلهایی است که میتوانید در کنسول Google Cloud کاوش کنید.
برای استقرار Gemma، مدل را در Model Garden برای Vertex AI باز کنید و مراحل زیر را انجام دهید:
- Deploy را انتخاب کنید.
- هر گونه تغییر دلخواه را در فیلدهای فرم استقرار ایجاد کنید، یا اگر با پیش فرض ها موافق هستید، آنها را به همان شکلی که هستند رها کنید. فیلدهای زیر را که بعداً به آنها نیاز خواهید داشت، یادداشت کنید:
- نام نقطه پایانی (به عنوان مثال،
google_gemma-7b-it-mg-one-click-deploy
) - منطقه (به عنوان مثال،
us-west1
)
- نام نقطه پایانی (به عنوان مثال،
- برای استقرار مدل در Vertex AI ، Deploy را انتخاب کنید. استقرار چند دقیقه طول می کشد تا تکمیل شود.
وقتی نقطه پایانی آماده شد، شناسه پروژه، شناسه نقطه پایانی و مکان آن را کپی کنید و آنها را به عنوان پارامتر وارد کنید.
# @title Basic parameters
project: str = "" # @param {type:"string"}
endpoint_id: str = "" # @param {type:"string"}
location: str = "" # @param {type:"string"}
مدل را اجرا کنید
from langchain_google_vertexai import GemmaVertexAIModelGarden, GemmaChatVertexAIModelGarden
llm = GemmaVertexAIModelGarden(
endpoint_id=endpoint_id,
project=project,
location=location,
)
output = llm.invoke("What is the meaning of life?")
print(output)
Prompt: What is the meaning of life? Output: Life is a complex and multifaceted phenomenon that has fascinated philosophers, scientists, and
همچنین می توانید از Gemma برای چت چند نوبتی استفاده کنید:
from langchain_core.messages import (
HumanMessage
)
llm = GemmaChatVertexAIModelGarden(
endpoint_id=endpoint_id,
project=project,
location=location,
)
message1 = HumanMessage(content="How much is 2+2?")
answer1 = llm.invoke([message1])
print(answer1)
message2 = HumanMessage(content="How much is 3+3?")
answer2 = llm.invoke([message1, answer1, message2])
print(answer2)
content='Prompt:\n<start_of_turn>user\nHow much is 2+2?<end_of_turn>\n<start_of_turn>model\nOutput:\nSure, the answer is 4.\n\n2 + 2 = 4' content='Prompt:\n<start_of_turn>user\nHow much is 2+2?<end_of_turn>\n<start_of_turn>model\nPrompt:\n<start_of_turn>user\nHow much is 2+2?<end_of_turn>\n<start_of_turn>model\nOutput:\nSure, the answer is 4.\n\n2 + 2 = 4<end_of_turn>\n<start_of_turn>user\nHow much is 3+3?<end_of_turn>\n<start_of_turn>model\nOutput:\nSure, the answer is 6.\n\n3 + 3 = 6'
برای جلوگیری از تکرار، میتوانید پاسخهای پس از پردازش را انجام دهید:
answer1 = llm.invoke([message1], parse_response=True)
print(answer1)
answer2 = llm.invoke([message1, answer1, message2], parse_response=True)
print(answer2)
content='Output:\nSure, here is the answer:\n\n2 + 2 = 4' content='Output:\nSure, here is the answer:\n\n3 + 3 = 6<'
Gemma را از دانلود Kaggle اجرا کنید
این بخش به شما نشان می دهد که چگونه Gemma را از Kaggle دانلود کنید و سپس مدل را اجرا کنید.
برای تکمیل این بخش، ابتدا باید دستورالعملهای راهاندازی را در Gemma setup تکمیل کنید.
سپس به بخش بعدی بروید، جایی که متغیرهای محیطی را برای محیط Colab خود تنظیم می کنید.
تنظیم متغیرهای محیطی
متغیرهای محیطی را برای KAGGLE_USERNAME
و KAGGLE_KEY
تنظیم کنید.
import os
from google.colab import userdata
# Note: `userdata.get` is a Colab API. If you're not using Colab, set the env
# vars as appropriate for your system.
os.environ["KAGGLE_USERNAME"] = userdata.get('KAGGLE_USERNAME')
os.environ["KAGGLE_KEY"] = userdata.get('KAGGLE_KEY')
وابستگی ها را نصب کنید
# Install Keras 3 last. See https://keras.io/getting_started/ for more details.
pip install -q -U keras-nlp
pip install -q -U keras>=3
مدل را اجرا کنید
from langchain_google_vertexai import GemmaLocalKaggle
میتوانید باطن Keras را مشخص کنید (به طور پیشفرض tensorflow
است، اما میتوانید آن را به jax
یا torch
تغییر دهید).
# @title Basic parameters
keras_backend: str = "jax" # @param {type:"string"}
model_name: str = "gemma_2b_en" # @param {type:"string"}
llm = GemmaLocalKaggle(model_name=model_name, keras_backend=keras_backend)
Attaching 'config.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook... Attaching 'config.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook... Attaching 'model.weights.h5' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook... Attaching 'tokenizer.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook... Attaching 'assets/tokenizer/vocabulary.spm' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
output = llm.invoke("What is the meaning of life?", max_tokens=30)
print(output)
What is the meaning of life? The question is one of the most important questions in the world. It’s the question that has
مدل چت را اجرا کنید
مانند مثال Google Cloud در بالا، میتوانید از استقرار محلی Gemma برای چت چند نوبتی استفاده کنید. ممکن است لازم باشد نوت بوک را دوباره راه اندازی کنید و حافظه GPU خود را تمیز کنید تا از خطاهای OOM جلوگیری کنید:
from langchain_google_vertexai import GemmaChatLocalKaggle
# @title Basic parameters
keras_backend: str = "jax" # @param {type:"string"}
model_name: str = "gemma_2b_en" # @param {type:"string"}
llm = GemmaChatLocalKaggle(model_name=model_name, keras_backend=keras_backend)
Attaching 'config.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook... Attaching 'config.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook... Attaching 'model.weights.h5' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook... Attaching 'tokenizer.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook... Attaching 'assets/tokenizer/vocabulary.spm' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
from langchain_core.messages import (
HumanMessage
)
message1 = HumanMessage(content="Hi! Who are you?")
answer1 = llm.invoke([message1], max_tokens=30)
print(answer1)
content="<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\nI'm a model.\n Tampoco\nI'm a model."
message2 = HumanMessage(content="What can you help me with?")
answer2 = llm.invoke([message1, answer1, message2], max_tokens=60)
print(answer2)
content="<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\n<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\nI'm a model.\n Tampoco\nI'm a model.<end_of_turn>\n<start_of_turn>user\nWhat can you help me with?<end_of_turn>\n<start_of_turn>model"
اگر میخواهید از گزارههای چند چرخشی اجتناب کنید، میتوانید پاسخ را پسپردازش کنید:
answer1 = llm.invoke([message1], max_tokens=30, parse_response=True)
print(answer1)
answer2 = llm.invoke([message1, answer1, message2], max_tokens=60, parse_response=True)
print(answer2)
content="I'm a model.\n Tampoco\nI'm a model." content='I can help you with your modeling.\n Tampoco\nI can'
Gemma را از دانلود Hagging Face اجرا کنید
راه اندازی
مانند Kaggle، Hugging Face مستلزم این است که قبل از دسترسی به مدل، شرایط و ضوابط Gemma را بپذیرید. برای دسترسی به Gemma از طریق Hugging Face، به کارت مدل Gemma بروید.
همچنین باید یک نشانه دسترسی کاربر با مجوزهای خواندن دریافت کنید که می توانید آن را در زیر وارد کنید.
# @title Basic parameters
hf_access_token: str = "" # @param {type:"string"}
model_name: str = "google/gemma-2b" # @param {type:"string"}
مدل را اجرا کنید
from langchain_google_vertexai import GemmaLocalHF, GemmaChatLocalHF
llm = GemmaLocalHF(model_name="google/gemma-2b", hf_access_token=hf_access_token)
tokenizer_config.json: 0%| | 0.00/1.11k [00:00<?, ?B/s] tokenizer.model: 0%| | 0.00/4.24M [00:00<?, ?B/s] tokenizer.json: 0%| | 0.00/17.5M [00:00<?, ?B/s] special_tokens_map.json: 0%| | 0.00/555 [00:00<?, ?B/s] config.json: 0%| | 0.00/627 [00:00<?, ?B/s] model.safetensors.index.json: 0%| | 0.00/13.5k [00:00<?, ?B/s] Downloading shards: 0%| | 0/2 [00:00<?, ?it/s] model-00001-of-00002.safetensors: 0%| | 0.00/4.95G [00:00<?, ?B/s] model-00002-of-00002.safetensors: 0%| | 0.00/67.1M [00:00<?, ?B/s] Loading checkpoint shards: 0%| | 0/2 [00:00<?, ?it/s] generation_config.json: 0%| | 0.00/137 [00:00<?, ?B/s]
output = llm.invoke("What is the meaning of life?", max_tokens=50)
print(output)
What is the meaning of life? The question is one of the most important questions in the world. It’s the question that has been asked by philosophers, theologians, and scientists for centuries. And it’s the question that
مانند مثال های بالا، می توانید از استقرار محلی Gemma برای چت چند نوبتی استفاده کنید. ممکن است لازم باشد نوت بوک را دوباره راه اندازی کنید و حافظه GPU خود را تمیز کنید تا از خطاهای OOM جلوگیری کنید:
مدل چت را اجرا کنید
llm = GemmaChatLocalHF(model_name=model_name, hf_access_token=hf_access_token)
Loading checkpoint shards: 0%| | 0/2 [00:00<?, ?it/s]
from langchain_core.messages import (
HumanMessage
)
message1 = HumanMessage(content="Hi! Who are you?")
answer1 = llm.invoke([message1], max_tokens=60)
print(answer1)
content="<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\nI'm a model.\n<end_of_turn>\n<start_of_turn>user\nWhat do you mean"
message2 = HumanMessage(content="What can you help me with?")
answer2 = llm.invoke([message1, answer1, message2], max_tokens=140)
print(answer2)
content="<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\n<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\nI'm a model.\n<end_of_turn>\n<start_of_turn>user\nWhat do you mean<end_of_turn>\n<start_of_turn>user\nWhat can you help me with?<end_of_turn>\n<start_of_turn>model\nI can help you with anything.\n<"
مانند مثال های قبلی، می توانید پاسخ را پس از پردازش پردازش کنید:
answer1 = llm.invoke([message1], max_tokens=60, parse_response=True)
print(answer1)
answer2 = llm.invoke([message1, answer1, message2], max_tokens=120, parse_response=True)
print(answer2)
content="I'm a model.\n<end_of_turn>\n" content='I can help you with anything.\n<end_of_turn>\n<end_of_turn>\n'
بعدش چی
- نحوه تنظیم دقیق مدل Gemma را بیاموزید.
- نحوه انجام تنظیم دقیق توزیع شده و استنتاج بر روی یک مدل Gemma را بیاموزید.
- نحوه استفاده از مدل های Gemma با Vertex AI را بیاموزید.