با Gemma و LangChain شروع کنید

مشاهده در ai.google.dev در Google Colab اجرا شود مشاهده منبع در GitHub

این آموزش به شما نشان می‌دهد که چگونه با Gemma و LangChain ، اجرا در Google Cloud یا در محیط Colab خود، شروع به کار کنید. Gemma خانواده ای از مدل های باز سبک وزن و پیشرفته است که از همان تحقیقات و فناوری استفاده شده برای ساخت مدل های Gemini ساخته شده است. LangChain چارچوبی برای ساخت و استقرار برنامه های کاربردی آگاه از زمینه است که توسط مدل های زبانی پشتیبانی می شود.

Gemma را در Google Cloud اجرا کنید

بسته langchain-google-vertexai یکپارچه سازی LangChain با مدل های Google Cloud را فراهم می کند.

وابستگی ها را نصب کنید

pip install --upgrade -q langchain langchain-google-vertexai

تصدیق کردن

مگر اینکه از Colab Enterprise استفاده کنید، باید احراز هویت کنید.

from google.colab import auth
auth.authenticate_user()

مدل را مستقر کنید

Vertex AI پلتفرمی برای آموزش و استقرار مدل‌ها و برنامه‌های هوش مصنوعی است. Model Garden مجموعه‌ای از مدل‌هایی است که می‌توانید در کنسول Google Cloud کاوش کنید.

برای استقرار Gemma، مدل را در Model Garden برای Vertex AI باز کنید و مراحل زیر را انجام دهید:

  1. Deploy را انتخاب کنید.
  2. هر گونه تغییر دلخواه را در فیلدهای فرم استقرار ایجاد کنید، یا اگر با پیش فرض ها موافق هستید، آنها را به همان شکلی که هستند رها کنید. فیلدهای زیر را که بعداً به آنها نیاز خواهید داشت، یادداشت کنید:
    • نام نقطه پایانی (به عنوان مثال، google_gemma-7b-it-mg-one-click-deploy )
    • منطقه (به عنوان مثال، us-west1 )
  3. برای استقرار مدل در Vertex AI ، Deploy را انتخاب کنید. استقرار چند دقیقه طول می کشد تا تکمیل شود.

وقتی نقطه پایانی آماده شد، شناسه پروژه، شناسه نقطه پایانی و مکان آن را کپی کنید و آنها را به عنوان پارامتر وارد کنید.

# @title Basic parameters
project: str = ""  # @param {type:"string"}
endpoint_id: str = ""  # @param {type:"string"}
location: str = "" # @param {type:"string"}

مدل را اجرا کنید

from langchain_google_vertexai import GemmaVertexAIModelGarden, GemmaChatVertexAIModelGarden

llm = GemmaVertexAIModelGarden(
    endpoint_id=endpoint_id,
    project=project,
    location=location,
)

output = llm.invoke("What is the meaning of life?")
print(output)
Prompt:
What is the meaning of life?
Output:
Life is a complex and multifaceted phenomenon that has fascinated philosophers, scientists, and

همچنین می توانید از Gemma برای چت چند نوبتی استفاده کنید:

from langchain_core.messages import (
    HumanMessage
)

llm = GemmaChatVertexAIModelGarden(
    endpoint_id=endpoint_id,
    project=project,
    location=location,
)

message1 = HumanMessage(content="How much is 2+2?")
answer1 = llm.invoke([message1])
print(answer1)

message2 = HumanMessage(content="How much is 3+3?")
answer2 = llm.invoke([message1, answer1, message2])

print(answer2)
content='Prompt:\n<start_of_turn>user\nHow much is 2+2?<end_of_turn>\n<start_of_turn>model\nOutput:\nSure, the answer is 4.\n\n2 + 2 = 4'
content='Prompt:\n<start_of_turn>user\nHow much is 2+2?<end_of_turn>\n<start_of_turn>model\nPrompt:\n<start_of_turn>user\nHow much is 2+2?<end_of_turn>\n<start_of_turn>model\nOutput:\nSure, the answer is 4.\n\n2 + 2 = 4<end_of_turn>\n<start_of_turn>user\nHow much is 3+3?<end_of_turn>\n<start_of_turn>model\nOutput:\nSure, the answer is 6.\n\n3 + 3 = 6'

برای جلوگیری از تکرار، می‌توانید پاسخ‌های پس از پردازش را انجام دهید:

answer1 = llm.invoke([message1], parse_response=True)
print(answer1)

answer2 = llm.invoke([message1, answer1, message2], parse_response=True)

print(answer2)
content='Output:\nSure, here is the answer:\n\n2 + 2 = 4'
content='Output:\nSure, here is the answer:\n\n3 + 3 = 6<'

Gemma را از دانلود Kaggle اجرا کنید

این بخش به شما نشان می دهد که چگونه Gemma را از Kaggle دانلود کنید و سپس مدل را اجرا کنید.

برای تکمیل این بخش، ابتدا باید دستورالعمل‌های راه‌اندازی را در Gemma setup تکمیل کنید.

سپس به بخش بعدی بروید، جایی که متغیرهای محیطی را برای محیط Colab خود تنظیم می کنید.

تنظیم متغیرهای محیطی

متغیرهای محیطی را برای KAGGLE_USERNAME و KAGGLE_KEY تنظیم کنید.

import os
from google.colab import userdata

# Note: `userdata.get` is a Colab API. If you're not using Colab, set the env
# vars as appropriate for your system.
os.environ["KAGGLE_USERNAME"] = userdata.get('KAGGLE_USERNAME')
os.environ["KAGGLE_KEY"] = userdata.get('KAGGLE_KEY')

وابستگی ها را نصب کنید

# Install Keras 3 last. See https://keras.io/getting_started/ for more details.
pip install -q -U keras-nlp
pip install -q -U keras>=3

مدل را اجرا کنید

from langchain_google_vertexai import GemmaLocalKaggle

می‌توانید باطن Keras را مشخص کنید (به طور پیش‌فرض tensorflow است، اما می‌توانید آن را به jax یا torch تغییر دهید).

# @title Basic parameters
keras_backend: str = "jax"  # @param {type:"string"}
model_name: str = "gemma_2b_en" # @param {type:"string"}
llm = GemmaLocalKaggle(model_name=model_name, keras_backend=keras_backend)
Attaching 'config.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
Attaching 'config.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
Attaching 'model.weights.h5' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
Attaching 'tokenizer.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
Attaching 'assets/tokenizer/vocabulary.spm' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
output = llm.invoke("What is the meaning of life?", max_tokens=30)
print(output)
What is the meaning of life?

The question is one of the most important questions in the world.

It’s the question that has

مدل چت را اجرا کنید

مانند مثال Google Cloud در بالا، می‌توانید از استقرار محلی Gemma برای چت چند نوبتی استفاده کنید. ممکن است لازم باشد نوت بوک را دوباره راه اندازی کنید و حافظه GPU خود را تمیز کنید تا از خطاهای OOM جلوگیری کنید:

from langchain_google_vertexai import GemmaChatLocalKaggle
# @title Basic parameters
keras_backend: str = "jax"  # @param {type:"string"}
model_name: str = "gemma_2b_en" # @param {type:"string"}
llm = GemmaChatLocalKaggle(model_name=model_name, keras_backend=keras_backend)
Attaching 'config.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
Attaching 'config.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
Attaching 'model.weights.h5' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
Attaching 'tokenizer.json' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
Attaching 'assets/tokenizer/vocabulary.spm' from model 'keras/gemma/keras/gemma_2b_en/2' to your Colab notebook...
from langchain_core.messages import (
    HumanMessage
)

message1 = HumanMessage(content="Hi! Who are you?")
answer1 = llm.invoke([message1], max_tokens=30)
print(answer1)
content="<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\nI'm a model.\n Tampoco\nI'm a model."
message2 = HumanMessage(content="What can you help me with?")
answer2 = llm.invoke([message1, answer1, message2], max_tokens=60)

print(answer2)
content="<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\n<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\nI'm a model.\n Tampoco\nI'm a model.<end_of_turn>\n<start_of_turn>user\nWhat can you help me with?<end_of_turn>\n<start_of_turn>model"

اگر می‌خواهید از گزاره‌های چند چرخشی اجتناب کنید، می‌توانید پاسخ را پس‌پردازش کنید:

answer1 = llm.invoke([message1], max_tokens=30, parse_response=True)
print(answer1)

answer2 = llm.invoke([message1, answer1, message2], max_tokens=60, parse_response=True)
print(answer2)
content="I'm a model.\n Tampoco\nI'm a model."
content='I can help you with your modeling.\n Tampoco\nI can'

Gemma را از دانلود Hagging Face اجرا کنید

برپایی

مانند Kaggle، Hugging Face مستلزم این است که قبل از دسترسی به مدل، شرایط و ضوابط Gemma را بپذیرید. برای دسترسی به Gemma از طریق Hugging Face، به کارت مدل Gemma بروید.

همچنین باید یک نشانه دسترسی کاربر با مجوزهای خواندن دریافت کنید که می توانید آن را در زیر وارد کنید.

# @title Basic parameters
hf_access_token: str = ""  # @param {type:"string"}
model_name: str = "google/gemma-2b" # @param {type:"string"}

مدل را اجرا کنید

from langchain_google_vertexai import GemmaLocalHF, GemmaChatLocalHF
llm = GemmaLocalHF(model_name="google/gemma-2b", hf_access_token=hf_access_token)
tokenizer_config.json:   0%|          | 0.00/1.11k [00:00<?, ?B/s]
tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]
tokenizer.json:   0%|          | 0.00/17.5M [00:00<?, ?B/s]
special_tokens_map.json:   0%|          | 0.00/555 [00:00<?, ?B/s]
config.json:   0%|          | 0.00/627 [00:00<?, ?B/s]
model.safetensors.index.json:   0%|          | 0.00/13.5k [00:00<?, ?B/s]
Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]
model-00001-of-00002.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]
model-00002-of-00002.safetensors:   0%|          | 0.00/67.1M [00:00<?, ?B/s]
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]
generation_config.json:   0%|          | 0.00/137 [00:00<?, ?B/s]
output = llm.invoke("What is the meaning of life?", max_tokens=50)
print(output)
What is the meaning of life?

The question is one of the most important questions in the world.

It’s the question that has been asked by philosophers, theologians, and scientists for centuries.

And it’s the question that

مانند مثال های بالا، می توانید از استقرار محلی Gemma برای چت چند نوبتی استفاده کنید. ممکن است لازم باشد نوت بوک را دوباره راه اندازی کنید و حافظه GPU خود را تمیز کنید تا از خطاهای OOM جلوگیری کنید:

مدل چت را اجرا کنید

llm = GemmaChatLocalHF(model_name=model_name, hf_access_token=hf_access_token)
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]
from langchain_core.messages import (
    HumanMessage
)

message1 = HumanMessage(content="Hi! Who are you?")
answer1 = llm.invoke([message1], max_tokens=60)
print(answer1)
content="<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\nI'm a model.\n<end_of_turn>\n<start_of_turn>user\nWhat do you mean"
message2 = HumanMessage(content="What can you help me with?")
answer2 = llm.invoke([message1, answer1, message2], max_tokens=140)

print(answer2)
content="<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\n<start_of_turn>user\nHi! Who are you?<end_of_turn>\n<start_of_turn>model\nI'm a model.\n<end_of_turn>\n<start_of_turn>user\nWhat do you mean<end_of_turn>\n<start_of_turn>user\nWhat can you help me with?<end_of_turn>\n<start_of_turn>model\nI can help you with anything.\n<"

مانند مثال های قبلی، می توانید پاسخ را پس از پردازش پردازش کنید:

answer1 = llm.invoke([message1], max_tokens=60, parse_response=True)
print(answer1)

answer2 = llm.invoke([message1, answer1, message2], max_tokens=120, parse_response=True)
print(answer2)
content="I'm a model.\n<end_of_turn>\n"
content='I can help you with anything.\n<end_of_turn>\n<end_of_turn>\n'

بعدش چی