ফাইন-টিউন এমবেডিং গেমা

ai.google.dev-এ দেখুন গুগল কোলাবে চালান কাগলে দৌড়ান ভার্টেক্স এআই-তে খুলুন GitHub-এ উৎস দেখুন

ফাইন-টিউনিং একটি মডেলের সাধারণ-উদ্দেশ্যগত বোধগম্যতা এবং আপনার অ্যাপ্লিকেশনের জন্য প্রয়োজনীয় বিশেষায়িত, উচ্চ-কার্যক্ষমতাসম্পন্ন নির্ভুলতার মধ্যে ব্যবধান কমাতে সাহায্য করে। যেহেতু কোনও একক মডেল প্রতিটি কাজের জন্য নিখুঁত নয়, তাই ফাইন-টিউনিং এটিকে আপনার নির্দিষ্ট ক্ষেত্রের সাথে খাপ খাইয়ে নেয়।

আপনার কোম্পানি কল্পনা করুন, "শিবুয়া ফাইন্যান্সিয়াল" বিভিন্ন জটিল আর্থিক পণ্য যেমন বিনিয়োগ ট্রাস্ট, NISA অ্যাকাউন্ট (একটি কর-সুবিধাপ্রাপ্ত সঞ্চয় অ্যাকাউন্ট), এবং গৃহ ঋণ অফার করে। আপনার গ্রাহক সহায়তা দল গ্রাহকদের প্রশ্নের দ্রুত উত্তর খুঁজে পেতে একটি অভ্যন্তরীণ জ্ঞান ভিত্তি ব্যবহার করে।

সেটআপ

এই টিউটোরিয়ালটি শুরু করার আগে, নিম্নলিখিত ধাপগুলি সম্পন্ন করুন:

  • Hugging Face- এ লগ ইন করে এবং Gemma মডেলের জন্য Acknowledge লাইসেন্স নির্বাচন করে EmbeddingGemma-তে অ্যাক্সেস পান।
  • একটি Hugging Face Access টোকেন তৈরি করুন এবং Colab থেকে লগইন করতে এটি ব্যবহার করুন।

এই নোটবুকটি CPU অথবা GPU-তে চলবে।

পাইথন প্যাকেজ ইনস্টল করুন

EmbeddingGemma মডেল চালানো এবং এম্বেডিং তৈরি করার জন্য প্রয়োজনীয় লাইব্রেরিগুলি ইনস্টল করুন। Sentence Transformers হল টেক্সট এবং ইমেজ এম্বেডিংয়ের জন্য একটি পাইথন ফ্রেমওয়ার্ক। আরও তথ্যের জন্য, Sentence Transformers ডকুমেন্টেশন দেখুন।

pip install -U sentence-transformers git+https://github.com/huggingface/transformers@v4.56.0-Embedding-Gemma-preview

লাইসেন্স গ্রহণ করার পর, মডেলটি অ্যাক্সেস করার জন্য আপনার একটি বৈধ হাগিং ফেস টোকেন প্রয়োজন।

# Login into Hugging Face Hub
from huggingface_hub import login
login()

লোড মডেল

EmbeddingGemma দিয়ে একটি মডেল ক্লাসের একটি উদাহরণ তৈরি করতে sentence-transformers লাইব্রেরি ব্যবহার করুন।

import torch
from sentence_transformers import SentenceTransformer

device = "cuda" if torch.cuda.is_available() else "cpu"

model_id = "google/embeddinggemma-300M"
model = SentenceTransformer(model_id).to(device=device)

print(f"Device: {model.device}")
print(model)
print("Total number of parameters in the model:", sum([p.numel() for _, p in model.named_parameters()]))
Device: cuda:0
SentenceTransformer(
  (0): Transformer({'max_seq_length': 2048, 'do_lower_case': False, 'architecture': 'Gemma3TextModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (4): Normalize()
)
Total number of parameters in the model: 307581696

ফাইন-টিউনিং ডেটাসেট প্রস্তুত করুন

এটি সবচেয়ে গুরুত্বপূর্ণ অংশ। আপনাকে এমন একটি ডেটাসেট তৈরি করতে হবে যা মডেলটিকে শেখাবে যে আপনার নির্দিষ্ট প্রেক্ষাপটে "অনুরূপ" বলতে কী বোঝায়। এই ডেটা প্রায়শই তিনটি হিসাবে গঠন করা হয়: (নোঙ্গর, ধনাত্মক, ঋণাত্মক)

  • অ্যাঙ্কর: মূল প্রশ্ন বা বাক্য।
  • ইতিবাচক: এমন একটি বাক্য যা শব্দার্থগতভাবে অ্যাঙ্করের সাথে খুব মিল বা অভিন্ন।
  • নেতিবাচক: এমন একটি বাক্য যা সম্পর্কিত বিষয়ের উপর কিন্তু শব্দার্থগতভাবে স্বতন্ত্র।

এই উদাহরণে, আমরা মাত্র ৩টি ট্রিপলেট প্রস্তুত করেছি, কিন্তু বাস্তব প্রয়োগের জন্য, ভালো পারফর্ম করার জন্য আপনার আরও অনেক বড় ডেটাসেটের প্রয়োজন হবে।

from datasets import Dataset

dataset = [
    ["How do I open a NISA account?", "What is the procedure for starting a new tax-free investment account?", "I want to check the balance of my regular savings account."],
    ["Are there fees for making an early repayment on a home loan?", "If I pay back my house loan early, will there be any costs?", "What is the management fee for this investment trust?"],
    ["What is the coverage for medical insurance?", "Tell me about the benefits of the health insurance plan.", "What is the cancellation policy for my life insurance?"],
]

# Convert the list-based dataset into a list of dictionaries.
data_as_dicts = [ {"anchor": row[0], "positive": row[1], "negative": row[2]} for row in dataset ]

# Create a Hugging Face `Dataset` object from the list of dictionaries.
train_dataset = Dataset.from_list(data_as_dicts)
print(train_dataset)
Dataset({
    features: ['anchor', 'positive', 'negative'],
    num_rows: 3
})

ফাইন-টিউনিংয়ের আগে

"করমুক্ত বিনিয়োগ" অনুসন্ধান করলে মিলের স্কোর সহ নিম্নলিখিত ফলাফলগুলি পাওয়া যেতে পারে:

  1. নথি: একটি NISA অ্যাকাউন্ট খোলা (স্কোর: 0.51)
  2. নথি: একটি নিয়মিত সঞ্চয় অ্যাকাউন্ট খোলা (স্কোর: ০.৫০) <- একই স্কোর, সম্ভাব্য বিভ্রান্তিকর
  3. ডকুমেন্ট: গৃহ ঋণ আবেদন নির্দেশিকা (স্কোর: ০.৪৪)
task_name = "STS"

def get_scores(query, documents):
  # Calculate embeddings by calling model.encode()
  query_embeddings = model.encode(query, prompt_name=task_name)
  doc_embeddings = model.encode(documents, prompt_name=task_name)

  # Calculate the embedding similarities
  similarities = model.similarity(query_embeddings, doc_embeddings)

  for idx, doc in enumerate(documents):
    print("Document: ", doc, "-> 🤖 Score: ", similarities.numpy()[0][idx])

query = "I want to start a tax-free installment investment, what should I do?"
documents = ["Opening a NISA Account", "Opening a Regular Savings Account", "Home Loan Application Guide"]

get_scores(query, documents)
Document:  Opening a NISA Account -> 🤖 Score:  0.51571906
Document:  Opening a Regular Savings Account -> 🤖 Score:  0.5035889
Document:  Home Loan Application Guide -> 🤖 Score:  0.4406476

প্রশিক্ষণ

পাইথনে sentence-transformers মতো একটি কাঠামো ব্যবহার করে, বেস মডেলটি ধীরে ধীরে আপনার আর্থিক শব্দভাণ্ডারের সূক্ষ্ম পার্থক্যগুলি শিখে নেয়।

from sentence_transformers import SentenceTransformerTrainer, SentenceTransformerTrainingArguments
from sentence_transformers.losses import MultipleNegativesRankingLoss
from transformers import TrainerCallback

loss = MultipleNegativesRankingLoss(model)

args = SentenceTransformerTrainingArguments(
    # Required parameter:
    output_dir="my-embedding-gemma",
    # Optional training parameters:
    prompts=model.prompts[task_name],    # use model's prompt to train
    num_train_epochs=5,
    per_device_train_batch_size=1,
    learning_rate=2e-5,
    warmup_ratio=0.1,
    # Optional tracking/debugging parameters:
    logging_steps=train_dataset.num_rows,
    report_to="none",
)

class MyCallback(TrainerCallback):
    "A callback that evaluates the model at the end of eopch"
    def __init__(self, evaluate):
        self.evaluate = evaluate # evaluate function

    def on_log(self, args, state, control, **kwargs):
        # Evaluate the model using text generation
        print(f"Step {state.global_step} finished. Running evaluation:")
        self.evaluate()

def evaluate():
  get_scores(query, documents)

trainer = SentenceTransformerTrainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    loss=loss,
    callbacks=[MyCallback(evaluate)]
)
trainer.train()
Step 3 finished. Running evaluation:
Document:  Opening a NISA Account -> 🤖 Score:  0.6459116
Document:  Opening a Regular Savings Account -> 🤖 Score:  0.42690125
Document:  Home Loan Application Guide -> 🤖 Score:  0.40419024
Step 6 finished. Running evaluation:
Document:  Opening a NISA Account -> 🤖 Score:  0.68530923
Document:  Opening a Regular Savings Account -> 🤖 Score:  0.3611964
Document:  Home Loan Application Guide -> 🤖 Score:  0.40812016
Step 9 finished. Running evaluation:
Document:  Opening a NISA Account -> 🤖 Score:  0.7168733
Document:  Opening a Regular Savings Account -> 🤖 Score:  0.3449782
Document:  Home Loan Application Guide -> 🤖 Score:  0.44477722
Step 12 finished. Running evaluation:
Document:  Opening a NISA Account -> 🤖 Score:  0.73008573
Document:  Opening a Regular Savings Account -> 🤖 Score:  0.34124148
Document:  Home Loan Application Guide -> 🤖 Score:  0.4676212
Step 15 finished. Running evaluation:
Document:  Opening a NISA Account -> 🤖 Score:  0.73378766
Document:  Opening a Regular Savings Account -> 🤖 Score:  0.34055778
Document:  Home Loan Application Guide -> 🤖 Score:  0.47503752
Step 15 finished. Running evaluation:
Document:  Opening a NISA Account -> 🤖 Score:  0.73378766
Document:  Opening a Regular Savings Account -> 🤖 Score:  0.34055778
Document:  Home Loan Application Guide -> 🤖 Score:  0.47503752
TrainOutput(global_step=15, training_loss=0.009651267528511198, metrics={'train_runtime': 195.3004, 'train_samples_per_second': 0.077, 'train_steps_per_second': 0.077, 'total_flos': 0.0, 'train_loss': 0.009651267528511198, 'epoch': 5.0})

ফাইন-টিউনিংয়ের পরে

একই অনুসন্ধান এখন অনেক স্পষ্ট ফলাফল দেয়:

  1. ডকুমেন্ট: একটি NISA অ্যাকাউন্ট খোলা (স্কোর: 0.73) <- অনেক বেশি আত্মবিশ্বাসী
  2. নথি: একটি নিয়মিত সঞ্চয় অ্যাকাউন্ট খোলা (স্কোর: ০.৩৪) <- স্পষ্টতই কম প্রাসঙ্গিক
  3. ডকুমেন্ট: গৃহ ঋণ আবেদন নির্দেশিকা (স্কোর: ০.৪৭)
get_scores(query, documents)
Document:  Opening a NISA Account -> 🤖 Score:  0.73378766
Document:  Opening a Regular Savings Account -> 🤖 Score:  0.34055778
Document:  Home Loan Application Guide -> 🤖 Score:  0.47503752

আপনার মডেলটি Hugging Face Hub-এ আপলোড করতে, আপনি Sentence Transformers লাইব্রেরি থেকে push_to_hub পদ্ধতিটি ব্যবহার করতে পারেন।

আপনার মডেল আপলোড করলে হাব থেকে সরাসরি অনুমানের জন্য অ্যাক্সেস করা, অন্যদের সাথে শেয়ার করা এবং আপনার কাজটি সংস্করণ করা সহজ হয়। আপলোড হয়ে গেলে, যে কেউ আপনার মডেলটির অনন্য মডেল আইডি উল্লেখ করে একটি একক লাইন কোড দিয়ে লোড করতে পারে। <username>/my-embedding-gemma

# Push to Hub
model.push_to_hub("my-embedding-gemma")

সারাংশ এবং পরবর্তী পদক্ষেপ

আপনি এখন শিখেছেন কিভাবে একটি নির্দিষ্ট ডোমেনের জন্য একটি EmbeddingGemma মডেলকে Sentence Transformers লাইব্রেরির সাথে সূক্ষ্মভাবে সমন্বয় করে অভিযোজিত করতে হয়।

EmbeddingGemma দিয়ে আপনি আরও কী করতে পারেন তা অন্বেষণ করুন: