জেমা মডেল কার্ড এমবেডিং

মডেল পৃষ্ঠা : এমবেডিং গেমা

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন :

ব্যবহারের শর্তাবলী : শর্তাবলী

লেখকঃ গুগল ডিপমাইন্ড

মডেল তথ্য

সংক্ষিপ্ত বিবরণ এবং ইনপুট এবং আউটপুট সংক্ষিপ্ত সংজ্ঞা.

বর্ণনা

EmbeddingGemma হল একটি 300M প্যারামিটার, এটির আকারের জন্য অত্যাধুনিক, Google-এর ওপেন এম্বেডিং মডেল, Gemma 3 থেকে তৈরি (T5Gemma প্রাথমিককরণ সহ) এবং একই গবেষণা ও প্রযুক্তি জেমিনি মডেল তৈরি করতে ব্যবহৃত হয়। EmbeddingGemma পাঠ্যের ভেক্টর উপস্থাপনা তৈরি করে, এটিকে শ্রেণীবিভাগ, ক্লাস্টারিং এবং শব্দার্থগত সাদৃশ্য অনুসন্ধান সহ অনুসন্ধান এবং পুনরুদ্ধারের কাজের জন্য উপযুক্ত করে তোলে। এই মডেলটি 100+ কথ্য ভাষায় ডেটা সহ প্রশিক্ষিত হয়েছিল।

ছোট আকার এবং ডিভাইসে ফোকাস মোবাইল ফোন, ল্যাপটপ বা ডেস্কটপের মতো সীমিত সংস্থান সহ পরিবেশে স্থাপন করা সম্ভব করে তোলে, অত্যাধুনিক এআই মডেলগুলিতে অ্যাক্সেসকে গণতন্ত্রীকরণ করে এবং প্রত্যেকের জন্য উদ্ভাবনকে উত্সাহিত করতে সহায়তা করে।

আরও প্রযুক্তিগত বিশদ বিবরণের জন্য, আমাদের কাগজ পড়ুন: এমবেডিং গেমা: শক্তিশালী এবং হালকা টেক্সট প্রতিনিধিত্ব

ইনপুট এবং আউটপুট

  • ইনপুট:

    • টেক্সট স্ট্রিং, যেমন একটি প্রশ্ন, একটি প্রম্পট, বা এমবেড করা একটি নথি
    • সর্বাধিক ইনপুট প্রসঙ্গ দৈর্ঘ্য 2K
  • আউটপুট:

    • ইনপুট পাঠ্য ডেটার সংখ্যাসূচক ভেক্টর উপস্থাপনা
    • ম্যাট্রিওশকা রিপ্রেজেন্টেশন লার্নিং (MRL) এর মাধ্যমে ছোট বিকল্প উপলব্ধ (512, 256, বা 128) সহ 768 এর আউটপুট এমবেডিং ডাইমেনশন সাইজ। MRL ব্যবহারকারীদের তাদের পছন্দসই আকারে 768 আকারের আউটপুট এম্বেডিংকে ছেঁটে ফেলার এবং তারপর দক্ষ এবং সঠিক উপস্থাপনের জন্য পুনরায় স্বাভাবিক করার অনুমতি দেয়।

উদ্ধৃতি

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

মডেল ডেটা

প্রশিক্ষণ ডেটাসেট

এই মডেলটিকে টেক্সট ডেটার একটি ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছিল যাতে প্রায় 320 বিলিয়ন টোকেনগুলির মোট বিভিন্ন উত্স রয়েছে৷ এখানে মূল উপাদান আছে:

  • ওয়েব ডকুমেন্টস : ওয়েব টেক্সটের একটি বৈচিত্র্যময় সংগ্রহ নিশ্চিত করে যে মডেলটি ভাষাগত শৈলী, বিষয় এবং শব্দভান্ডারের বিস্তৃত পরিসরে উন্মুক্ত। প্রশিক্ষণ ডেটাসেটে 100 টিরও বেশি ভাষায় সামগ্রী অন্তর্ভুক্ত রয়েছে।
  • কোড এবং প্রযুক্তিগত নথি : কোড এবং প্রযুক্তিগত ডকুমেন্টেশন মডেলটিকে প্রকাশ করা এটিকে প্রোগ্রামিং ভাষা এবং বিশেষ বৈজ্ঞানিক বিষয়বস্তুর গঠন এবং প্যাটার্ন শিখতে সাহায্য করে, যা কোড এবং প্রযুক্তিগত প্রশ্নগুলির বোঝার উন্নতি করে।
  • সিন্থেটিক এবং টাস্ক-নির্দিষ্ট ডেটা : কৃত্রিমভাবে প্রশিক্ষণ ডেটা মডেল নির্দিষ্ট দক্ষতা শেখাতে সাহায্য করে। এতে তথ্য পুনরুদ্ধার, শ্রেণিবিন্যাস এবং অনুভূতি বিশ্লেষণের মতো কাজের জন্য কিউরেটেড ডেটা অন্তর্ভুক্ত রয়েছে, যা সাধারণ এম্বেডিং অ্যাপ্লিকেশনগুলির জন্য এর কার্যকারিতাকে সূক্ষ্ম-সুর করতে সাহায্য করে।

একটি শক্তিশালী বহুভাষিক এমবেডিং মডেলের প্রশিক্ষণের জন্য এই বৈচিত্র্যময় ডেটা উত্সগুলির সংমিশ্রণ অত্যন্ত গুরুত্বপূর্ণ যা বিভিন্ন ধরণের বিভিন্ন কাজ এবং ডেটা ফর্ম্যাট পরিচালনা করতে পারে।

ডেটা প্রিপ্রসেসিং

প্রশিক্ষণ ডেটাতে প্রয়োগ করা মূল ডেটা পরিষ্কার এবং ফিল্টারিং পদ্ধতিগুলি এখানে রয়েছে:

  • CSAM ফিল্টারিং: ক্ষতিকারক এবং অবৈধ বিষয়বস্তু বর্জন নিশ্চিত করার জন্য ডেটা প্রস্তুতির প্রক্রিয়ার একাধিক পর্যায়ে কঠোর CSAM (শিশু যৌন নির্যাতনের উপাদান) ফিল্টারিং প্রয়োগ করা হয়েছিল।
  • সংবেদনশীল ডেটা ফিল্টারিং: জেমা প্রাক-প্রশিক্ষিত মডেলগুলিকে নিরাপদ এবং নির্ভরযোগ্য করার অংশ হিসাবে, প্রশিক্ষণ সেট থেকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করার জন্য স্বয়ংক্রিয় কৌশলগুলি ব্যবহার করা হয়েছিল।
  • অতিরিক্ত পদ্ধতি: আমাদের নীতির সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

মডেল উন্নয়ন

হার্ডওয়্যার

EmbeddingGemma টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) এর সর্বশেষ প্রজন্ম ব্যবহার করে প্রশিক্ষিত হয়েছিল, আরও বিশদ বিবরণের জন্য Gemma 3 মডেল কার্ড দেখুন।

সফটওয়্যার

JAX এবং ML পাথওয়ে ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল। আরো বিস্তারিত জানার জন্য Gemma 3 মডেল কার্ড দেখুন।

মূল্যায়ন

বেঞ্চমার্ক ফলাফল

পাঠ্য বোঝার বিভিন্ন দিক কভার করার জন্য মডেলটিকে বিভিন্ন ডেটাসেট এবং মেট্রিক্সের একটি বড় সংগ্রহের বিপরীতে মূল্যায়ন করা হয়েছিল।

সম্পূর্ণ নির্ভুল চেকপয়েন্ট

MTEB (বহুভাষিক, v2)
মাত্রিকতা গড় (কাজ) গড় (টাস্ক টাইপ)
768d 61.15 54.31
512d 60.71 53.89
256d 59.68 53.01
128d 58.23 51.77
MTEB (ইংরেজি, v2)
মাত্রিকতা গড় (কাজ) গড় (টাস্ক টাইপ)
768d 69.67 65.11
512d 69.18 64.59
256d 68.37 ৬৪.০২
128d ৬৬.৬৬ 62.70
MTEB (কোড, v1)
মাত্রিকতা গড় (কাজ) গড় (টাস্ক টাইপ)
768d ৬৮.৭৬ ৬৮.৭৬
512d ৬৮.৪৮ ৬৮.৪৮
256d ৬৬.৭৪ ৬৬.৭৪
128d ৬২.৯৬ ৬২.৯৬

QAT চেকপয়েন্ট

MTEB (বহুভাষিক, v2)
কোয়ান্ট কনফিগারেশন (মাত্রিকতা) গড় (কাজ) গড় (টাস্ক টাইপ)
মিশ্র স্পষ্টতা* (768d) 60.69 53.82
Q8_0 (768d) 60.93 53.95
Q4_0 (768d) 60.62 53.61
MTEB (ইংরেজি, v2)
কোয়ান্ট কনফিগারেশন (মাত্রিকতা) গড় (কাজ) গড় (টাস্ক টাইপ)
মিশ্র স্পষ্টতা* (768d) 69.32 ৬৪.৮২
Q8_0 (768d) ৬৯.৪৯ ৬৪.৮৪
Q4_0 (768d) 69.31 64.65
MTEB (কোড, v1)
কোয়ান্ট কনফিগারেশন (মাত্রিকতা) গড় (কাজ) গড় (টাস্ক টাইপ)
মিশ্র স্পষ্টতা* (768d) ৬৮.০৩ ৬৮.০৩
Q8_0 (768d) 68.70 68.70
Q4_0 (768d) 67.99 67.99

* মিশ্র যথার্থতা এম্বেডিং, ফিডফরওয়ার্ড এবং প্রজেকশন লেয়ারের জন্য int4 সহ প্রতি-চ্যানেল কোয়ান্টাইজেশন এবং মনোযোগের জন্য int8 বোঝায় (e4_a8_f4_p4)।

প্রম্পট নির্দেশাবলী

EmbeddingGemma বিভিন্ন ব্যবহারের ক্ষেত্রে অপ্টিমাইজ করা এমবেডিং তৈরি করতে পারে—যেমন নথি পুনরুদ্ধার, প্রশ্নের উত্তর, এবং সত্যতা যাচাই—অথবা নির্দিষ্ট ইনপুট প্রকারের জন্য—হয় একটি প্রশ্ন বা নথি—ইনপুট স্ট্রিংগুলিতে প্রম্পট ব্যবহার করে।

ক্যোয়ারী প্রম্পট ফর্ম task: {task description} | query: যেখানে টাস্কের বিবরণ ব্যবহারের ক্ষেত্রে পরিবর্তিত হয়, ডিফল্ট টাস্কের বিবরণ search result সাথে। ডকুমেন্ট-স্টাইল প্রম্পট ফর্ম title: {title | "none"} | text: যেখানে শিরোনামটি হয় none (ডিফল্ট) বা নথির প্রকৃত শিরোনাম। মনে রাখবেন যে একটি শিরোনাম প্রদান করা, যদি উপলব্ধ হয়, নথির প্রম্পটগুলির জন্য মডেলের কার্যকারিতা উন্নত করবে কিন্তু ম্যানুয়াল বিন্যাসের প্রয়োজন হতে পারে।

আপনার ব্যবহারের ক্ষেত্রে এবং ইনপুট ডেটা প্রকারের উপর ভিত্তি করে নিম্নলিখিত প্রম্পটগুলি ব্যবহার করুন৷ এগুলি ইতিমধ্যেই আপনার পছন্দের মডেলিং কাঠামোর এমবেডিংজেমা কনফিগারেশনে উপলব্ধ হতে পারে।


কেস ব্যবহার করুন (টাস্ক টাইপ enum)

বর্ণনা

প্রস্তাবিত প্রম্পট

পুনরুদ্ধার (কোয়েরি)

নথি অনুসন্ধান বা তথ্য পুনরুদ্ধারের জন্য অপ্টিমাইজ করা এমবেডিং তৈরি করতে ব্যবহৃত হয়

কাজ: অনুসন্ধান ফলাফল | প্রশ্ন: {content}

পুনরুদ্ধার (নথি)

title: {title | "কোনটিই"} | পাঠ্য: {content}

প্রশ্নের উত্তর

কাজ: প্রশ্নের উত্তর | প্রশ্ন: {content}

ফ্যাক্ট ভেরিফিকেশন

কাজ: ফ্যাক্ট চেকিং | প্রশ্ন: {content}

শ্রেণীবিভাগ

প্রিসেট লেবেল অনুযায়ী পাঠ্য শ্রেণীবদ্ধ করার জন্য অপ্টিমাইজ করা এমবেডিং তৈরি করতে ব্যবহৃত হয়

কাজ: শ্রেণীবিভাগ | প্রশ্ন: {content}

ক্লাস্টারিং

তাদের মিলের উপর ভিত্তি করে ক্লাস্টার পাঠ্যের জন্য অপ্টিমাইজ করা এমবেডিং তৈরি করতে ব্যবহৃত হয়

কাজ: ক্লাস্টারিং | প্রশ্ন: {content}

শব্দার্থিক সাদৃশ্য

টেক্সট সাদৃশ্য মূল্যায়ন করার জন্য অপ্টিমাইজ করা এমবেডিং তৈরি করতে ব্যবহৃত হয়। এটি পুনরুদ্ধার ব্যবহারের ক্ষেত্রে উদ্দেশ্যে নয়।

কাজ: বাক্যের মিল | প্রশ্ন: {content}

কোড পুনরুদ্ধার

একটি প্রাকৃতিক ভাষা প্রশ্নের উপর ভিত্তি করে একটি কোড ব্লক পুনরুদ্ধার করতে ব্যবহৃত হয়, যেমন একটি অ্যারে সাজান বা লিঙ্ক করা তালিকাকে উল্টানো । কোড ব্লকের এমবেডিং retrieval_document ব্যবহার করে গণনা করা হয়।

কাজ: কোড পুনরুদ্ধার | প্রশ্ন: {content}

ব্যবহার এবং সীমাবদ্ধতা

এই মডেলগুলির কিছু সীমাবদ্ধতা রয়েছে যা ব্যবহারকারীদের সচেতন হওয়া উচিত।

উদ্দেশ্য ব্যবহার

ওপেন এম্বেডিং মডেলের বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।

  • শব্দার্থিক সাদৃশ্য : টেক্সট সাদৃশ্য মূল্যায়ন করার জন্য অপ্টিমাইজ করা এমবেডিং, যেমন সুপারিশ সিস্টেম এবং ডুপ্লিকেট সনাক্তকরণ
  • শ্রেণীবিভাগ : এম্বেডিংগুলি প্রিসেট লেবেল অনুসারে পাঠ্যকে শ্রেণিবদ্ধ করার জন্য অপ্টিমাইজ করা হয়েছে, যেমন সেন্টিমেন্ট বিশ্লেষণ এবং স্প্যাম সনাক্তকরণ
  • ক্লাস্টারিং : এম্বেডিংগুলি ক্লাস্টার টেক্সটগুলির জন্য তাদের মিলের উপর ভিত্তি করে অপ্টিমাইজ করা হয়েছে, যেমন নথি সংগঠন, বাজার গবেষণা, এবং অসঙ্গতি সনাক্তকরণ
  • পুনরুদ্ধার

    • নথি : নথি অনুসন্ধানের জন্য অপ্টিমাইজ করা এমবেডিং, যেমন নিবন্ধ, বই বা অনুসন্ধানের জন্য ওয়েব পৃষ্ঠাগুলিকে ইন্ডেক্স করা
    • ক্যোয়ারী : এম্বেডিংগুলি সাধারণ অনুসন্ধান প্রশ্নের জন্য অপ্টিমাইজ করা হয়েছে, যেমন কাস্টম অনুসন্ধান৷
    • কোড ক্যোয়ারী : এম্বেডিংগুলি প্রাকৃতিক ভাষার প্রশ্নগুলির উপর ভিত্তি করে কোড ব্লক পুনরুদ্ধারের জন্য অপ্টিমাইজ করা হয়েছে, যেমন কোড পরামর্শ এবং অনুসন্ধান
  • প্রশ্নের উত্তর : প্রশ্ন-উত্তর ব্যবস্থায় প্রশ্নের জন্য এম্বেডিং, চ্যাটবক্সের মতো প্রশ্নের উত্তর দেয় এমন নথি খোঁজার জন্য অপ্টিমাইজ করা।

  • ফ্যাক্ট ভেরিফিকেশন : বিবৃতিগুলির জন্য এম্বেডিংগুলি যা যাচাই করা দরকার, এমন নথিগুলি পুনরুদ্ধার করার জন্য অপ্টিমাইজ করা যা বিবৃতিকে সমর্থনকারী বা খণ্ডনকারী প্রমাণ ধারণ করে, যেমন স্বয়ংক্রিয় ফ্যাক্ট-চেকিং সিস্টেম।

সীমাবদ্ধতা

  • প্রশিক্ষণ ডেটা

    • প্রশিক্ষণের ডেটার গুণমান এবং বৈচিত্র্য মডেলের ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণের ডেটাতে পক্ষপাতিত্ব বা ফাঁক মডেলের প্রতিক্রিয়াগুলিতে সীমাবদ্ধতা সৃষ্টি করতে পারে।
    • প্রশিক্ষণ ডেটাসেটের সুযোগ মডেলটি কার্যকরভাবে পরিচালনা করতে পারে এমন বিষয়ের ক্ষেত্রগুলি নির্ধারণ করে।
  • ভাষার অস্পষ্টতা এবং সংক্ষিপ্ততা

    • প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। মডেলগুলি সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা উপলব্ধি করতে লড়াই করতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

চিহ্নিত ঝুঁকি এবং প্রশমন:

  • পক্ষপাতের স্থায়ীত্ব : মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
  • দূষিত উদ্দেশ্যে অপব্যবহার : প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এমবেডিংয়ের দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। শিক্ষাগত সম্পদ এবং ব্যবহারকারীদের অপব্যবহার ফ্ল্যাগ করার জন্য রিপোর্টিং পদ্ধতি প্রদান করা হয়। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
  • গোপনীয়তা লঙ্ঘন : মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা অপসারণের জন্য ফিল্টার করা ডেটা সম্পর্কে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সুবিধা

প্রকাশের সময়, মডেলের এই পরিবারটি একই আকারের মডেলগুলির তুলনায় দায়ী এআই বিকাশের জন্য গ্রাউন্ড আপ থেকে ডিজাইন করা উচ্চ-কার্যকারিতা ওপেন এমবেডিং মডেল বাস্তবায়ন সরবরাহ করে। এই নথিতে বর্ণিত বেঞ্চমার্ক মূল্যায়ন মেট্রিক্স ব্যবহার করে, এই মডেলগুলি অন্যান্য, তুলনামূলক আকারের খোলা মডেল বিকল্পগুলির থেকে উচ্চতর কর্মক্ষমতা দেখিয়েছে।