মডেল পৃষ্ঠা : এমবেডিং গেমা
সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন :
ব্যবহারের শর্তাবলী : শর্তাবলী
লেখকঃ গুগল ডিপমাইন্ড
মডেল তথ্য
সংক্ষিপ্ত বিবরণ এবং ইনপুট এবং আউটপুট সংক্ষিপ্ত সংজ্ঞা.
বর্ণনা
EmbeddingGemma হল একটি 300M প্যারামিটার, এটির আকারের জন্য অত্যাধুনিক, Google-এর ওপেন এম্বেডিং মডেল, Gemma 3 থেকে তৈরি (T5Gemma প্রাথমিককরণ সহ) এবং একই গবেষণা ও প্রযুক্তি জেমিনি মডেল তৈরি করতে ব্যবহৃত হয়। EmbeddingGemma পাঠ্যের ভেক্টর উপস্থাপনা তৈরি করে, এটিকে শ্রেণীবিভাগ, ক্লাস্টারিং এবং শব্দার্থগত সাদৃশ্য অনুসন্ধান সহ অনুসন্ধান এবং পুনরুদ্ধারের কাজের জন্য উপযুক্ত করে তোলে। এই মডেলটি 100+ কথ্য ভাষায় ডেটা সহ প্রশিক্ষিত হয়েছিল।
ছোট আকার এবং ডিভাইসে ফোকাস মোবাইল ফোন, ল্যাপটপ বা ডেস্কটপের মতো সীমিত সংস্থান সহ পরিবেশে স্থাপন করা সম্ভব করে তোলে, অত্যাধুনিক এআই মডেলগুলিতে অ্যাক্সেসকে গণতন্ত্রীকরণ করে এবং প্রত্যেকের জন্য উদ্ভাবনকে উত্সাহিত করতে সহায়তা করে।
আরও প্রযুক্তিগত বিশদ বিবরণের জন্য, আমাদের কাগজ পড়ুন: এমবেডিং গেমা: শক্তিশালী এবং হালকা টেক্সট প্রতিনিধিত্ব ।
ইনপুট এবং আউটপুট
- ইনপুট: - টেক্সট স্ট্রিং, যেমন একটি প্রশ্ন, একটি প্রম্পট, বা এমবেড করা একটি নথি
- সর্বাধিক ইনপুট প্রসঙ্গ দৈর্ঘ্য 2K
 
- আউটপুট: - ইনপুট পাঠ্য ডেটার সংখ্যাসূচক ভেক্টর উপস্থাপনা
- ম্যাট্রিওশকা রিপ্রেজেন্টেশন লার্নিং (MRL) এর মাধ্যমে ছোট বিকল্প উপলব্ধ (512, 256, বা 128) সহ 768 এর আউটপুট এমবেডিং ডাইমেনশন সাইজ। MRL ব্যবহারকারীদের তাদের পছন্দসই আকারে 768 আকারের আউটপুট এম্বেডিংকে ছেঁটে ফেলার এবং তারপর দক্ষ এবং সঠিক উপস্থাপনের জন্য পুনরায় স্বাভাবিক করার অনুমতি দেয়।
 
উদ্ধৃতি
@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}
মডেল ডেটা
প্রশিক্ষণ ডেটাসেট
এই মডেলটিকে টেক্সট ডেটার একটি ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছিল যাতে প্রায় 320 বিলিয়ন টোকেনগুলির মোট বিভিন্ন উত্স রয়েছে৷ এখানে মূল উপাদান আছে:
- ওয়েব ডকুমেন্টস : ওয়েব টেক্সটের একটি বৈচিত্র্যময় সংগ্রহ নিশ্চিত করে যে মডেলটি ভাষাগত শৈলী, বিষয় এবং শব্দভান্ডারের বিস্তৃত পরিসরে উন্মুক্ত। প্রশিক্ষণ ডেটাসেটে 100 টিরও বেশি ভাষায় সামগ্রী অন্তর্ভুক্ত রয়েছে।
- কোড এবং প্রযুক্তিগত নথি : কোড এবং প্রযুক্তিগত ডকুমেন্টেশন মডেলটিকে প্রকাশ করা এটিকে প্রোগ্রামিং ভাষা এবং বিশেষ বৈজ্ঞানিক বিষয়বস্তুর গঠন এবং প্যাটার্ন শিখতে সাহায্য করে, যা কোড এবং প্রযুক্তিগত প্রশ্নগুলির বোঝার উন্নতি করে।
- সিন্থেটিক এবং টাস্ক-নির্দিষ্ট ডেটা : কৃত্রিমভাবে প্রশিক্ষণ ডেটা মডেল নির্দিষ্ট দক্ষতা শেখাতে সাহায্য করে। এতে তথ্য পুনরুদ্ধার, শ্রেণিবিন্যাস এবং অনুভূতি বিশ্লেষণের মতো কাজের জন্য কিউরেটেড ডেটা অন্তর্ভুক্ত রয়েছে, যা সাধারণ এম্বেডিং অ্যাপ্লিকেশনগুলির জন্য এর কার্যকারিতাকে সূক্ষ্ম-সুর করতে সাহায্য করে।
একটি শক্তিশালী বহুভাষিক এমবেডিং মডেলের প্রশিক্ষণের জন্য এই বৈচিত্র্যময় ডেটা উত্সগুলির সংমিশ্রণ অত্যন্ত গুরুত্বপূর্ণ যা বিভিন্ন ধরণের বিভিন্ন কাজ এবং ডেটা ফর্ম্যাট পরিচালনা করতে পারে।
ডেটা প্রিপ্রসেসিং
প্রশিক্ষণ ডেটাতে প্রয়োগ করা মূল ডেটা পরিষ্কার এবং ফিল্টারিং পদ্ধতিগুলি এখানে রয়েছে:
- CSAM ফিল্টারিং: ক্ষতিকারক এবং অবৈধ বিষয়বস্তু বর্জন নিশ্চিত করার জন্য ডেটা প্রস্তুতির প্রক্রিয়ার একাধিক পর্যায়ে কঠোর CSAM (শিশু যৌন নির্যাতনের উপাদান) ফিল্টারিং প্রয়োগ করা হয়েছিল।
- সংবেদনশীল ডেটা ফিল্টারিং: জেমা প্রাক-প্রশিক্ষিত মডেলগুলিকে নিরাপদ এবং নির্ভরযোগ্য করার অংশ হিসাবে, প্রশিক্ষণ সেট থেকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করার জন্য স্বয়ংক্রিয় কৌশলগুলি ব্যবহার করা হয়েছিল।
- অতিরিক্ত পদ্ধতি: আমাদের নীতির সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।
মডেল উন্নয়ন
হার্ডওয়্যার
EmbeddingGemma টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5e) এর সর্বশেষ প্রজন্ম ব্যবহার করে প্রশিক্ষিত হয়েছিল, আরও বিশদ বিবরণের জন্য Gemma 3 মডেল কার্ড দেখুন।
সফটওয়্যার
JAX এবং ML পাথওয়ে ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল। আরো বিস্তারিত জানার জন্য Gemma 3 মডেল কার্ড দেখুন।
মূল্যায়ন
বেঞ্চমার্ক ফলাফল
পাঠ্য বোঝার বিভিন্ন দিক কভার করার জন্য মডেলটিকে বিভিন্ন ডেটাসেট এবং মেট্রিক্সের একটি বড় সংগ্রহের বিপরীতে মূল্যায়ন করা হয়েছিল।
সম্পূর্ণ নির্ভুল চেকপয়েন্ট
| MTEB (বহুভাষিক, v2) | ||
|---|---|---|
| মাত্রিকতা | গড় (কাজ) | গড় (টাস্ক টাইপ) | 
| 768d | 61.15 | 54.31 | 
| 512d | 60.71 | 53.89 | 
| 256d | 59.68 | 53.01 | 
| 128d | 58.23 | 51.77 | 
| MTEB (ইংরেজি, v2) | ||
|---|---|---|
| মাত্রিকতা | গড় (কাজ) | গড় (টাস্ক টাইপ) | 
| 768d | 69.67 | 65.11 | 
| 512d | 69.18 | 64.59 | 
| 256d | 68.37 | ৬৪.০২ | 
| 128d | ৬৬.৬৬ | 62.70 | 
| MTEB (কোড, v1) | ||
|---|---|---|
| মাত্রিকতা | গড় (কাজ) | গড় (টাস্ক টাইপ) | 
| 768d | ৬৮.৭৬ | ৬৮.৭৬ | 
| 512d | ৬৮.৪৮ | ৬৮.৪৮ | 
| 256d | ৬৬.৭৪ | ৬৬.৭৪ | 
| 128d | ৬২.৯৬ | ৬২.৯৬ | 
QAT চেকপয়েন্ট
| MTEB (বহুভাষিক, v2) | ||
|---|---|---|
| কোয়ান্ট কনফিগারেশন (মাত্রিকতা) | গড় (কাজ) | গড় (টাস্ক টাইপ) | 
| মিশ্র স্পষ্টতা* (768d) | 60.69 | 53.82 | 
| Q8_0 (768d) | 60.93 | 53.95 | 
| Q4_0 (768d) | 60.62 | 53.61 | 
| MTEB (ইংরেজি, v2) | ||
|---|---|---|
| কোয়ান্ট কনফিগারেশন (মাত্রিকতা) | গড় (কাজ) | গড় (টাস্ক টাইপ) | 
| মিশ্র স্পষ্টতা* (768d) | 69.32 | ৬৪.৮২ | 
| Q8_0 (768d) | ৬৯.৪৯ | ৬৪.৮৪ | 
| Q4_0 (768d) | 69.31 | 64.65 | 
| MTEB (কোড, v1) | ||
|---|---|---|
| কোয়ান্ট কনফিগারেশন (মাত্রিকতা) | গড় (কাজ) | গড় (টাস্ক টাইপ) | 
| মিশ্র স্পষ্টতা* (768d) | ৬৮.০৩ | ৬৮.০৩ | 
| Q8_0 (768d) | 68.70 | 68.70 | 
| Q4_0 (768d) | 67.99 | 67.99 | 
* মিশ্র যথার্থতা এম্বেডিং, ফিডফরওয়ার্ড এবং প্রজেকশন লেয়ারের জন্য int4 সহ প্রতি-চ্যানেল কোয়ান্টাইজেশন এবং মনোযোগের জন্য int8 বোঝায় (e4_a8_f4_p4)।
প্রম্পট নির্দেশাবলী
EmbeddingGemma বিভিন্ন ব্যবহারের ক্ষেত্রে অপ্টিমাইজ করা এমবেডিং তৈরি করতে পারে—যেমন নথি পুনরুদ্ধার, প্রশ্নের উত্তর, এবং সত্যতা যাচাই—অথবা নির্দিষ্ট ইনপুট প্রকারের জন্য—হয় একটি প্রশ্ন বা নথি—ইনপুট স্ট্রিংগুলিতে প্রম্পট ব্যবহার করে।
 ক্যোয়ারী প্রম্পট ফর্ম task: {task description} | query: যেখানে টাস্কের বিবরণ ব্যবহারের ক্ষেত্রে পরিবর্তিত হয়, ডিফল্ট টাস্কের বিবরণ search result সাথে। ডকুমেন্ট-স্টাইল প্রম্পট ফর্ম title: {title | "none"} | text: যেখানে শিরোনামটি হয় none (ডিফল্ট) বা নথির প্রকৃত শিরোনাম। মনে রাখবেন যে একটি শিরোনাম প্রদান করা, যদি উপলব্ধ হয়, নথির প্রম্পটগুলির জন্য মডেলের কার্যকারিতা উন্নত করবে কিন্তু ম্যানুয়াল বিন্যাসের প্রয়োজন হতে পারে।
আপনার ব্যবহারের ক্ষেত্রে এবং ইনপুট ডেটা প্রকারের উপর ভিত্তি করে নিম্নলিখিত প্রম্পটগুলি ব্যবহার করুন৷ এগুলি ইতিমধ্যেই আপনার পছন্দের মডেলিং কাঠামোর এমবেডিংজেমা কনফিগারেশনে উপলব্ধ হতে পারে।
| কেস ব্যবহার করুন (টাস্ক টাইপ enum) | বর্ণনা | প্রস্তাবিত প্রম্পট | 
|---|---|---|
| পুনরুদ্ধার (কোয়েরি) | নথি অনুসন্ধান বা তথ্য পুনরুদ্ধারের জন্য অপ্টিমাইজ করা এমবেডিং তৈরি করতে ব্যবহৃত হয় | কাজ: অনুসন্ধান ফলাফল | প্রশ্ন: {content} | 
| পুনরুদ্ধার (নথি) | title: {title | "কোনটিই"} | পাঠ্য: {content} | |
| প্রশ্নের উত্তর | কাজ: প্রশ্নের উত্তর | প্রশ্ন: {content} | |
| ফ্যাক্ট ভেরিফিকেশন | কাজ: ফ্যাক্ট চেকিং | প্রশ্ন: {content} | |
| শ্রেণীবিভাগ | প্রিসেট লেবেল অনুযায়ী পাঠ্য শ্রেণীবদ্ধ করার জন্য অপ্টিমাইজ করা এমবেডিং তৈরি করতে ব্যবহৃত হয় | কাজ: শ্রেণীবিভাগ | প্রশ্ন: {content} | 
| ক্লাস্টারিং | তাদের মিলের উপর ভিত্তি করে ক্লাস্টার পাঠ্যের জন্য অপ্টিমাইজ করা এমবেডিং তৈরি করতে ব্যবহৃত হয় | কাজ: ক্লাস্টারিং | প্রশ্ন: {content} | 
| শব্দার্থিক সাদৃশ্য | টেক্সট সাদৃশ্য মূল্যায়ন করার জন্য অপ্টিমাইজ করা এমবেডিং তৈরি করতে ব্যবহৃত হয়। এটি পুনরুদ্ধার ব্যবহারের ক্ষেত্রে উদ্দেশ্যে নয়। | কাজ: বাক্যের মিল | প্রশ্ন: {content} | 
| কোড পুনরুদ্ধার | একটি প্রাকৃতিক ভাষা প্রশ্নের উপর ভিত্তি করে একটি কোড ব্লক পুনরুদ্ধার করতে ব্যবহৃত হয়, যেমন একটি অ্যারে সাজান বা লিঙ্ক করা তালিকাকে উল্টানো । কোড ব্লকের এমবেডিং retrieval_document ব্যবহার করে গণনা করা হয়। | কাজ: কোড পুনরুদ্ধার | প্রশ্ন: {content} | 
ব্যবহার এবং সীমাবদ্ধতা
এই মডেলগুলির কিছু সীমাবদ্ধতা রয়েছে যা ব্যবহারকারীদের সচেতন হওয়া উচিত।
উদ্দেশ্য ব্যবহার
ওপেন এম্বেডিং মডেলের বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।
- শব্দার্থিক সাদৃশ্য : টেক্সট সাদৃশ্য মূল্যায়ন করার জন্য অপ্টিমাইজ করা এমবেডিং, যেমন সুপারিশ সিস্টেম এবং ডুপ্লিকেট সনাক্তকরণ
- শ্রেণীবিভাগ : এম্বেডিংগুলি প্রিসেট লেবেল অনুসারে পাঠ্যকে শ্রেণিবদ্ধ করার জন্য অপ্টিমাইজ করা হয়েছে, যেমন সেন্টিমেন্ট বিশ্লেষণ এবং স্প্যাম সনাক্তকরণ
- ক্লাস্টারিং : এম্বেডিংগুলি ক্লাস্টার টেক্সটগুলির জন্য তাদের মিলের উপর ভিত্তি করে অপ্টিমাইজ করা হয়েছে, যেমন নথি সংগঠন, বাজার গবেষণা, এবং অসঙ্গতি সনাক্তকরণ
- পুনরুদ্ধার - নথি : নথি অনুসন্ধানের জন্য অপ্টিমাইজ করা এমবেডিং, যেমন নিবন্ধ, বই বা অনুসন্ধানের জন্য ওয়েব পৃষ্ঠাগুলিকে ইন্ডেক্স করা
- ক্যোয়ারী : এম্বেডিংগুলি সাধারণ অনুসন্ধান প্রশ্নের জন্য অপ্টিমাইজ করা হয়েছে, যেমন কাস্টম অনুসন্ধান৷
- কোড ক্যোয়ারী : এম্বেডিংগুলি প্রাকৃতিক ভাষার প্রশ্নগুলির উপর ভিত্তি করে কোড ব্লক পুনরুদ্ধারের জন্য অপ্টিমাইজ করা হয়েছে, যেমন কোড পরামর্শ এবং অনুসন্ধান
 
- প্রশ্নের উত্তর : প্রশ্ন-উত্তর ব্যবস্থায় প্রশ্নের জন্য এম্বেডিং, চ্যাটবক্সের মতো প্রশ্নের উত্তর দেয় এমন নথি খোঁজার জন্য অপ্টিমাইজ করা। 
- ফ্যাক্ট ভেরিফিকেশন : বিবৃতিগুলির জন্য এম্বেডিংগুলি যা যাচাই করা দরকার, এমন নথিগুলি পুনরুদ্ধার করার জন্য অপ্টিমাইজ করা যা বিবৃতিকে সমর্থনকারী বা খণ্ডনকারী প্রমাণ ধারণ করে, যেমন স্বয়ংক্রিয় ফ্যাক্ট-চেকিং সিস্টেম। 
সীমাবদ্ধতা
- প্রশিক্ষণ ডেটা - প্রশিক্ষণের ডেটার গুণমান এবং বৈচিত্র্য মডেলের ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণের ডেটাতে পক্ষপাতিত্ব বা ফাঁক মডেলের প্রতিক্রিয়াগুলিতে সীমাবদ্ধতা সৃষ্টি করতে পারে।
- প্রশিক্ষণ ডেটাসেটের সুযোগ মডেলটি কার্যকরভাবে পরিচালনা করতে পারে এমন বিষয়ের ক্ষেত্রগুলি নির্ধারণ করে।
 
- ভাষার অস্পষ্টতা এবং সংক্ষিপ্ততা - প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। মডেলগুলি সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা উপলব্ধি করতে লড়াই করতে পারে।
 
নৈতিক বিবেচনা এবং ঝুঁকি
চিহ্নিত ঝুঁকি এবং প্রশমন:
- পক্ষপাতের স্থায়ীত্ব : মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
- দূষিত উদ্দেশ্যে অপব্যবহার : প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এমবেডিংয়ের দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। শিক্ষাগত সম্পদ এবং ব্যবহারকারীদের অপব্যবহার ফ্ল্যাগ করার জন্য রিপোর্টিং পদ্ধতি প্রদান করা হয়। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
- গোপনীয়তা লঙ্ঘন : মডেলগুলিকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা অপসারণের জন্য ফিল্টার করা ডেটা সম্পর্কে প্রশিক্ষণ দেওয়া হয়েছিল৷ বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷
সুবিধা
প্রকাশের সময়, মডেলের এই পরিবারটি একই আকারের মডেলগুলির তুলনায় দায়ী এআই বিকাশের জন্য গ্রাউন্ড আপ থেকে ডিজাইন করা উচ্চ-কার্যকারিতা ওপেন এমবেডিং মডেল বাস্তবায়ন সরবরাহ করে। এই নথিতে বর্ণিত বেঞ্চমার্ক মূল্যায়ন মেট্রিক্স ব্যবহার করে, এই মডেলগুলি অন্যান্য, তুলনামূলক আকারের খোলা মডেল বিকল্পগুলির থেকে উচ্চতর কর্মক্ষমতা দেখিয়েছে।