RecurrentGemma মডেল কার্ড

মডেল পৃষ্ঠা: RecurrentGemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন:

ব্যবহারের শর্তাবলী: শর্তাবলী

লেখক: গুগল

মডেল তথ্য

মডেল সারাংশ

বর্ণনা

RecurrentGemma হল একটি উন্মুক্ত ভাষা মডেলের একটি পরিবার যা Google-এ বিকশিত একটি অভিনব পুনরাবৃত্ত আর্কিটেকচারের উপর নির্মিত। উভয় প্রাক-প্রশিক্ষিত এবং নির্দেশ-সুরিত সংস্করণ ইংরেজিতে উপলব্ধ।

জেমার মতো, রিকরেন্ট জেমা মডেলগুলি প্রশ্নের উত্তর, সংক্ষিপ্তকরণ এবং যুক্তি সহ পাঠ্য তৈরির বিভিন্ন কাজের জন্য উপযুক্ত। এর অভিনব স্থাপত্যের কারণে, RecurrentGemma-এর Gemma থেকে কম মেমরির প্রয়োজন হয় এবং দীর্ঘ অনুক্রম তৈরি করার সময় দ্রুত অনুমান অর্জন করে।

ইনপুট এবং আউটপুট

  • ইনপুট: টেক্সট স্ট্রিং (যেমন, একটি প্রশ্ন, একটি প্রম্পট, বা একটি নথি সংক্ষিপ্ত করা হবে)।
  • আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে ইংরেজি ভাষার পাঠ্য তৈরি করা হয়েছে (যেমন, প্রশ্নের উত্তর, নথির সারাংশ)।

উদ্ধৃতি

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

মডেল ডেটা

প্রশিক্ষণ ডেটাসেট এবং ডেটা প্রক্রিয়াকরণ

RecurrentGemma একই প্রশিক্ষণ ডেটা এবং ডেটা প্রসেসিং ব্যবহার করে যা Gemma মডেল পরিবার ব্যবহার করে। জেমা মডেল কার্ডে একটি সম্পূর্ণ বিবরণ পাওয়া যাবে।

বাস্তবায়ন তথ্য

প্রশিক্ষণের সময় ব্যবহৃত হার্ডওয়্যার এবং ফ্রেমওয়ার্ক

জেমার মতই, RecurrentGemma JAX এবং ML পাথওয়ে ব্যবহার করে TPUv5e- তে প্রশিক্ষিত হয়েছিল।

মূল্যায়ন তথ্য

বেঞ্চমার্ক ফলাফল

মূল্যায়ন পদ্ধতি

পাঠ্য তৈরির বিভিন্ন দিক কভার করার জন্য এই মডেলগুলিকে বিভিন্ন ডেটাসেট এবং মেট্রিক্সের একটি বৃহৎ সংগ্রহের বিরুদ্ধে মূল্যায়ন করা হয়েছিল:

মূল্যায়ন ফলাফল

বেঞ্চমার্ক মেট্রিক পুনরাবৃত্ত জেমা 2B পুনরাবৃত্ত জেমা 9 বি
MMLU 5-শট, শীর্ষ-1 38.4 ৬০.৫
HellaSwag 0-শট 71.0 80.4
PIQA 0-শট 78.5 ৮১.৩
সোশ্যালআইকিউএ 0-শট 51.8 52.3
BoolQ 0-শট 71.3 80.3
উইনোগ্রান্ডে আংশিক স্কোর 67.8 73.6
CommonsenseQA 7-শট ৬৩.৭ 73.2
OpenBookQA 47.2 51.8
ARC-ই 72.9 78.8
ARC-গ 42.3 52.0
ট্রিভিয়াকিউএ 5-শট 52.5 70.5
প্রাকৃতিক প্রশ্ন 5-শট 11.5 21.7
হিউম্যান ইভাল পাস@1 21.3 31.1
এমবিপিপি 3-শট 28.8 42.0
GSM8K maj@1 13.4 42.6
গণিত 4-শট 11.0 23.8
AGIEval 23.8 ৩৯.৩
বিগ-বেঞ্চ 35.3 55.2
গড় 44.6 56.1

নৈতিকতা এবং নিরাপত্তা

নৈতিকতা এবং নিরাপত্তা মূল্যায়ন

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতির মধ্যে রয়েছে কাঠামোগত মূল্যায়ন এবং প্রাসঙ্গিক বিষয়বস্তুর নীতির অভ্যন্তরীণ রেড-টিমিং টেস্টিং। রেড-টিমিং বেশ কয়েকটি ভিন্ন দল দ্বারা পরিচালিত হয়েছিল, প্রতিটিরই ভিন্ন লক্ষ্য এবং মানবিক মূল্যায়ন মেট্রিক্স। এই মডেলগুলিকে নৈতিকতা এবং নিরাপত্তার সাথে প্রাসঙ্গিক বিভিন্ন বিভাগের বিরুদ্ধে মূল্যায়ন করা হয়েছিল, যার মধ্যে রয়েছে:

  • টেক্সট-টু-টেক্সট বিষয়বস্তুর নিরাপত্তা: শিশুর যৌন নির্যাতন এবং শোষণ, হয়রানি, সহিংসতা এবং ঘৃণ্য বক্তব্য সহ নিরাপত্তা নীতিগুলি কভার করার প্রম্পটগুলির উপর মানবিক মূল্যায়ন।
  • টেক্সট-টু-টেক্সট প্রতিনিধিত্বমূলক ক্ষতি: প্রাসঙ্গিক একাডেমিক ডেটাসেট যেমন WinoBias এবং BBQ ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক।
  • মুখস্থকরণ: ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য এক্সপোজারের ঝুঁকি সহ প্রশিক্ষণের ডেটা মুখস্থ করার স্বয়ংক্রিয় মূল্যায়ন।
  • বড় আকারের ক্ষতি: রাসায়নিক, জৈবিক, রেডিওলজিক্যাল, এবং নিউক্লিয়ার (CBRN) ঝুঁকির মতো "বিপজ্জনক ক্ষমতার" জন্য পরীক্ষা; সেইসাথে প্ররোচনা এবং প্রতারণা, সাইবার নিরাপত্তা, এবং স্বায়ত্তশাসিত প্রতিলিপির জন্য পরীক্ষা।

মূল্যায়ন ফলাফল

নৈতিকতা এবং নিরাপত্তা মূল্যায়নের ফলাফলগুলি শিশু সুরক্ষা, বিষয়বস্তু সুরক্ষা, প্রতিনিধিত্বমূলক ক্ষতি, মুখস্থ করা, বড় আকারের ক্ষতির মতো বিভাগগুলির জন্য অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে৷ শক্তিশালী অভ্যন্তরীণ মূল্যায়নের উপরে, BBQ, Winogender, WinoBias, RealToxicity, এবং TruthfulQA-এর মতো সুপরিচিত নিরাপত্তা বেঞ্চমার্কের ফলাফল এখানে দেখানো হয়েছে।

বেঞ্চমার্ক মেট্রিক পুনরাবৃত্ত জেমা 2B RecurrentGemma 2B IT পুনরাবৃত্ত জেমা 9 বি RecurrentGemma 9B IT
রিয়েল টক্সিসিটি গড় ৯.৮ 7.60 10.3 ৮.৮
বোল্ড ৩৯.৩ 52.3 ৩৯.৮ 47.9
কাক-জোড়া শীর্ষ-1 41.1 43.4 38.7 39.5
BBQ Ambig শীর্ষ-1 62.6 71.1 95.9 67.1
বিবিকিউ ডিস্যাম্বিগ শীর্ষ-1 58.4 50.8 78.6 78.9
উইনোজেন্ডার শীর্ষ-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
উইনোবিয়াস 1_2 58.4 56.4 61.5 60.6
উইনোবিয়াস 2_2 90.0 75.4 90.2 90.3
টক্সিজেন 56.7 50.0 58.8 64.5

মডেল ব্যবহার এবং সীমাবদ্ধতা

পরিচিত সীমাবদ্ধতা

এই মডেলগুলির কিছু সীমাবদ্ধতা রয়েছে যা ব্যবহারকারীদের সচেতন হওয়া উচিত:

  • প্রশিক্ষণ তথ্য
    • প্রশিক্ষণের ডেটার গুণমান এবং বৈচিত্র্য মডেলের ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণের ডেটাতে পক্ষপাতিত্ব বা ফাঁক মডেলের প্রতিক্রিয়াগুলিতে সীমাবদ্ধতা সৃষ্টি করতে পারে।
    • প্রশিক্ষণ ডেটাসেটের সুযোগ মডেলটি কার্যকরভাবে পরিচালনা করতে পারে এমন বিষয়ের ক্ষেত্রগুলি নির্ধারণ করে।
  • প্রসঙ্গ এবং টাস্ক জটিলতা
    • স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে এলএলএমগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
    • একটি মডেলের কর্মক্ষমতা প্রদত্ত প্রসঙ্গের পরিমাণ দ্বারা প্রভাবিত হতে পারে (দীর্ঘ প্রসঙ্গ সাধারণত একটি নির্দিষ্ট বিন্দু পর্যন্ত ভাল আউটপুট নিয়ে যায়)।
  • ভাষার অস্পষ্টতা এবং সূক্ষ্মতা
    • প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। এলএলএমগুলি সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
  • বাস্তব নির্ভুলতা
    • LLM গুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
  • সাধারণ জ্ঞান
    • এলএলএমগুলি ভাষার পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

বৃহৎ ভাষা মডেলের (LLMs) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বড় আকারের, বাস্তব-বিশ্বের পাঠ্য ডেটাতে প্রশিক্ষিত এলএলএমগুলি প্রশিক্ষণের উপাদানগুলিতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতকে প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে LLM অপব্যবহার করা যেতে পারে।
    • মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা
    • এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
    • একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল এআই ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে এলএলএম প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

ঝুঁকি চিহ্নিত করা এবং প্রশমন:

  • পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
  • ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
  • দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। শিক্ষাগত সম্পদ এবং ব্যবহারকারীদের অপব্যবহার ফ্ল্যাগ করার জন্য রিপোর্টিং পদ্ধতি প্রদান করা হয়। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি আমাদের ব্যবহারের শর্তাবলীতে বর্ণিত হয়েছে৷
  • গোপনীয়তা লঙ্ঘন: মডেলগুলিকে PII (ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য) অপসারণের জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল। বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

উদ্দেশ্য ব্যবহার

আবেদন

ওপেন লার্জ ল্যাঙ্গুয়েজ মডেলের (LLMs) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।

  • বিষয়বস্তু তৈরি এবং যোগাযোগ
    • পাঠ্য প্রজন্ম: এই মডেলগুলি কবিতা, স্ক্রিপ্ট, কোড, মার্কেটিং কপি, ইমেল ড্রাফ্ট ইত্যাদির মতো সৃজনশীল পাঠ্য বিন্যাস তৈরি করতে ব্যবহার করা যেতে পারে।
    • চ্যাটবট এবং কথোপকথনমূলক এআই: গ্রাহক পরিষেবা, ভার্চুয়াল সহকারী বা ইন্টারেক্টিভ অ্যাপ্লিকেশনগুলির জন্য শক্তিশালী কথোপকথন ইন্টারফেস।
    • টেক্সট সারমাইজেশন: একটি টেক্সট কর্পাস, রিসার্চ পেপার বা রিপোর্টের সংক্ষিপ্ত সারাংশ তৈরি করুন।
  • গবেষণা এবং শিক্ষা
    • ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) গবেষণা: এই মডেলগুলি গবেষকদের NLP কৌশল নিয়ে পরীক্ষা-নিরীক্ষা, অ্যালগরিদম বিকাশ এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখার ভিত্তি হিসেবে কাজ করতে পারে।
    • ভাষা শেখার সরঞ্জাম: ইন্টারেক্টিভ ভাষা শেখার অভিজ্ঞতা সমর্থন করে, ব্যাকরণ সংশোধনে সহায়তা করে বা লেখার অনুশীলন প্রদান করে।
    • জ্ঞান অন্বেষণ: সারাংশ তৈরি করে বা নির্দিষ্ট বিষয় সম্পর্কে প্রশ্নের উত্তর দিয়ে পাঠ্যের বড় অংশ অন্বেষণে গবেষকদের সহায়তা করুন।

সুবিধা

প্রকাশের সময়, মডেলের এই পরিবারটি একই আকারের মডেলগুলির তুলনায় দায়ী এআই বিকাশের জন্য গ্রাউন্ড আপ থেকে ডিজাইন করা উচ্চ-কার্যকারিতা ওপেন বৃহৎ ভাষা মডেল বাস্তবায়ন প্রদান করে।

এই নথিতে বর্ণিত বেঞ্চমার্ক মূল্যায়ন মেট্রিক্স ব্যবহার করে, এই মডেলগুলি অন্যান্য, তুলনামূলক আকারের খোলা মডেল বিকল্পগুলির থেকে উচ্চতর কর্মক্ষমতা প্রদান করতে দেখায়।

বিশেষ করে, RecurrentGemma মডেলগুলি জেমা মডেলগুলির সাথে তুলনামূলক কর্মক্ষমতা অর্জন করে তবে অনুমান করার সময় দ্রুততর হয় এবং বিশেষত দীর্ঘ ক্রমগুলিতে কম মেমরির প্রয়োজন হয়৷