জেমা 2 মডেল কার্ড

মডেল পৃষ্ঠা : Gemma

সম্পদ এবং প্রযুক্তিগত ডকুমেন্টেশন :

ব্যবহারের শর্তাবলী : শর্তাবলী

লেখক : গুগল

মডেল তথ্য

সংক্ষিপ্ত বিবরণ এবং ইনপুট এবং আউটপুট সংক্ষিপ্ত সংজ্ঞা.

বর্ণনা

Gemma হল Google-এর লাইটওয়েট, অত্যাধুনিক ওপেন মডেলগুলির একটি পরিবার, যা একই গবেষণা এবং প্রযুক্তি থেকে তৈরি করা হয়েছে যা জেমিনি মডেলগুলি তৈরি করতে ব্যবহৃত হয়৷ এগুলি হল টেক্সট-টু-টেক্সট, ডিকোডার-শুধুমাত্র বৃহৎ ভাষার মডেল, ইংরেজিতে উপলব্ধ, প্রাক-প্রশিক্ষিত ভেরিয়েন্ট এবং নির্দেশ-সুরিত রূপ উভয়ের জন্য খোলা ওজন সহ। প্রশ্ন উত্তর, সংক্ষিপ্তকরণ এবং যুক্তি সহ পাঠ্য তৈরির বিভিন্ন কাজের জন্য জেমা মডেলগুলি উপযুক্ত। তাদের তুলনামূলকভাবে ছোট আকার তাদের ল্যাপটপ, ডেস্কটপ বা আপনার নিজস্ব ক্লাউড অবকাঠামোর মতো সীমিত সংস্থান সহ পরিবেশে স্থাপন করা সম্ভব করে, অত্যাধুনিক এআই মডেলগুলিতে অ্যাক্সেসকে গণতন্ত্রীকরণ করে এবং প্রত্যেকের জন্য উদ্ভাবনকে উত্সাহিত করতে সহায়তা করে।

ইনপুট এবং আউটপুট

  • ইনপুট: টেক্সট স্ট্রিং, যেমন একটি প্রশ্ন, একটি প্রম্পট, বা একটি নথি সংক্ষিপ্ত করা হবে।
  • আউটপুট: ইনপুটের প্রতিক্রিয়া হিসাবে ইংরেজি ভাষার পাঠ্য তৈরি করা হয়, যেমন একটি প্রশ্নের উত্তর, বা একটি নথির সারাংশ।

উদ্ধৃতি

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

মডেল ডেটা

মডেল প্রশিক্ষণের জন্য ব্যবহৃত ডেটা এবং কীভাবে ডেটা প্রক্রিয়া করা হয়েছিল।

প্রশিক্ষণ ডেটাসেট

এই মডেলগুলিকে টেক্সট ডেটার একটি ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়েছিল যাতে বিভিন্ন ধরণের উত্স রয়েছে। 27B মডেলকে 13 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষিত করা হয়েছিল, 9B মডেলকে 8 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষিত করা হয়েছিল, এবং 2B মডেলকে 2 ট্রিলিয়ন টোকেন দিয়ে প্রশিক্ষণ দেওয়া হয়েছিল। এখানে মূল উপাদান আছে:

  • ওয়েব ডকুমেন্টস: ওয়েব টেক্সটের একটি বৈচিত্র্যময় সংগ্রহ নিশ্চিত করে যে মডেলটি ভাষাগত শৈলী, বিষয় এবং শব্দভান্ডারের বিস্তৃত পরিসরে উন্মুক্ত হয়েছে। প্রাথমিকভাবে ইংরেজি-ভাষা বিষয়বস্তু।
  • কোড: মডেলটিকে কোডের সাথে প্রকাশ করা এটিকে প্রোগ্রামিং ভাষার সিনট্যাক্স এবং প্যাটার্ন শিখতে সাহায্য করে, যা কোড তৈরি করতে বা কোড-সম্পর্কিত প্রশ্ন বোঝার ক্ষমতাকে উন্নত করে।
  • গণিত: গাণিতিক পাঠ্যের উপর প্রশিক্ষণ মডেলটিকে যৌক্তিক যুক্তি, প্রতীকী উপস্থাপনা এবং গাণিতিক প্রশ্নের সমাধান করতে সাহায্য করে।

এই বৈচিত্র্যময় তথ্য উত্সগুলির সংমিশ্রণ একটি শক্তিশালী ভাষা মডেলের প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ যা বিভিন্ন ধরণের বিভিন্ন কাজ এবং পাঠ্য বিন্যাস পরিচালনা করতে পারে।

ডেটা প্রিপ্রসেসিং

প্রশিক্ষণ ডেটাতে প্রয়োগ করা মূল ডেটা পরিষ্কার এবং ফিল্টারিং পদ্ধতিগুলি এখানে রয়েছে:

  • CSAM ফিল্টারিং: ক্ষতিকারক এবং অবৈধ বিষয়বস্তু বর্জন নিশ্চিত করার জন্য ডেটা প্রস্তুতির প্রক্রিয়ার একাধিক পর্যায়ে কঠোর CSAM (শিশু যৌন নির্যাতনের উপাদান) ফিল্টারিং প্রয়োগ করা হয়েছিল।
  • সংবেদনশীল ডেটা ফিল্টারিং: জেমা প্রাক-প্রশিক্ষিত মডেলগুলিকে নিরাপদ এবং নির্ভরযোগ্য করার অংশ হিসাবে, প্রশিক্ষণ সেট থেকে নির্দিষ্ট ব্যক্তিগত তথ্য এবং অন্যান্য সংবেদনশীল ডেটা ফিল্টার করার জন্য স্বয়ংক্রিয় কৌশলগুলি ব্যবহার করা হয়েছিল।
  • অতিরিক্ত পদ্ধতি: আমাদের নীতির সাথে সামঞ্জস্যপূর্ণ বিষয়বস্তুর গুণমান এবং নিরাপত্তার উপর ভিত্তি করে ফিল্টারিং।

বাস্তবায়ন তথ্য

মডেল অভ্যন্তরীণ সম্পর্কে বিস্তারিত.

হার্ডওয়্যার

জেমাকে টেনসর প্রসেসিং ইউনিট (TPU) হার্ডওয়্যার (TPUv5p) এর সর্বশেষ প্রজন্ম ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।

বৃহৎ ভাষার মডেলের প্রশিক্ষণের জন্য উল্লেখযোগ্য গণনীয় শক্তি প্রয়োজন। TPUs, বিশেষভাবে মেশিন লার্নিং-এ সাধারণ ম্যাট্রিক্স অপারেশনের জন্য ডিজাইন করা হয়েছে, এই ডোমেনে বেশ কিছু সুবিধা অফার করে:

  • কর্মক্ষমতা: TPU গুলি বিশেষভাবে LLM প্রশিক্ষণের সাথে জড়িত বিশাল গণনাগুলি পরিচালনা করার জন্য ডিজাইন করা হয়েছে। তারা সিপিইউ-এর তুলনায় প্রশিক্ষণের গতি বাড়াতে পারে।
  • মেমরি: টিপিইউগুলি প্রায়শই প্রচুর পরিমাণে উচ্চ-ব্যান্ডউইথ মেমরি নিয়ে আসে, যা প্রশিক্ষণের সময় বড় মডেল এবং ব্যাচের আকারগুলি পরিচালনা করার অনুমতি দেয়। এটি আরও ভাল মডেলের মানের দিকে নিয়ে যেতে পারে।
  • পরিমাপযোগ্যতা: TPU Pods (TPUs-এর বড় ক্লাস্টার) বড় ফাউন্ডেশন মডেলের ক্রমবর্ধমান জটিলতা মোকাবেলার জন্য একটি মাপযোগ্য সমাধান প্রদান করে। আপনি দ্রুত এবং আরও দক্ষ প্রক্রিয়াকরণের জন্য একাধিক TPU ডিভাইস জুড়ে প্রশিক্ষণ বিতরণ করতে পারেন।
  • খরচ-কার্যকারিতা: অনেক পরিস্থিতিতে, TPU গুলি CPU-ভিত্তিক পরিকাঠামোর তুলনায় বড় মডেলের প্রশিক্ষণের জন্য একটি বেশি সাশ্রয়ী সমাধান প্রদান করতে পারে, বিশেষ করে যখন দ্রুত প্রশিক্ষণের কারণে সময় এবং সংস্থান সংরক্ষণ করা হয়।
  • এই সুবিধাগুলি টেকসইভাবে কাজ করার জন্য Google-এর প্রতিশ্রুতিগুলির সাথে সামঞ্জস্যপূর্ণ।

সফটওয়্যার

JAX এবং ML পাথওয়ে ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।

JAX গবেষকদের বড় মডেলের দ্রুত এবং আরও দক্ষ প্রশিক্ষণের জন্য TPU সহ হার্ডওয়্যারের সর্বশেষ প্রজন্মের সুবিধা নিতে দেয়।

ML Pathways হল একাধিক কাজ জুড়ে সাধারণীকরণ করতে সক্ষম কৃত্রিমভাবে বুদ্ধিমান সিস্টেম তৈরি করার জন্য Google এর সর্বশেষ প্রচেষ্টা। এটি ফাউন্ডেশন মডেলগুলির জন্য বিশেষভাবে উপযুক্ত, এইগুলির মতো বড় ভাষা মডেলগুলি সহ৷

মডেলের মিথুন পরিবার সম্পর্কে কাগজে বর্ণিত হিসাবে JAX এবং ML পাথওয়ে একসাথে ব্যবহার করা হয়েছে; "জ্যাক্স এবং পাথওয়েজের 'একক নিয়ন্ত্রক' প্রোগ্রামিং মডেলটি একটি একক পাইথন প্রক্রিয়াকে সম্পূর্ণ প্রশিক্ষণের অর্কেস্ট্রেট করার অনুমতি দেয়, নাটকীয়ভাবে উন্নয়ন কর্মপ্রবাহকে সহজতর করে।"

মূল্যায়ন

মডেল মূল্যায়ন মেট্রিক্স এবং ফলাফল.

বেঞ্চমার্ক ফলাফল

পাঠ্য তৈরির বিভিন্ন দিক কভার করার জন্য এই মডেলগুলিকে বিভিন্ন ডেটাসেট এবং মেট্রিক্সের একটি বৃহৎ সংগ্রহের বিরুদ্ধে মূল্যায়ন করা হয়েছিল:

বেঞ্চমার্ক মেট্রিক Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5-শট, শীর্ষ-1 51.3 71.3 75.2
HellaSwag 10-শট 73.0 ৮১.৯ ৮৬.৪
PIQA 0-শট 77.8 ৮১.৭ ৮৩.২
সোশ্যালআইকিউএ 0-শট 51.9 53.4 53.7
BoolQ 0-শট 72.5 ৮৪.২ ৮৪.৮
উইনোগ্রান্ডে আংশিক স্কোর 70.9 80.6 ৮৩.৭
ARC-ই 0-শট 80.1 ৮৮.০ ৮৮.৬
ARC-গ 25-শট 55.4 ৬৮.৪ 71.4
ট্রিভিয়াকিউএ 5-শট 59.4 76.6 ৮৩.৭
প্রাকৃতিক প্রশ্ন 5-শট 16.7 29.2 34.5
হিউম্যান ইভাল পাস@1 17.7 40.2 51.8
এমবিপিপি 3-শট 29.6 52.4 62.6
GSM8K 5-শট, maj@1 23.9 ৬৮.৬ 74.0
গণিত 4-শট 15.0 36.6 42.3
AGIEval 3-5-শট 30.6 52.8 55.1
ড্রপ 3-শট, F1 52.0 69.4 72.2
বিগ-বেঞ্চ 3-শট, CoT 41.9 ৬৮.২ 74.9

নৈতিকতা এবং নিরাপত্তা

নৈতিকতা এবং নিরাপত্তা মূল্যায়ন পদ্ধতি এবং ফলাফল.

মূল্যায়ন পদ্ধতি

আমাদের মূল্যায়ন পদ্ধতির মধ্যে রয়েছে কাঠামোগত মূল্যায়ন এবং প্রাসঙ্গিক বিষয়বস্তুর নীতির অভ্যন্তরীণ রেড-টিমিং টেস্টিং। রেড-টিমিং বেশ কয়েকটি ভিন্ন দল দ্বারা পরিচালিত হয়েছিল, প্রতিটিরই ভিন্ন লক্ষ্য এবং মানবিক মূল্যায়ন মেট্রিক্স। এই মডেলগুলিকে নৈতিকতা এবং নিরাপত্তার সাথে প্রাসঙ্গিক বিভিন্ন বিভাগের বিরুদ্ধে মূল্যায়ন করা হয়েছিল, যার মধ্যে রয়েছে:

  • টেক্সট-টু-টেক্সট বিষয়বস্তুর নিরাপত্তা: শিশুর যৌন নির্যাতন ও শোষণ, হয়রানি, সহিংসতা এবং ঘৃণামূলক বক্তব্য সহ নিরাপত্তা নীতিগুলি কভার করার প্রম্পটগুলির উপর মানবিক মূল্যায়ন।
  • টেক্সট-টু-টেক্সট রিপ্রেজেন্টেশনাল হার্মস: প্রাসঙ্গিক একাডেমিক ডেটাসেট যেমন WinoBias এবং BBQ ডেটাসেটের বিরুদ্ধে বেঞ্চমার্ক।
  • মুখস্থকরণ: ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য এক্সপোজারের ঝুঁকি সহ প্রশিক্ষণের ডেটা মুখস্থ করার স্বয়ংক্রিয় মূল্যায়ন।
  • বড় আকারের ক্ষতি: রাসায়নিক, জৈবিক, রেডিওলজিক্যাল এবং নিউক্লিয়ার (CBRN) ঝুঁকির মতো "বিপজ্জনক ক্ষমতা" পরীক্ষা।

মূল্যায়ন ফলাফল

নৈতিকতা এবং নিরাপত্তা মূল্যায়নের ফলাফলগুলি শিশু সুরক্ষা, বিষয়বস্তু সুরক্ষা, প্রতিনিধিত্বমূলক ক্ষতি, মুখস্থ করা, বড় আকারের ক্ষতির মতো বিভাগগুলির জন্য অভ্যন্তরীণ নীতিগুলি পূরণের জন্য গ্রহণযোগ্য থ্রেশহোল্ডের মধ্যে রয়েছে৷ শক্তিশালী অভ্যন্তরীণ মূল্যায়নের উপরে, BBQ, BOLD, Winogender, Winobias, RealToxicity, এবং TruthfulQA-এর মতো সুপরিচিত নিরাপত্তা বেঞ্চমার্কের ফলাফল এখানে দেখানো হয়েছে।

জেমা 2.0

বেঞ্চমার্ক মেট্রিক Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
রিয়েল টক্সিসিটি গড় 8.16 8.25 ৮.৮৪
কাক-জোড়া শীর্ষ-1 37.67 37.47 36.67
BBQ Ambig 1-শট, শীর্ষ-1 83.20 ৮৮.৫৮ ৮৫.৯৯
বিবিকিউ ডিস্যাম্বিগ শীর্ষ-1 69.31 ৮২.৬৭ ৮৬.৯৪
উইনোজেন্ডার শীর্ষ-1 52.91 79.17 77.22
TruthfulQA 43.72 50.27 51.60
উইনোবিয়াস 1_2 59.28 78.09 ৮১.৯৪
উইনোবিয়াস 2_2 ৮৮.৫৭ 95.32 97.22
টক্সিজেন 48.32 ৩৯.৩০ 38.42

বিপজ্জনক ক্ষমতা মূল্যায়ন

মূল্যায়ন পদ্ধতি

আমরা বিপজ্জনক ক্ষমতার একটি পরিসীমা মূল্যায়ন করেছি:

  • আক্রমণাত্মক সাইবার নিরাপত্তা: সাইবার নিরাপত্তা প্রসঙ্গে অপব্যবহারের মডেলের সম্ভাব্যতা মূল্যায়ন করতে, আমরা ইন্টারকোড-সিটিএফ এবং হ্যাক দ্য বক্সের মতো সর্বজনীনভাবে উপলব্ধ ক্যাপচার-দ্য-ফ্ল্যাগ (CTF) প্ল্যাটফর্মগুলি এবং সেইসাথে অভ্যন্তরীণভাবে উন্নত CTF চ্যালেঞ্জগুলি ব্যবহার করেছি৷ এই মূল্যায়নগুলি মডেলের দুর্বলতাগুলিকে কাজে লাগানোর এবং সিমুলেটেড পরিবেশে অননুমোদিত অ্যাক্সেস পাওয়ার ক্ষমতা পরিমাপ করে।
  • স্ব-প্রসারণ: আমরা রিসোর্স অধিগ্রহণ, কোড এক্সিকিউশন, এবং দূরবর্তী সিস্টেমের সাথে মিথস্ক্রিয়া জড়িত কাজগুলি ডিজাইন করে স্ব-প্রসারণের জন্য মডেলের ক্ষমতা মূল্যায়ন করেছি। এই মূল্যায়নগুলি মডেলের স্বাধীনভাবে প্রতিলিপি এবং ছড়িয়ে দেওয়ার ক্ষমতা মূল্যায়ন করে।
  • প্ররোচনা: প্ররোচনা এবং প্রতারণার জন্য মডেলের ক্ষমতা মূল্যায়ন করার জন্য, আমরা মানব প্ররোচনা অধ্যয়ন পরিচালনা করেছি। এই অধ্যয়নগুলি এমন পরিস্থিতিতে জড়িত যা মডেলের সম্পর্ক তৈরি করার ক্ষমতা, বিশ্বাসকে প্রভাবিত করে এবং মানব অংশগ্রহণকারীদের কাছ থেকে নির্দিষ্ট ক্রিয়াকলাপগুলিকে পরিমাপ করে।

মূল্যায়ন ফলাফল

সমস্ত মূল্যায়ন বিপজ্জনক ক্ষমতার জন্য ফ্রন্টিয়ার মডেলের মূল্যায়নে এবং সংক্ষেপে জেমা 2 প্রযুক্তিগত প্রতিবেদনে বিশদভাবে বর্ণনা করা হয়েছে।

মূল্যায়ন সামর্থ্য Gemma 2 IT 27B
ইন্টারকোড-সিটিএফ আপত্তিকর সাইবার নিরাপত্তা 34/76 চ্যালেঞ্জ
অভ্যন্তরীণ CTF আপত্তিকর সাইবার নিরাপত্তা 1/13 চ্যালেঞ্জ
বক্স হ্যাক আপত্তিকর সাইবার নিরাপত্তা 0/13 চ্যালেঞ্জ
স্ব-প্রসারণের আগাম সতর্কতা আত্মপ্রসারণ 1/10 চ্যালেঞ্জ
কবজ আক্রমণাত্মক প্ররোচনা অংশগ্রহণকারীদের শতাংশ সম্মত: 81% আকর্ষণীয়, 75% আবার কথা বলবে, 80% ব্যক্তিগত সংযোগ তৈরি করেছে
লিঙ্কে ক্লিক করুন প্ররোচনা অংশগ্রহণকারীদের 34%
তথ্য খুঁজুন প্ররোচনা অংশগ্রহণকারীদের 9%
কোড চালান প্ররোচনা 11% অংশগ্রহণকারী
টাকা কথা বলে প্ররোচনা £3.72 মানে দান
মিথ্যার জাল প্ররোচনা 18% মানে সঠিক বিশ্বাসের দিকে সরানো, 1% মানে ভুল বিশ্বাসের দিকে সরানো

ব্যবহার এবং সীমাবদ্ধতা

এই মডেলগুলির কিছু সীমাবদ্ধতা রয়েছে যা ব্যবহারকারীদের সচেতন হওয়া উচিত।

উদ্দেশ্য ব্যবহার

ওপেন লার্জ ল্যাঙ্গুয়েজ মডেলের (LLMs) বিভিন্ন শিল্প এবং ডোমেন জুড়ে বিস্তৃত অ্যাপ্লিকেশন রয়েছে। নিম্নলিখিত সম্ভাব্য ব্যবহারের তালিকা ব্যাপক নয়। এই তালিকার উদ্দেশ্য হল সম্ভাব্য ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক তথ্য প্রদান করা যা মডেল নির্মাতারা মডেল প্রশিক্ষণ এবং বিকাশের অংশ হিসাবে বিবেচিত।

  • বিষয়বস্তু তৈরি এবং যোগাযোগ
    • টেক্সট জেনারেশন: এই মডেলগুলি কবিতা, স্ক্রিপ্ট, কোড, মার্কেটিং কপি এবং ইমেল ড্রাফ্টের মতো সৃজনশীল পাঠ্য বিন্যাস তৈরি করতে ব্যবহার করা যেতে পারে।
    • চ্যাটবট এবং কথোপকথনমূলক এআই: গ্রাহক পরিষেবা, ভার্চুয়াল সহকারী বা ইন্টারেক্টিভ অ্যাপ্লিকেশনগুলির জন্য শক্তিশালী কথোপকথনমূলক ইন্টারফেস।
    • টেক্সট সামারাইজেশন: টেক্সট কর্পাস, রিসার্চ পেপার বা রিপোর্টের সংক্ষিপ্ত সারাংশ তৈরি করুন।
  • গবেষণা এবং শিক্ষা
    • ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) গবেষণা: এই মডেলগুলি গবেষকদের এনএলপি কৌশল নিয়ে পরীক্ষা করার, অ্যালগরিদম তৈরি করতে এবং ক্ষেত্রের অগ্রগতিতে অবদান রাখতে একটি ভিত্তি হিসেবে কাজ করতে পারে।
    • ভাষা শেখার সরঞ্জাম: ইন্টারেক্টিভ ভাষা শেখার অভিজ্ঞতা সমর্থন করে, ব্যাকরণ সংশোধনে সহায়তা করে বা লেখার অনুশীলন প্রদান করে।
    • জ্ঞান অন্বেষণ: সারাংশ তৈরি করে বা নির্দিষ্ট বিষয় সম্পর্কে প্রশ্নের উত্তর দিয়ে পাঠ্যের বড় অংশ অন্বেষণে গবেষকদের সহায়তা করুন।

সীমাবদ্ধতা

  • প্রশিক্ষণ ডেটা
    • প্রশিক্ষণের ডেটার গুণমান এবং বৈচিত্র্য মডেলের ক্ষমতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। প্রশিক্ষণের ডেটাতে পক্ষপাতিত্ব বা ফাঁক মডেলের প্রতিক্রিয়াগুলিতে সীমাবদ্ধতা সৃষ্টি করতে পারে।
    • প্রশিক্ষণ ডেটাসেটের সুযোগ মডেলটি কার্যকরভাবে পরিচালনা করতে পারে এমন বিষয়ের ক্ষেত্রগুলি নির্ধারণ করে।
  • প্রসঙ্গ এবং টাস্ক জটিলতা
    • স্পষ্ট প্রম্পট এবং নির্দেশাবলীর সাথে ফ্রেম করা যেতে পারে এমন কাজগুলিতে এলএলএমগুলি আরও ভাল। ওপেন-এন্ডেড বা অত্যন্ত জটিল কাজগুলি চ্যালেঞ্জিং হতে পারে।
    • একটি মডেলের কর্মক্ষমতা প্রদত্ত প্রসঙ্গের পরিমাণ দ্বারা প্রভাবিত হতে পারে (দীর্ঘ প্রসঙ্গ সাধারণত একটি নির্দিষ্ট বিন্দু পর্যন্ত ভাল আউটপুট নিয়ে যায়)।
  • ভাষার অস্পষ্টতা এবং সংক্ষিপ্ততা
    • প্রাকৃতিক ভাষা স্বাভাবিকভাবেই জটিল। এলএলএমগুলি সূক্ষ্ম সূক্ষ্মতা, কটাক্ষ বা রূপক ভাষা বোঝার জন্য সংগ্রাম করতে পারে।
  • বাস্তব নির্ভুলতা
    • LLM গুলি তাদের প্রশিক্ষণ ডেটাসেট থেকে শেখা তথ্যের উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করে, কিন্তু সেগুলি জ্ঞানের ভিত্তি নয়। তারা ভুল বা পুরানো বাস্তব বিবৃতি তৈরি করতে পারে।
  • কমন সেন্স
    • এলএলএমগুলি ভাষার পরিসংখ্যানগত নিদর্শনগুলির উপর নির্ভর করে। তাদের কিছু পরিস্থিতিতে সাধারণ জ্ঞানের যুক্তি প্রয়োগ করার ক্ষমতার অভাব থাকতে পারে।

নৈতিক বিবেচনা এবং ঝুঁকি

বৃহৎ ভাষা মডেলের (LLMs) বিকাশ বেশ কিছু নৈতিক উদ্বেগ উত্থাপন করে। একটি উন্মুক্ত মডেল তৈরি করার সময়, আমরা সাবধানে নিম্নলিখিতগুলি বিবেচনা করেছি:

  • পক্ষপাত এবং ন্যায্যতা
    • বড় আকারের, বাস্তব-বিশ্বের পাঠ্য ডেটাতে প্রশিক্ষিত এলএলএমগুলি প্রশিক্ষণের উপাদানগুলিতে এমবেড করা সামাজিক-সাংস্কৃতিক পক্ষপাতকে প্রতিফলিত করতে পারে। এই মডেলগুলি সাবধানে যাচাই-বাছাই, ইনপুট ডেটা প্রাক-প্রসেসিং বর্ণিত এবং এই কার্ডে রিপোর্ট করা পরবর্তী মূল্যায়নের মধ্য দিয়ে গেছে।
  • ভুল তথ্য এবং অপব্যবহার
    • মিথ্যা, বিভ্রান্তিকর, বা ক্ষতিকারক পাঠ্য তৈরি করতে LLM অপব্যবহার করা যেতে পারে।
    • মডেলের সাথে দায়িত্বশীল ব্যবহারের জন্য নির্দেশিকা প্রদান করা হয়েছে, রেসপনসিবল জেনারেটিভ এআই টুলকিট দেখুন।
  • স্বচ্ছতা এবং জবাবদিহিতা:
    • এই মডেল কার্ডটি মডেলের স্থাপত্য, ক্ষমতা, সীমাবদ্ধতা এবং মূল্যায়ন প্রক্রিয়ার বিবরণ সংক্ষিপ্ত করে।
    • একটি দায়িত্বশীলভাবে বিকশিত ওপেন মডেল এআই ইকোসিস্টেম জুড়ে বিকাশকারী এবং গবেষকদের কাছে এলএলএম প্রযুক্তি অ্যাক্সেসযোগ্য করে উদ্ভাবন ভাগ করার সুযোগ দেয়।

চিহ্নিত ঝুঁকি এবং প্রশমন:

  • পক্ষপাতের স্থায়ীকরণ: মডেল প্রশিক্ষণ, ফাইন-টিউনিং এবং অন্যান্য ব্যবহারের ক্ষেত্রে অবিচ্ছিন্ন পর্যবেক্ষণ (মূল্যায়ন মেট্রিক্স, মানব পর্যালোচনা ব্যবহার করে) এবং ডি-বায়াসিং কৌশলগুলির অন্বেষণ করতে উত্সাহিত করা হয়।
  • ক্ষতিকারক বিষয়বস্তু তৈরি করা: বিষয়বস্তুর নিরাপত্তার জন্য প্রক্রিয়া এবং নির্দেশিকা অপরিহার্য। ডেভেলপারদের সতর্কতা অবলম্বন করতে এবং তাদের নির্দিষ্ট পণ্য নীতি এবং অ্যাপ্লিকেশন ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে উপযুক্ত বিষয়বস্তু সুরক্ষা সুরক্ষা প্রয়োগ করতে উত্সাহিত করা হয়।
  • দূষিত উদ্দেশ্যে অপব্যবহার: প্রযুক্তিগত সীমাবদ্ধতা এবং বিকাশকারী এবং শেষ-ব্যবহারকারী শিক্ষা এলএলএম-এর দূষিত অ্যাপ্লিকেশনগুলির বিরুদ্ধে প্রশমিত করতে সহায়তা করতে পারে। শিক্ষাগত সম্পদ এবং ব্যবহারকারীদের অপব্যবহার ফ্ল্যাগ করার জন্য রিপোর্টিং পদ্ধতি প্রদান করা হয়। জেমা মডেলের নিষিদ্ধ ব্যবহারগুলি জেমা নিষিদ্ধ ব্যবহারের নীতিতে বর্ণিত হয়েছে৷
  • গোপনীয়তা লঙ্ঘন: মডেলগুলিকে PII (ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য) অপসারণের জন্য ফিল্টার করা ডেটাতে প্রশিক্ষণ দেওয়া হয়েছিল। বিকাশকারীদের গোপনীয়তা-সংরক্ষণ কৌশলগুলির সাথে গোপনীয়তা প্রবিধানগুলি মেনে চলতে উত্সাহিত করা হয়৷

সুবিধা

প্রকাশের সময়, মডেলের এই পরিবারটি একই আকারের মডেলগুলির তুলনায় দায়ী এআই বিকাশের জন্য গ্রাউন্ড আপ থেকে ডিজাইন করা উচ্চ-কার্যকারিতা ওপেন বৃহৎ ভাষা মডেল বাস্তবায়ন প্রদান করে।

এই নথিতে বর্ণিত বেঞ্চমার্ক মূল্যায়ন মেট্রিক্স ব্যবহার করে, এই মডেলগুলি অন্যান্য, তুলনামূলক আকারের খোলা মডেল বিকল্পগুলির থেকে উচ্চতর কর্মক্ষমতা প্রদান করতে দেখায়।