জেমা হলো জেনারেটিভ কৃত্রিম বুদ্ধিমত্তা মডেলের একটি পরিবার এবং আপনি এগুলোকে প্রশ্নোত্তর, সারসংক্ষেপ তৈরি এবং যুক্তিনির্মাণ সহ বিভিন্ন ধরণের জেনারেশন টাস্কে ব্যবহার করতে পারেন। জেমা মডেলগুলো ওপেন ওয়েট সহ সরবরাহ করা হয় এবং দায়িত্বশীল বাণিজ্যিক ব্যবহারের অনুমতি দেয়, যা আপনাকে আপনার নিজস্ব প্রজেক্ট এবং অ্যাপ্লিকেশনে এগুলো টিউন ও ডেপ্লয় করার সুযোগ দেয়।
জেমা ৪ মডেল পরিবারটি চারটি স্বতন্ত্র স্থাপত্যশৈলী নিয়ে গঠিত, যা নির্দিষ্ট হার্ডওয়্যারের প্রয়োজনীয়তা অনুসারে তৈরি করা হয়েছে:
- ছোট আকার: আল্ট্রা-মোবাইল, এজ এবং ব্রাউজারে (যেমন, পিক্সেল, ক্রোম) স্থাপনের জন্য নির্মিত ২বি এবং ৪বি কার্যকরী প্যারামিটার মডেল।
- ডেন্স: একটি শক্তিশালী ৩১ বিলিয়ন প্যারামিটার বিশিষ্ট ডেন্স মডেল যা সার্ভার-গ্রেড পারফরম্যান্স এবং লোকাল এক্সিকিউশনের মধ্যেকার ব্যবধান পূরণ করে।
- বিশেষজ্ঞদের মিশ্রণ: উচ্চ-ক্ষমতাসম্পন্ন ও উন্নত যুক্তির জন্য ডিজাইন করা একটি অত্যন্ত কার্যকর ২৬বি MoE মডেল।
- ইউনিফাইড: মাল্টিমোডাল টাস্কের জন্য একটি ১২-বিট প্যারামিটার এনকোডার-মুক্ত মডেল, যা ভিশন এবং অডিও এনকোডারকে ইনপুটের সরাসরি লিনিয়ার প্রজেকশন দ্বারা প্রতিস্থাপন করেছে।
আপনি Kaggle এবং Hugging Face থেকে Gemma 4 মডেলগুলি ডাউনলোড করতে পারেন। Gemma 4 সম্পর্কে আরও প্রযুক্তিগত বিবরণের জন্য, মডেল কার্ডটি দেখুন। Gemma কোর মডেলগুলির পূর্ববর্তী সংস্করণগুলিও ডাউনলোডের জন্য উপলব্ধ। আরও তথ্যের জন্য, পূর্ববর্তী Gemma মডেলগুলি দেখুন।
Kaggle-এ এটি পান, Hugging Face-এ এটি পান।
সক্ষমতা
- যুক্তি: এই সিরিজের সমস্ত মডেলই কনফিগারযোগ্য চিন্তন মোড সহ অত্যন্ত সক্ষম যুক্তিবাদী হিসেবে ডিজাইন করা হয়েছে।
- বর্ধিত মাল্টিমোডালিটি: টেক্সট, পরিবর্তনশীল অ্যাস্পেক্ট রেশিও ও রেজোলিউশন সাপোর্টসহ ইমেজ (সকল মডেলে), ভিডিও এবং অডিও প্রসেস করে (যা E2B, E4B এবং 12B মডেলে নেটিভভাবে রয়েছে)।
- বর্ধিত কনটেক্সট উইন্ডো: ছোট মডেলগুলিতে একটি ১২৮কেবি কনটেক্সট উইন্ডো থাকে, যেখানে মাঝারি মডেলগুলি ২৫৬কেবি সমর্থন করে।
- উন্নত কোডিং ও এজেন্টিক সক্ষমতা: অন্তর্নির্মিত ফাংশন-কলিং সমর্থনের পাশাপাশি কোডিং বেঞ্চমার্কে উল্লেখযোগ্য উন্নতি সাধন করে, যা অত্যন্ত সক্ষম স্বায়ত্তশাসিত এজেন্টদের শক্তি জোগায়।
- নেটিভ সিস্টেম প্রম্পট সাপোর্ট: জেমা ৪-এ সিস্টেম রোলের জন্য বিল্ট-ইন সাপোর্ট চালু করা হয়েছে, যা আরও সুসংগঠিত এবং নিয়ন্ত্রণযোগ্য কথোপকথন সম্ভব করে তোলে।
- মাল্টি-টোকেন প্রেডিকশন : সমস্ত জেমা ৪ মডেলে (E2B, E4B, 12B, 31B, এবং 26B A4B) স্পেকুলেটিভ ডিকোডিংয়ের জন্য একটি ডেডিকেটেড ড্রাফট মডেল অন্তর্ভুক্ত রয়েছে, যা কোনো গুণগত মান হ্রাস ছাড়াই উল্লেখযোগ্যভাবে দ্রুততর ইনফারেন্স সক্ষম করে।
প্যারামিটারের আকার এবং কোয়ান্টাইজেশন
জেমা ৪ মডেলগুলো ৫টি প্যারামিটার সাইজে পাওয়া যায়: E2B, E4B, 12B, 31B এবং 26B A4B। মডেলগুলো তাদের ডিফল্ট প্রিসিশন (১৬-বিট) সহ অথবা কোয়ান্টাইজেশন ব্যবহার করে আরও কম প্রিসিশনে ব্যবহার করা যায়। এই বিভিন্ন সাইজ এবং প্রিসিশনগুলো আপনার এআই অ্যাপ্লিকেশনের জন্য কিছু সুবিধা-অসুবিধার সুযোগ তৈরি করে। বেশি প্যারামিটার এবং বিট সংখ্যার (উচ্চতর প্রিসিশন) মডেলগুলো সাধারণত বেশি সক্ষম, কিন্তু প্রসেসিং সাইকেল, মেমরি খরচ এবং বিদ্যুৎ খরচের দিক থেকে এগুলো চালানো বেশি ব্যয়বহুল। কম প্যারামিটার এবং বিট সংখ্যার (নিম্নতর প্রিসিশন) মডেলগুলোর সক্ষমতা কম, কিন্তু আপনার এআই কাজের জন্য তা যথেষ্ট হতে পারে।
জেমা ৪ অনুমানের জন্য প্রয়োজনীয় মেমরি
নিম্নলিখিত সারণিতে জেমা ৪ মডেল সংস্করণগুলির প্রতিটি আকারের সাথে ইনফারেন্স চালানোর জন্য প্রয়োজনীয় আনুমানিক জিপিইউ বা টিপিইউ মেমরির বিবরণ দেওয়া হয়েছে।
| প্যারামিটার | বিএফ১৬ (১৬-বিট) | SFP8 (৮-বিট) | Q4_0 (৪-বিট) | মোবাইল | মোবাইল (শুধুমাত্র টেক্সট) |
|---|---|---|---|---|---|
| জেমা ৪ ই২বি | ১১.৪ জিবি | ৫.৭ জিবি | ২.৯ জিবি | ১.১ বিজি | ০.৮৪ জিবি |
| জেমা ৪ ই৪বি | ১৭.৯ জিবি | ৮.৯ জিবি | ৪.৫ জিবি | ২.৫ জিবি | ২.২ জিবি |
| জেমা ৪ ১২বি | ২৬.৭ জিবি | ১৩.৪ জিবি | ৬.৭ জিবি | - | - |
| জেমা ৪ ২৬বি এ৪বি | ৫৭.৭ জিবি | ২৮.৮ জিবি | ১৪.৪ জিবি | - | - |
| জেমা ৪ ৩১বি | ৬৯.৯ জিবি | ৩৪.৯ জিবি | ১৭.৫ জিবি | - | - |
সারণি ১। প্যারামিটার সংখ্যা, কোয়ান্টাইজেশন লেভেল এবং অতিরিক্ত জিনিস লোড করার ২০% ওভারহেডের উপর ভিত্তি করে জেমা ৪ মডেল লোড করার জন্য প্রয়োজনীয় আনুমানিক জিপিইউ বা টিপিইউ মেমরি। মোবাইল সংস্করণগুলো LiteRT-LM ব্যবহার করে।
স্মৃতি পরিকল্পনার জন্য মূল বিবেচ্য বিষয়সমূহ
- দক্ষ আর্কিটেকচার (E2B এবং E4B): "E" বলতে "কার্যকরী" প্যারামিটার বোঝায়। ছোট মডেলগুলোতে ডিভাইসে স্থাপনের সময় প্যারামিটারের কার্যকারিতা সর্বোচ্চ করার জন্য পার-লেয়ার এমবেডিংস (PLE) অন্তর্ভুক্ত করা হয়। মডেলে আরও লেয়ার যোগ করার পরিবর্তে, PLE প্রতিটি ডিকোডার লেয়ারকে প্রতিটি টোকেনের জন্য নিজস্ব একটি ছোট এমবেডিং দেয়। এই এমবেডিং টেবিলগুলো আকারে বড় হলেও শুধুমাত্র দ্রুত অনুসন্ধানের জন্য ব্যবহৃত হয়, যে কারণে স্ট্যাটিক ওয়েট লোড করার জন্য প্রয়োজনীয় মোট মেমরি কার্যকরী প্যারামিটার সংখ্যার চেয়ে বেশি হয়।
- MoE আর্কিটেকচার (26B A4B): 26B হলো একটি মিক্সচার অফ এক্সপার্টস মডেল। যদিও এটি জেনারেশনের সময় প্রতি টোকেনে মাত্র ৪ বিলিয়ন প্যারামিটার সক্রিয় করে, দ্রুত রাউটিং এবং ইনফারেন্স গতি বজায় রাখার জন্য সমস্ত ২৬ বিলিয়ন প্যারামিটার অবশ্যই মেমরিতে লোড করতে হয়। এই কারণেই এর বেসলাইন মেমরির প্রয়োজনীয়তা একটি 4B মডেলের চেয়ে একটি ডেন্স 26B মডেলের অনেক বেশি কাছাকাছি।
- শুধুমাত্র বেস ওয়েট: পূর্ববর্তী সারণীর অনুমানগুলিতে শুধুমাত্র স্ট্যাটিক মডেল ওয়েট লোড করার জন্য প্রয়োজনীয় মেমরি অন্তর্ভুক্ত করা হয়েছে। এগুলিতে সাপোর্টিং সফটওয়্যার বা কনটেক্সট উইন্ডোর জন্য প্রয়োজনীয় অতিরিক্ত VRAM অন্তর্ভুক্ত করা হয়নি।
- কন্টেক্সট উইন্ডো (কেভি ক্যাশে): আপনার প্রম্পট এবং তৈরি হওয়া রেসপন্সে থাকা মোট টোকেনের সংখ্যার উপর ভিত্তি করে মেমোরি খরচ গতিশীলভাবে বৃদ্ধি পাবে। বেস মডেল ওয়েটের উপরে বড় কন্টেক্সট উইন্ডোগুলোর জন্য উল্লেখযোগ্যভাবে বেশি ভিআরএএম প্রয়োজন হয়।
- ফাইন-টিউনিং ওভারহেড: জেমা মডেল ফাইন-টিউনিং করার জন্য প্রয়োজনীয় মেমরি স্ট্যান্ডার্ড ইনফারেন্সের চেয়ে অনেক বেশি। আপনার সঠিক মেমরি ফুটপ্রিন্ট মূলত ডেভেলপমেন্ট ফ্রেমওয়ার্ক, ব্যাচ সাইজ এবং আপনি ফুল-প্রিসিশন টিউনিং ব্যবহার করছেন নাকি লো-র্যাঙ্ক অ্যাডাপটেশন (LoRA)-এর মতো কোনো প্যারামিটার-এফিশিয়েন্ট ফাইন-টিউনিং (PEFT) পদ্ধতি ব্যবহার করছেন, তার উপর নির্ভর করবে।
কোয়ান্টাইজেশন-সচেতন প্রশিক্ষণ (QAT)
যেসব ডেপ্লয়মেন্টে ন্যূনতম মানের সাথে সর্বোচ্চ দক্ষতা প্রয়োজন, সেগুলোর জন্য জেমা অফিসিয়াল কোয়ান্টাইজেশন-অ্যাওয়্যার ট্রেনিং (QAT) মডেল প্রদান করে।
সাধারণ পোস্ট-ট্রেনিং কোয়ান্টাইজেশন (PTQ) একটি সম্পূর্ণ প্রশিক্ষিত মডেলকে সংকুচিত করে, যা এর গুণমানের অবনতি ঘটাতে পারে। এর বিপরীতে, QAT প্রশিক্ষণ প্রক্রিয়ার মধ্যেই কোয়ান্টাইজেশন সিমুলেশনকে একীভূত করে। এটি মডেলকে নির্ভুলতার ঘাটতি পূরণের জন্য শিখতে সাহায্য করে, যার ফলে ছোট আকারের মডেলগুলো তাদের উচ্চ-নির্ভুল বেসলাইনের প্রায় সমান কর্মক্ষমতা প্রদর্শন করে।
দ্রুত রাউটিং টেবিল
| টার্গেট ডেপ্লয়মেন্ট ইঞ্জিন | সাফিক্স ডাউনলোড করুন | প্রাথমিক ব্যবহারের ক্ষেত্র |
|---|---|---|
| llama.cpp / এলএম স্টুডিও (লোকাল) | {model-name}-qat-q4_0-gguf | সিপিইউ, অ্যাপল সিলিকন বা কনজিউমার জিপিইউ-তে কোনো সেটআপ ছাড়াই স্থানীয়ভাবে স্থাপনযোগ্য। |
| vLLM / SGLang | সার্ভার: {model-name}-qat-w4a16-ctমোবাইল: {model-name}-qat-mobile-ct | ৪-বিট ওয়েট ও ১৬-বিট অ্যাক্টিভেশন ব্যবহার করে উচ্চ-থ্রুপুট ইনফারেন্স। |
| অনুমানমূলক ডিকোডিং | মডেল: {model-name}-qat-q4_0-unquantizedখসড়া প্রস্তুতকারী: {model-name}-qat-q4_0-unquantized-assistant | টোকেন জেনারেশনকে ব্যাপকভাবে ত্বরান্বিত করার জন্য প্রাইমারি মডেলের পাশাপাশি এর সাথে সামঞ্জস্যপূর্ণ এমটিপি ড্রাফট মডেল চালানো হচ্ছে। মডেলটি অবশ্যই কোয়ান্টাইজড হতে হবে। |
| অন্যান্য ফর্ম্যাট | {model-name}-qat-q4_0-unquantized | অন্যান্য ফরম্যাটে (যেমন MLX) রূপান্তরের জন্য অ-কোয়ান্টাইজড ওয়েট |
| মোবাইল ডেপ্লয়মেন্ট (ট্রান্সফরমার) | {model-name}-qat-mobile-transformers | মোবাইল ব্যবহারের জন্য বিশেষভাবে অপ্টিমাইজ করা এজ ওয়েট। এগুলো অন্যান্য ফরম্যাটের জন্য রেফারেন্স হিসেবে কাজ করে। |
হাগিং ফেস-এ অফিসিয়াল QAT কালেকশন
- collections/google/gemma-4-qat-q4-0
- আনকোয়ান্টাইজড QAT চেকপয়েন্ট (
-unquantized/-assistant): QAT পাইপলাইন থেকে সরাসরি নিষ্কাশিত হাফ-প্রিসিশন ওয়েট। কাস্টম ডাউনস্ট্রিম কম্পাইলেশন, গবেষণা, অথবা অ্যাসিস্ট্যান্ট ড্রাফট মডেল ব্যবহার করে স্পেকুলেটিভ ডিকোডিং চালানোর জন্য এগুলো আদর্শ। Gemma 4 E2B, E4B, 12B, 26B A4B, এবং 31B-এর জন্য উপলব্ধ। - GGUF (
-gguf): স্থানীয় LLM ইকোসিস্টেম জুড়ে তাৎক্ষণিক ড্রপ-ইন সামঞ্জস্যের জন্য উপলব্ধ চেকপয়েন্ট। Gemma 4 E2B, E4B, 12B, 26B A4B, এবং 31B-এর জন্য উপলব্ধ। - কম্প্রেসড টেনসর (
-w4a16-ct): অপ্টিমাইজড ও উচ্চ-কনকারেন্সি ক্লাউড সার্ভিংয়ের জন্যcompressed-tensorsস্ট্যান্ডার্ডে নেটিভভাবে সিরিয়ালাইজ করা হয়। Gemma 4 E2B, E4B, 12B, এবং 31B-এর জন্য উপলব্ধ।
- আনকোয়ান্টাইজড QAT চেকপয়েন্ট (
- collections/google/gemma-4-qat-mobile
- মোবাইল-অপ্টিমাইজড (
-mobile-transformers/-mobile-ct): এটি একটি কাস্টমwNa8o8স্কিমার উপর নির্মিত, যা বিশেষভাবে মোবাইল হার্ডওয়্যারের সীমাবদ্ধতার জন্য তৈরি করা হয়েছে। এটি এজ প্রসেসরের গতি না কমিয়ে ডিভাইসের র্যাম সাশ্রয় সর্বাধিক করার জন্য টার্গেটেড ২-বিট ডিকোডিং লেয়ার, অপ্টিমাইজড KV ক্যাশে এবং স্ট্যাটিক অ্যাক্টিভেশন ব্যবহার করে । এটি Gemma 4 E2B এবং E4B-এর জন্য উপলব্ধ।
- মোবাইল-অপ্টিমাইজড (
সমস্ত অফিসিয়াল Gemma 4 QAT চেকপয়েন্ট সরাসরি Kaggle থেকেও অ্যাক্সেস করা যায়।
পূর্ববর্তী জেমা মডেলগুলি
আপনি জেমা মডেলের পূর্ববর্তী প্রজন্মগুলো নিয়েও কাজ করতে পারেন, যেগুলো ক্যাগল এবং হাগিং ফেস- এও পাওয়া যায়। পূর্ববর্তী জেমা মডেলগুলো সম্পর্কে আরও প্রযুক্তিগত বিবরণের জন্য, নিম্নলিখিত মডেল কার্ড পৃষ্ঠাগুলো দেখুন:
- জেমা ৩ মডেল কার্ড
- জেমা ২ মডেল কার্ড
- জেমা ১ মডেল কার্ড
নির্মাণ শুরু করতে প্রস্তুত? জেমা মডেল দিয়ে শুরু করুন !