Gemma কন্টেন্ট জেনারেশন এবং ইনফারেন্স চালান

জেমা মডেলটি চালাতে হলে দুটি গুরুত্বপূর্ণ সিদ্ধান্ত নিতে হয়: ১) আপনি কোন জেমা ভেরিয়েন্টটি চালাতে চান এবং ২) এটি চালানোর জন্য আপনি কোন এআই এক্সিকিউশন ফ্রেমওয়ার্ক ব্যবহার করবেন? এই দুটি সিদ্ধান্ত নেওয়ার ক্ষেত্রে একটি গুরুত্বপূর্ণ বিষয় হল মডেলটি চালানোর জন্য আপনার এবং আপনার ব্যবহারকারীদের কাছে কী ধরণের হার্ডওয়্যার রয়েছে তার সাথে সম্পর্কিত।

এই সারসংক্ষেপটি আপনাকে এই সিদ্ধান্তগুলি নেভিগেট করতে এবং জেমা মডেলগুলির সাথে কাজ শুরু করতে সহায়তা করে। জেমা মডেল চালানোর জন্য সাধারণ পদক্ষেপগুলি নিম্নরূপ:

একটি কাঠামো নির্বাচন করুন

জেমা মডেলগুলি বিভিন্ন ধরণের ইকোসিস্টেম টুলের সাথে সামঞ্জস্যপূর্ণ। সঠিকটি নির্বাচন করা আপনার উপলব্ধ হার্ডওয়্যার (ক্লাউড জিপিইউ বনাম স্থানীয় ল্যাপটপ) এবং আপনার ইন্টারফেস পছন্দের (পাইথন কোড বনাম ডেস্কটপ অ্যাপ্লিকেশন) উপর নির্ভর করে।

আপনার প্রয়োজনের জন্য সেরা টুলটি দ্রুত সনাক্ত করতে নিম্নলিখিত টেবিলটি ব্যবহার করুন:

যদি তুমি চাও... প্রস্তাবিত কাঠামো সেরা জন্য
চ্যাট UI দিয়ে স্থানীয়ভাবে চালান - এলএম স্টুডিও
- ওল্লামা
নতুনরা, অথবা ব্যবহারকারীরা যারা তাদের ল্যাপটপে "মিথুনের মতো" অভিজ্ঞতা চান।
এজে দক্ষতার সাথে চালান - জেমা.সিপিপি
- লিটারআরটি-এলএম
- লামা.সিপিপি
- মিডিয়াপাইপ এলএলএম ইনফারেন্স এপিআই
- এমএলএক্স
ন্যূনতম সম্পদ ব্যবহার করে উচ্চ-কার্যক্ষমতাসম্পন্ন স্থানীয় অনুমান।
পাইথনে তৈরি/প্রশিক্ষণ দিন - JAX-এর জন্য Gemma লাইব্রেরি
- আলিঙ্গনকারী মুখ ট্রান্সফরমার
- কেরাস
- পাইটর্চ
- অলস
গবেষক এবং ডেভেলপাররা কাস্টম অ্যাপ্লিকেশন বা সূক্ষ্ম-সুরকরণ মডেল তৈরি করছেন।
উৎপাদন / এন্টারপ্রাইজে স্থাপন করুন - গুগল ক্লাউড কুবারনেটস ইঞ্জিন (GKE)
- গুগল ক্লাউড রান
- ভার্টেক্স এআই
- ভিএলএলএম
এন্টারপ্রাইজ নিরাপত্তা এবং MLOps সমর্থন সহ স্কেলেবল, পরিচালিত ক্লাউড স্থাপনা।

ফ্রেমওয়ার্কের বিবরণ

আপনার স্থাপনার পরিবেশ অনুসারে শ্রেণীবদ্ধ জেমা মডেলগুলি চালানোর জন্য নিম্নলিখিত নির্দেশিকাগুলি দেওয়া হল।

১. ডেস্কটপ এবং স্থানীয় অনুমান (উচ্চ দক্ষতা)

এই টুলগুলি আপনাকে অপ্টিমাইজড ফরম্যাট (যেমন GGUF) বা নির্দিষ্ট হার্ডওয়্যার অ্যাক্সিলারেটর ব্যবহার করে কনজিউমার হার্ডওয়্যারে (ল্যাপটপ, ডেস্কটপ) জেমা চালানোর অনুমতি দেয়।

  • LM Studio : একটি ডেস্কটপ অ্যাপ্লিকেশন যা আপনাকে ব্যবহারকারী-বান্ধব ইন্টারফেসে Gemma মডেলগুলি ডাউনলোড এবং চ্যাট করতে দেয়। কোনও কোডিং প্রয়োজন হয় না।
  • llama.cpp : লামা (এবং জেম্মা) এর একটি জনপ্রিয় ওপেন-সোর্স C++ পোর্ট যা CPU এবং Apple Silicon-এ অবিশ্বাস্যভাবে দ্রুত চলে।
  • LiterRT-LM : ডেস্কটপে (উইন্ডোজ, লিনাক্স, ম্যাকওএস) অপ্টিমাইজড .litertlm Gemma মডেল চালানোর জন্য একটি কমান্ড-লাইন ইন্টারফেস ( CLI ) অফার করে, যা LiterT (পূর্বে TFLite) দ্বারা চালিত।
  • MLX : অ্যাপল সিলিকনে মেশিন লার্নিংয়ের জন্য বিশেষভাবে ডিজাইন করা একটি ফ্রেমওয়ার্ক, যা ম্যাক ব্যবহারকারীদের জন্য উপযুক্ত যারা বিল্ট-ইন পারফরম্যান্স চান।
  • Gemma.cpp : গুগলের তৈরি একটি হালকা, স্বতন্ত্র C++ ইনফারেন্স ইঞ্জিন।
  • ওল্লামা : স্থানীয়ভাবে খোলা এলএলএম চালানোর জন্য একটি টুল, যা প্রায়শই অন্যান্য অ্যাপ্লিকেশনগুলিকে শক্তি দিতে ব্যবহৃত হয়।

২. পাইথন ডেভেলপমেন্ট (গবেষণা ও সূক্ষ্ম-সুরকরণ)

অ্যাপ্লিকেশন, পাইপলাইন, বা প্রশিক্ষণ মডেল তৈরিতে AI ডেভেলপারদের জন্য স্ট্যান্ডার্ড ফ্রেমওয়ার্ক।

  • হাগিং ফেস ট্রান্সফরমার : মডেল এবং পাইপলাইনে দ্রুত অ্যাক্সেসের জন্য শিল্পের মান।
  • আনস্লথ : এলএলএম-এর সূক্ষ্ম-টিউনিংয়ের জন্য একটি অপ্টিমাইজড লাইব্রেরি। এটি আপনাকে উল্লেখযোগ্যভাবে কম মেমোরিতে জেমা মডেলগুলিকে 2-5 গুণ দ্রুত প্রশিক্ষণ দিতে দেয়, যার ফলে গ্রাহক জিপিইউগুলিতে (যেমন, বিনামূল্যের গুগল কোল্যাব স্তর) সূক্ষ্ম-টিউন করা সম্ভব হয়।
  • কেরাস / জ্যাক্স / পাইটর্চ : গভীর শিক্ষা গবেষণা এবং কাস্টম আর্কিটেকচার বাস্তবায়নের জন্য মূল লাইব্রেরি।

৩. মোবাইল এবং এজ ডিপ্লয়মেন্ট (ডিভাইসের উপর)

ইন্টারনেট সংযোগ ছাড়াই ব্যবহারকারীর ডিভাইসে (অ্যান্ড্রয়েড, আইওএস, ওয়েব) সরাসরি এলএলএম চালানোর জন্য ডিজাইন করা ফ্রেমওয়ার্ক, প্রায়শই এনপিইউ (নিউরাল প্রসেসিং ইউনিট) ব্যবহার করে।

  • LiterRT-LM : ডিভাইসে LLM ডেভেলপমেন্টের জন্য সম্পূর্ণ ওপেন-সোর্স ফ্রেমওয়ার্ক যা সর্বাধিক কর্মক্ষমতা এবং সূক্ষ্ম নিয়ন্ত্রণ প্রদান করে, অ্যান্ড্রয়েড এবং iOS-এ CPU, GPU এবং NPU ত্বরণের জন্য সরাসরি সমর্থন সহ।
  • মিডিয়াপাইপ এলএলএম ইনফারেন্স এপিআই : ক্রস-প্ল্যাটফর্ম অ্যাপগুলিতে জেমাকে একীভূত করার সবচেয়ে সহজ উপায়। এটি একটি উচ্চ-স্তরের এপিআই অফার করে যা অ্যান্ড্রয়েড, আইওএস এবং ওয়েব জুড়ে কাজ করে।

৪. ক্লাউড এবং উৎপাদন স্থাপনা

হাজার হাজার ব্যবহারকারীর কাছে আপনার অ্যাপ্লিকেশনটি স্কেল করার জন্য বা বিশাল কম্পিউটিং পাওয়ার অ্যাক্সেস করার জন্য পরিচালিত পরিষেবা।

  • ভার্টেক্স এআই : গুগল ক্লাউডের সম্পূর্ণরূপে পরিচালিত এআই প্ল্যাটফর্ম। এসএলএ এবং স্কেলিং প্রয়োজন এমন এন্টারপ্রাইজ অ্যাপ্লিকেশনগুলির জন্য সেরা।
  • গুগল ক্লাউড কুবারনেটস ইঞ্জিন (GKE) : আপনার নিজস্ব পরিবেশন ক্লাস্টারগুলি সাজানোর জন্য।
  • vLLM : একটি উচ্চ-থ্রুপুট এবং মেমরি-দক্ষ ইনফারেন্স এবং সার্ভিং ইঞ্জিন, যা প্রায়শই ক্লাউড স্থাপনায় ব্যবহৃত হয়।

নিশ্চিত করুন যে আপনার পছন্দসই স্থাপনার জেমা মডেল ফর্ম্যাট, যেমন কেরাস বিল্ট-ইন ফর্ম্যাট, সেফেটেন্সর, অথবা জিজিইউএফ, আপনার নির্বাচিত ফ্রেমওয়ার্ক দ্বারা সমর্থিত।

জেম্মার একটি ভেরিয়েন্ট নির্বাচন করুন

জেমা মডেলগুলি বিভিন্ন রূপ এবং আকারে পাওয়া যায়, যার মধ্যে রয়েছে ফাউন্ডেশন বা কোর জেমা মডেল, এবং আরও বিশেষায়িত মডেল ভেরিয়েন্ট যেমন পালিজেমা এবং ডেটাজেমা , এবং ক্যাগল এবং হাগিং ফেসের মতো সাইটগুলিতে এআই ডেভেলপার সম্প্রদায় দ্বারা তৈরি অনেক রূপ। কোন রূপটি দিয়ে শুরু করা উচিত তা নিয়ে যদি আপনি অনিশ্চিত থাকেন, তাহলে সর্বনিম্ন সংখ্যক প্যারামিটার সহ সর্বশেষ জেমা কোর ইন্সট্রাকশন-টিউনড (আইটি) মডেলটি নির্বাচন করুন। এই ধরণের জেমা মডেলের কম্পিউট প্রয়োজনীয়তা কম এবং অতিরিক্ত বিকাশের প্রয়োজন ছাড়াই বিভিন্ন ধরণের প্রম্পটে সাড়া দিতে সক্ষম।

জেমা ভ্যারিয়েন্ট নির্বাচন করার সময় নিম্নলিখিত বিষয়গুলি বিবেচনা করুন:

  • জেমা কোর, এবং অন্যান্য ভ্যারিয়েন্ট ফ্যামিলি যেমন পালিজেমা, কোডজেমা : জেমা (কোর) সুপারিশ করুন। কোর ভার্সনের বাইরে জেমা ভেরিয়েন্টগুলির আর্কিটেকচার কোর মডেলের মতোই, এবং নির্দিষ্ট কাজে আরও ভালো পারফর্ম করার জন্য প্রশিক্ষিত। যদি না আপনার অ্যাপ্লিকেশন বা লক্ষ্যগুলি একটি নির্দিষ্ট জেমা ভেরিয়েন্টের বিশেষীকরণের সাথে সামঞ্জস্যপূর্ণ হয়, তাহলে জেমা কোর বা বেস মডেল দিয়ে শুরু করা ভাল।
  • নির্দেশনা-সুরক্ষিত (আইটি), প্রাক-প্রশিক্ষিত (পিটি), সূক্ষ্ম-সুরক্ষিত (এফটি), মিশ্র (মিশ্র) : এটি সুপারিশ করুন।
    • ইন্সট্রাকশন-টিউনড (আইটি) জেমা ভ্যারিয়েন্ট হল এমন মডেল যাদের বিভিন্ন নির্দেশাবলী বা অনুরোধের প্রতি মানুষের ভাষায় সাড়া দেওয়ার জন্য প্রশিক্ষণ দেওয়া হয়েছে। এই মডেল ভ্যারিয়েন্টগুলি শুরু করার জন্য সেরা জায়গা কারণ তারা আরও মডেল প্রশিক্ষণ ছাড়াই প্রম্পটে সাড়া দিতে পারে।
    • প্রি-ট্রেইনড (PT) জেমা ভেরিয়েন্ট হল এমন মডেল যাদের ভাষা বা অন্যান্য তথ্য সম্পর্কে অনুমান করার জন্য প্রশিক্ষণ দেওয়া হয়েছে, কিন্তু মানুষের নির্দেশাবলী অনুসরণ করার জন্য প্রশিক্ষণ দেওয়া হয়নি। এই মডেলগুলির কার্যকরভাবে কাজ সম্পাদন করতে সক্ষম হওয়ার জন্য অতিরিক্ত প্রশিক্ষণ বা টিউনিং প্রয়োজন, এবং এটি গবেষক বা ডেভেলপারদের জন্য যারা মডেল এবং এর স্থাপত্যের ক্ষমতা অধ্যয়ন বা বিকাশ করতে চান।
    • ফাইন-টিউনড (FT) জেম্মা ভেরিয়েন্টগুলিকে আইটি ভেরিয়েন্ট হিসাবে বিবেচনা করা যেতে পারে, তবে সাধারণত একটি নির্দিষ্ট কাজ সম্পাদন করার জন্য, অথবা একটি নির্দিষ্ট জেনারেটিভ এআই বেঞ্চমার্কে ভাল পারফর্ম করার জন্য প্রশিক্ষিত করা হয়। পালিজেম্মা ভেরিয়েন্ট পরিবারে বেশ কয়েকটি এফটি ভেরিয়েন্ট রয়েছে।
    • মিশ্র (মিশ্র) জেম্মা ভেরিয়েন্টগুলি হল পালিজেম্মা মডেলের সংস্করণ যা বিভিন্ন নির্দেশাবলীর সাথে সামঞ্জস্যপূর্ণ এবং সাধারণ ব্যবহারের জন্য উপযুক্ত।
  • প্যারামিটার : সবচেয়ে কম সংখ্যক প্যারামিটার সুপারিশ করুন । সাধারণভাবে, একটি মডেলের যত বেশি প্যারামিটার থাকবে, এটি তত বেশি সক্ষম হবে। তবে, বৃহত্তর মডেলগুলি চালানোর জন্য বৃহত্তর এবং আরও জটিল গণনা সংস্থান প্রয়োজন, এবং সাধারণত একটি AI অ্যাপ্লিকেশনের বিকাশকে ধীর করে দেয়। যদি না আপনি ইতিমধ্যেই নির্ধারণ করে থাকেন যে একটি ছোট জেমা মডেল আপনার চাহিদা পূরণ করতে পারে না, তাহলে অল্প সংখ্যক প্যারামিটার সহ একটি বেছে নিন।
  • কোয়ান্টাইজেশন লেভেল: টিউনিং ব্যতীত অর্ধেক নির্ভুলতা (১৬-বিট) সুপারিশ করুন । কোয়ান্টাইজেশন একটি জটিল বিষয় যা ডেটার আকার এবং নির্ভুলতা এবং ফলস্বরূপ একটি জেনারেটিভ এআই মডেল গণনা এবং প্রতিক্রিয়া তৈরির জন্য কতটা মেমোরি ব্যবহার করে তার উপর নির্ভর করে। একটি মডেলকে উচ্চ-নির্ভুলতা ডেটা দিয়ে প্রশিক্ষণ দেওয়ার পরে, যা সাধারণত ৩২-বিট ফ্লোটিং পয়েন্ট ডেটা, জেমার মতো মডেলগুলিকে ১৬, ৮ বা ৪-বিট আকারের মতো কম নির্ভুলতা ডেটা ব্যবহার করার জন্য পরিবর্তন করা যেতে পারে। এই কোয়ান্টাইজড জেমার মডেলগুলি এখনও কাজের জটিলতার উপর নির্ভর করে ভাল পারফর্ম করতে পারে, যদিও উল্লেখযোগ্যভাবে কম কম্পিউট এবং মেমোরি রিসোর্স ব্যবহার করে। তবে, কোয়ান্টাইজড মডেলগুলিকে টিউন করার জন্য সরঞ্জামগুলি সীমিত এবং আপনার নির্বাচিত এআই ডেভেলপমেন্ট ফ্রেমওয়ার্কের মধ্যে উপলব্ধ নাও হতে পারে। সাধারণত, আপনাকে জেমার মতো একটি মডেলকে সম্পূর্ণ নির্ভুলতায় সূক্ষ্ম-টিউন করতে হবে, তারপরে ফলাফল মডেলটি কোয়ান্টাইজ করতে হবে।

গুগল-প্রকাশিত জেমা মডেলের তালিকার জন্য, জেমা মডেল দিয়ে শুরু করা , জেমা মডেলের তালিকা দেখুন।

রান জেনারেশন এবং ইনফারেন্স অনুরোধ

একটি AI এক্সিকিউশন ফ্রেমওয়ার্ক এবং একটি Gemma ভেরিয়েন্ট নির্বাচন করার পরে, আপনি মডেলটি চালানো শুরু করতে পারেন, এবং এটিকে কন্টেন্ট তৈরি করতে বা কাজগুলি সম্পূর্ণ করতে প্রম্পট করতে পারেন। একটি নির্দিষ্ট ফ্রেমওয়ার্কের সাথে Gemma কীভাবে চালানো যায় সে সম্পর্কে আরও তথ্যের জন্য, "একটি ফ্রেমওয়ার্ক চয়ন করুন" বিভাগে লিঙ্ক করা নির্দেশিকাগুলি দেখুন।

প্রম্পট ফর্ম্যাটিং

সমস্ত নির্দেশ-সুরক্ষিত জেম্মা ভেরিয়েন্টের নির্দিষ্ট প্রম্পট ফর্ম্যাটিং প্রয়োজনীয়তা রয়েছে। এই ফর্ম্যাটিং প্রয়োজনীয়তাগুলির মধ্যে কিছু স্বয়ংক্রিয়ভাবে জেম্মা মডেলগুলি চালানোর জন্য আপনি যে ফ্রেমওয়ার্কটি ব্যবহার করেন তা দ্বারা পরিচালিত হয়, তবে আপনি যখন সরাসরি কোনও টোকেনাইজারে প্রম্পট ডেটা পাঠান, তখন আপনাকে নির্দিষ্ট ট্যাগ যুক্ত করতে হবে এবং আপনি যে জেম্মা ভেরিয়েন্টটি ব্যবহার করছেন তার উপর নির্ভর করে ট্যাগিংয়ের প্রয়োজনীয়তাগুলি পরিবর্তিত হতে পারে। জেম্মা ভেরিয়েন্ট প্রম্পট ফর্ম্যাটিং এবং সিস্টেম নির্দেশাবলী সম্পর্কে তথ্যের জন্য নিম্নলিখিত নির্দেশিকাগুলি দেখুন: