অনেক জেমিনি মডেলে ১০ লক্ষ বা তার বেশি টোকেনের বড় কনটেক্সট উইন্ডো থাকে। ঐতিহাসিকভাবে, বড় ল্যাঙ্গুয়েজ মডেলগুলো (এলএলএম) একবারে মডেলে পাঠানো যেত এমন টেক্সট (বা টোকেন)-এর পরিমাণ দ্বারা উল্লেখযোগ্যভাবে সীমাবদ্ধ ছিল। জেমিনির দীর্ঘ কনটেক্সট উইন্ডো অনেক নতুন ব্যবহারের ক্ষেত্র এবং ডেভেলপারদের জন্য নতুন কর্মপন্থা উন্মোচন করে।
টেক্সট জেনারেশন বা মাল্টিমোডাল ইনপুটের মতো ক্ষেত্রে আপনি ইতিমধ্যে যে কোড ব্যবহার করেন, তা লং কনটেক্সটের সাথেও কোনো পরিবর্তন ছাড়াই কাজ করবে।
এই ডকুমেন্টটি আপনাকে ১ মিলিয়ন বা তার বেশি টোকেনের কনটেক্সট উইন্ডোযুক্ত মডেল ব্যবহার করে কী কী অর্জন করা সম্ভব, তার একটি সার্বিক ধারণা দেয়। এই পৃষ্ঠাটিতে কনটেক্সট উইন্ডো সম্পর্কে একটি সংক্ষিপ্ত বিবরণ দেওয়া হয়েছে এবং ডেভেলপারদের লং কনটেক্সট নিয়ে কীভাবে ভাবা উচিত, লং কনটেক্সটের বিভিন্ন বাস্তব-জগতের ব্যবহার এবং এর ব্যবহারকে অপ্টিমাইজ করার উপায়গুলো আলোচনা করা হয়েছে।
নির্দিষ্ট মডেলগুলির কনটেক্সট উইন্ডোর আকার জানতে, মডেল পৃষ্ঠাটি দেখুন।
কন্টেক্সট উইন্ডো বলতে কী বোঝায়?
জেমিনি মডেল ব্যবহার করার মূল পদ্ধতি হলো মডেলে তথ্য (প্রসঙ্গ) প্রেরণ করা, যা পরবর্তীতে একটি প্রতিক্রিয়া তৈরি করে। এই প্রসঙ্গ পরিসরের একটি উপমা হলো স্বল্পমেয়াদী স্মৃতি। মানুষের স্বল্পমেয়াদী স্মৃতিতে সীমিত পরিমাণ তথ্যই সংরক্ষণ করা যায়, এবং জেনারেটিভ মডেলের ক্ষেত্রেও একই কথা প্রযোজ্য।
মডেলগুলো অভ্যন্তরীণভাবে কীভাবে কাজ করে, সে সম্পর্কে আপনি আমাদের জেনারেটিভ মডেল গাইডটি পড়তে পারেন।
দীর্ঘ প্রেক্ষাপট দিয়ে শুরু করা
জেনারেটিভ মডেলের আগের সংস্করণগুলো একবারে মাত্র ৮,০০০ টোকেন প্রসেস করতে পারত। নতুন মডেলগুলো ৩২,০০০ বা এমনকি ১২৮,০০০ টোকেন গ্রহণ করার মাধ্যমে এই সক্ষমতাকে আরও এগিয়ে নিয়ে গেছে। জেমিনি হলো প্রথম মডেল যা ১০ লক্ষ টোকেন গ্রহণ করতে সক্ষম।
বাস্তবে, ১০ লক্ষ টোকেন দেখতে এইরকম হবে:
- ৫০,০০০ লাইনের কোড (প্রতি লাইনে প্রচলিত ৮০টি অক্ষর সহ)
- গত ৫ বছরে আপনার পাঠানো সমস্ত টেক্সট মেসেজ
- ৮টি মাঝারি দৈর্ঘ্যের ইংরেজি উপন্যাস
- ২০০টিরও বেশি গড় দৈর্ঘ্যের পডকাস্ট পর্বের প্রতিলিপি
অন্যান্য অনেক মডেলে প্রচলিত অপেক্ষাকৃত সীমিত কনটেক্সট উইন্ডোর কারণে প্রায়শই টোকেন বাঁচানোর জন্য যথেচ্ছভাবে পুরোনো মেসেজ বাদ দেওয়া, বিষয়বস্তুর সারসংক্ষেপ করা, ভেক্টর ডেটাবেসের সাথে RAG ব্যবহার করা, অথবা প্রম্পট ফিল্টার করার মতো কৌশলের প্রয়োজন হয়।
যদিও এই কৌশলগুলি নির্দিষ্ট পরিস্থিতিতে মূল্যবান, জেমিনির বিস্তৃত প্রেক্ষাপট একটি আরও সরাসরি পদ্ধতির সুযোগ করে দেয়: শুরুতেই সমস্ত প্রাসঙ্গিক তথ্য সরবরাহ করা। যেহেতু জেমিনি মডেলগুলি ব্যাপক প্রেক্ষাপট ক্ষমতা সহ বিশেষভাবে তৈরি করা হয়েছিল, তাই এগুলি শক্তিশালী প্রেক্ষাপট-ভিত্তিক শিখন প্রদর্শন করে। উদাহরণস্বরূপ, শুধুমাত্র প্রেক্ষাপট-ভিত্তিক নির্দেশনামূলক উপকরণ (একটি ৫০০-পৃষ্ঠার রেফারেন্স ব্যাকরণ, একটি অভিধান এবং প্রায় ৪০০টি সমান্তরাল বাক্য) ব্যবহার করে, জেমিনি ইংরেজি থেকে কালামাং—একটি পাপুয়ান ভাষা যার বক্তার সংখ্যা ২০০ জনেরও কম— এ অনুবাদ করতে শিখেছে , যা একই উপকরণ ব্যবহার করে একজন মানুষের শেখার মানের অনুরূপ। এটি জেমিনির দীর্ঘ প্রেক্ষাপট দ্বারা সম্ভব হওয়া দৃষ্টান্তমূলক পরিবর্তনকে তুলে ধরে, যা শক্তিশালী প্রেক্ষাপট-ভিত্তিক শিখনের মাধ্যমে নতুন সম্ভাবনার দ্বার উন্মোচন করে।
দীর্ঘ প্রেক্ষাপটের ব্যবহারের ক্ষেত্রগুলি
যদিও বেশিরভাগ জেনারেটিভ মডেলের প্রচলিত ব্যবহার এখনও টেক্সট ইনপুট, জেমিনি মডেল পরিবার মাল্টিমোডাল ব্যবহারের ক্ষেত্রে একটি নতুন দিগন্ত উন্মোচন করেছে। এই মডেলগুলো স্বাভাবিকভাবেই টেক্সট, ভিডিও, অডিও এবং ছবি বুঝতে পারে। সুবিধার জন্য এগুলোর সাথে রয়েছে জেমিনি এপিআই, যা মাল্টিমোডাল ফাইল টাইপ গ্রহণ করে ।
দীর্ঘ পাঠ্য
টেক্সট বা পাঠ্যই যে এলএলএম (LLM)-এর অগ্রগতির মূল ভিত্তি, তা প্রমাণ করেছে। আগেই যেমন উল্লেখ করা হয়েছে, এলএলএম-এর ব্যবহারিক সীমাবদ্ধতার একটি বড় কারণ ছিল নির্দিষ্ট কিছু কাজ করার জন্য যথেষ্ট বড় কনটেক্সট উইন্ডোর অভাব। এর ফলে রিট্রিভাল অগমেন্টেড জেনারেশন (RAG) এবং অন্যান্য কৌশল দ্রুত গৃহীত হয়, যা মডেলকে গতিশীলভাবে প্রাসঙ্গিক তথ্য সরবরাহ করে। এখন, আরও বড় কনটেক্সট উইন্ডোর ফলে নতুন নতুন কৌশল উপলব্ধ হচ্ছে, যা এর ব্যবহারের নতুন নতুন ক্ষেত্র উন্মোচন করছে।
টেক্সট-ভিত্তিক লং কনটেক্সটের কিছু উদীয়মান এবং প্রচলিত ব্যবহার হলো:
- বিশাল আকারের পাঠ্য সংকলনের সারসংক্ষেপ
- ছোট কনটেক্সট মডেল সহ পূর্ববর্তী সারসংক্ষেপ বিকল্পগুলির জন্য একটি স্লাইডিং উইন্ডো বা অন্য কোনো কৌশলের প্রয়োজন হবে, যাতে মডেলে নতুন টোকেন পাঠানোর সময় পূর্ববর্তী বিভাগগুলির অবস্থা বজায় থাকে।
- প্রশ্ন ও উত্তর
- ঐতিহাসিকভাবে, সীমিত প্রেক্ষাপট এবং মডেলদের তথ্য মনে রাখার ক্ষমতা কম থাকার কারণে এটি শুধুমাত্র RAG-এর মাধ্যমেই সম্ভব ছিল।
- এজেন্টিক ওয়ার্কফ্লো
- এজেন্টরা কী করেছে এবং তাদের কী করতে হবে, তার অবস্থা বজায় রাখার মূল ভিত্তি হলো টেক্সট; জগৎ এবং এজেন্টের লক্ষ্য সম্পর্কে পর্যাপ্ত তথ্যের অভাব এজেন্টদের নির্ভরযোগ্যতার ক্ষেত্রে একটি সীমাবদ্ধতা।
লং কনটেক্সট মডেল দ্বারা উন্মোচিত হওয়া অন্যতম অনন্য একটি সক্ষমতা হলো মেনি-শট ইন-কনটেক্সট লার্নিং । গবেষণায় দেখা গেছে যে, প্রচলিত 'সিঙ্গেল শট' বা 'মাল্টি-শট' উদাহরণ পদ্ধতিকে (যেখানে মডেলকে কোনো একটি বা কয়েকটি কাজের উদাহরণ দেওয়া হয়) শত শত, হাজার হাজার বা এমনকি লক্ষ লক্ষ উদাহরণ পর্যন্ত বিস্তৃত করলে মডেলের মধ্যে নতুন ধরনের সক্ষমতা তৈরি হতে পারে। এই মেনি-শট পদ্ধতিটি কোনো নির্দিষ্ট কাজের জন্য ফাইন-টিউন করা মডেলগুলোর মতোই পারফর্ম করে বলেও দেখা গেছে। যেসব ক্ষেত্রে একটি জেমিনি মডেলের পারফরম্যান্স প্রোডাকশন রোলআউটের জন্য এখনও যথেষ্ট নয়, সেখানে আপনি মেনি-শট পদ্ধতিটি চেষ্টা করে দেখতে পারেন। লং কনটেক্সট অপটিমাইজেশন অংশে আপনি যেমনটা পরে জানতে পারবেন, কনটেক্সট ক্যাশিং এই ধরনের উচ্চ ইনপুট টোকেন ওয়ার্কলোডকে অর্থনৈতিকভাবে অনেক বেশি সাশ্রয়ী করে তোলে এবং কিছু ক্ষেত্রে ল্যাটেন্সিও কমিয়ে আনে।
দীর্ঘ ভিডিও
ভিডিও কন্টেন্টের উপযোগিতা দীর্ঘদিন ধরে এই মাধ্যমটির সহজলভ্যতার অভাবের কারণে সীমাবদ্ধ ছিল। কন্টেন্ট দ্রুত দেখে নেওয়া কঠিন ছিল, ট্রান্সক্রিপ্টগুলো প্রায়শই ভিডিওর সূক্ষ্মতা তুলে ধরতে ব্যর্থ হতো, এবং বেশিরভাগ টুল ছবি, টেক্সট ও অডিও একসাথে প্রসেস করে না। জেমিনির মাধ্যমে, দীর্ঘ-প্রসঙ্গের টেক্সট সক্ষমতা অবিচ্ছিন্ন পারফরম্যান্সের সাথে মাল্টিমোডাল ইনপুট সম্পর্কে যুক্তি দিয়ে প্রশ্ন সমাধান করার ক্ষমতা প্রদান করে।
ভিডিওর দীর্ঘ প্রেক্ষাপটের কিছু উদীয়মান এবং প্রচলিত ব্যবহার হলো:
- ভিডিও প্রশ্নোত্তর
- ভিডিও মেমরি, যেমনটি গুগলের প্রজেক্ট অ্যাস্ট্রা- তে দেখানো হয়েছে।
- ভিডিও ক্যাপশনিং
- নতুন মাল্টিমোডাল বোঝাপড়ার মাধ্যমে বিদ্যমান মেটাডেটাকে সমৃদ্ধ করে ভিডিও সুপারিশ সিস্টেম।
- ডেটার একটি সংকলন ও সংশ্লিষ্ট ভিডিও মেটাডেটা পর্যালোচনা করে এবং তারপর ভিডিওর যে অংশগুলো দর্শকের জন্য প্রাসঙ্গিক নয়, সেগুলো বাদ দিয়ে ভিডিও কাস্টমাইজেশন করা হয়।
- ভিডিও বিষয়বস্তু সংযোজন
- রিয়েল-টাইম ভিডিও প্রক্রিয়াকরণ
ভিডিও নিয়ে কাজ করার সময়, ভিডিওগুলো কীভাবে টোকেনে রূপান্তরিত হয় তা বিবেচনা করা গুরুত্বপূর্ণ, যা বিলিং এবং ব্যবহারের সীমাকে প্রভাবিত করে। আপনি প্রম্পটিং গাইড- এ ভিডিও ফাইলের মাধ্যমে প্রম্পটিং সম্পর্কে আরও জানতে পারবেন।
দীর্ঘ অডিও ফর্ম
জেমিনি মডেলগুলো ছিল প্রথম নেটিভলি মাল্টিমোডাল বৃহৎ ল্যাঙ্গুয়েজ মডেল যা অডিও বুঝতে পারত। ঐতিহাসিকভাবে, অডিও প্রসেস করার জন্য ডেভেলপারদের সাধারণ কর্মপ্রবাহে স্পিচ-টু-টেক্সট মডেল এবং টেক্সট-টু-টেক্সট মডেলের মতো একাধিক ডোমেইন-নির্দিষ্ট মডেলকে একসাথে জুড়ে দেওয়া হতো। এর ফলে একাধিক রাউন্ড-ট্রিপ রিকোয়েস্ট সম্পাদনের জন্য অতিরিক্ত ল্যাটেন্সি তৈরি হতো এবং পারফরম্যান্স কমে যেত, যার কারণ হিসেবে সাধারণত একাধিক মডেলের সেটআপের বিচ্ছিন্ন আর্কিটেকচারকে দায়ী করা হতো।
অডিও কনটেক্সটের কিছু উদীয়মান এবং প্রচলিত ব্যবহার হলো:
- রিয়েল-টাইম ট্রান্সক্রিপশন এবং অনুবাদ
- পডকাস্ট / ভিডিও প্রশ্নোত্তর পর্ব
- মিটিংয়ের প্রতিলিপি এবং সারসংক্ষেপ
- ভয়েস অ্যাসিস্ট্যান্ট
অডিও ফাইলের মাধ্যমে প্রম্পটিং সম্পর্কে আপনি প্রম্পটিং গাইড থেকে আরও জানতে পারবেন।
দীর্ঘ প্রসঙ্গ অপ্টিমাইজেশন
দীর্ঘ কনটেক্সট এবং জেমিনি মডেল নিয়ে কাজ করার ক্ষেত্রে প্রধান অপটিমাইজেশন হলো কনটেক্সট ক্যাশিং ব্যবহার করা। একটিমাত্র অনুরোধে প্রচুর টোকেন প্রসেস করার পূর্ববর্তী অসম্ভবতার বাইরেও, আরেকটি প্রধান সীমাবদ্ধতা ছিল খরচ। আপনার যদি এমন একটি "আপনার ডেটার সাথে চ্যাট করুন" অ্যাপ থাকে যেখানে একজন ব্যবহারকারী ১০টি পিডিএফ, একটি ভিডিও এবং কিছু কাজের ডকুমেন্ট আপলোড করেন, তাহলে ঐতিহাসিকভাবে এই অনুরোধগুলো প্রসেস করার জন্য আপনাকে আরও জটিল একটি রিট্রিভাল অগমেন্টেড জেনারেশন (RAG) টুল/ফ্রেমওয়ার্ক ব্যবহার করতে হতো এবং কনটেক্সট উইন্ডোতে স্থানান্তরিত টোকেনগুলোর জন্য একটি উল্লেখযোগ্য পরিমাণ অর্থ প্রদান করতে হতো। এখন, আপনি ব্যবহারকারীর আপলোড করা ফাইলগুলো ক্যাশ করতে পারেন এবং সেগুলো সংরক্ষণ করার জন্য ঘণ্টাপ্রতি ভিত্তিতে অর্থ প্রদান করতে পারেন। উদাহরণস্বরূপ, জেমিনি ফ্ল্যাশের সাথে প্রতি অনুরোধের ইনপুট/আউটপুট খরচ সাধারণ ইনপুট/আউটপুট খরচের চেয়ে প্রায় ৪ গুণ কম, তাই যদি ব্যবহারকারী যথেষ্ট পরিমাণে তাদের ডেটা নিয়ে চ্যাট করেন, তবে ডেভেলপার হিসেবে এটি আপনার জন্য একটি বিশাল খরচ সাশ্রয়ের উপায় হয়ে দাঁড়ায়।
দীর্ঘ প্রেক্ষাপটের সীমাবদ্ধতা
এই গাইডের বিভিন্ন অংশে আমরা আলোচনা করেছি, কীভাবে জেমিনি মডেলগুলো খড়ের গাদায় সূঁচ খোঁজার মতো নানা ধরনের তথ্য উদ্ধারের মূল্যায়নে উচ্চ পারফরম্যান্স অর্জন করে। এই পরীক্ষাগুলোতে সবচেয়ে সাধারণ পরিস্থিতি বিবেচনা করা হয়েছে, যেখানে আপনি একটিমাত্র সূঁচ খুঁজছেন। এমন ক্ষেত্রে যেখানে আপনার একাধিক "সূঁচ" বা নির্দিষ্ট কোনো তথ্য খোঁজার প্রয়োজন হতে পারে, সেখানে মডেলটি একই নির্ভুলতার সাথে কাজ করে না। প্রেক্ষাপটের উপর নির্ভর করে পারফরম্যান্স ব্যাপকভাবে পরিবর্তিত হতে পারে। এটি বিবেচনা করা গুরুত্বপূর্ণ, কারণ সঠিক তথ্য উদ্ধার করা এবং খরচের মধ্যে একটি অন্তর্নিহিত আপস-মীমাংসা রয়েছে। আপনি একটিমাত্র কোয়েরিতে প্রায় ৯৯% নির্ভুলতা পেতে পারেন, কিন্তু প্রতিবার সেই কোয়েরি পাঠানোর জন্য আপনাকে ইনপুট টোকেনের খরচ বহন করতে হবে। সুতরাং, ১০০টি তথ্য উদ্ধারের জন্য যদি আপনার ৯৯% পারফরম্যান্সের প্রয়োজন হয়, তবে সম্ভবত আপনাকে ১০০টি অনুরোধ পাঠাতে হবে। এটি একটি ভালো উদাহরণ যেখানে কনটেক্সট ক্যাশিং উচ্চ পারফরম্যান্স বজায় রেখে জেমিনি মডেল ব্যবহারের সাথে সম্পর্কিত খরচ উল্লেখযোগ্যভাবে কমাতে পারে।
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
কন্টেক্সট উইন্ডোতে আমার কোয়েরিটি রাখার জন্য সবচেয়ে ভালো জায়গা কোনটি?
বেশিরভাগ ক্ষেত্রে, বিশেষ করে যদি সম্পূর্ণ কনটেক্সট দীর্ঘ হয়, তাহলে আপনার কোয়েরি/প্রশ্নটি প্রম্পটের শেষে (অন্যান্য সমস্ত কনটেক্সটের পরে) রাখলে মডেলের পারফরম্যান্স আরও ভালো হবে।
একটি কোয়েরিতে আরও টোকেন যোগ করলে কি মডেলের পারফরম্যান্স কমে যায়?
সাধারণত, মডেলে টোকেন পাঠানোর প্রয়োজন না হলে, তা এড়িয়ে চলাই শ্রেয়। তবে, যদি আপনার কাছে কিছু তথ্যসহ বিপুল পরিমাণ টোকেন থাকে এবং আপনি সেই তথ্য সম্পর্কে প্রশ্ন করতে চান, তাহলে মডেলটি সেই তথ্য বের করতে অত্যন্ত সক্ষম (অনেক ক্ষেত্রে ৯৯% পর্যন্ত নির্ভুলতার সাথে)।
লং-কন্টেক্সট কোয়েরি ব্যবহার করে আমি কীভাবে আমার খরচ কমাতে পারি?
আপনার কাছে যদি একই ধরনের টোকেন বা কনটেক্সটের সেট থাকে যা আপনি বারবার ব্যবহার করতে চান, তাহলে কনটেক্সট ক্যাশিং সেই তথ্য সম্পর্কে প্রশ্ন করার সাথে সম্পর্কিত খরচ কমাতে সাহায্য করতে পারে।
কনটেক্সটের দৈর্ঘ্য কি মডেলের লেটেন্সিকে প্রভাবিত করে?
যেকোনো অনুরোধের আকার নির্বিশেষে তাতে একটি নির্দিষ্ট পরিমাণ লেটেন্সি থাকে, তবে সাধারণত দীর্ঘ কোয়েরিগুলোর লেটেন্সি (প্রথম টোকেন পাওয়ার সময়) বেশি হয়।