জেমিনি এপিআই অপ্টিমাইজেশন এবং অনুমান

জেমিনি এপিআই আপনার নির্দিষ্ট ওয়ার্কলোডের চাহিদার উপর ভিত্তি করে গতি, খরচ এবং নির্ভরযোগ্যতার মধ্যে ভারসাম্য বজায় রাখতে সাহায্য করার জন্য বিভিন্ন অপ্টিমাইজেশন ব্যবস্থা প্রদান করে। আপনি রিয়েল-টাইম কথোপকথনমূলক বট তৈরি করুন বা ভারী অফলাইন ডেটা-প্রসেসিং পাইপলাইন চালান, সঠিক পদ্ধতি বেছে নিলে তা খরচ উল্লেখযোগ্যভাবে কমাতে বা কর্মক্ষমতা বাড়াতে পারে।

বৈশিষ্ট্য মান ফ্লেক্স অগ্রাধিকার ব্যাচ ক্যাশিং
মূল্য নির্ধারণ সম্পূর্ণ মূল্য ৫০% ছাড় সাধারণের চেয়ে ৭৫% থেকে ১০০% বেশি ৫০% ছাড় আনুপাতিক টোকেন স্টোরেজ
লেটেন্সি সেকেন্ড থেকে মিনিট মিনিট (লক্ষ্যমাত্রা ১-১৫ মিনিট) নিম্ন (সেকেন্ড) ২৪ ঘন্টা পর্যন্ত প্রথম টোকেন পেতে আরও কম সময়
নির্ভরযোগ্যতা উচ্চ / মাঝারি-উচ্চ সর্বোত্তম প্রচেষ্টা (বাদ দেওয়া যায়) উচ্চ (অ-ঝরে পড়া) উচ্চ (থ্রুপুটের জন্য) প্রযোজ্য নয়
ইন্টারফেস সিঙ্ক্রোনাস সিঙ্ক্রোনাস সিঙ্ক্রোনাস অ্যাসিঙ্ক্রোনাস সংরক্ষিত অবস্থা
সর্বোত্তম ব্যবহারের ক্ষেত্র সাধারণ অ্যাপ্লিকেশন ওয়ার্কফ্লো অ-জরুরি ক্রমিক শৃঙ্খল উৎপাদন, ব্যবহারকারী-মুখী অ্যাপ বিশাল ডেটাসেট, অফলাইন মূল্যায়ন একই ফাইলের উপর পুনরাবৃত্তিমূলক কোয়েরি

ইনফারেন্স পরিষেবা স্তর (সিঙ্ক্রোনাস)

আপনার স্ট্যান্ডার্ড জেনারেশন কলগুলিতে service_tier প্যারামিটারটি পাস করার মাধ্যমে আপনি ল্যাটেন্সি-অপ্টিমাইজড এবং কস্ট-অপ্টিমাইজড সিনক্রোনাস ট্র্যাফিকের মধ্যে পরিবর্তন করতে পারেন।

প্রমিত অনুমান (ডিফল্ট)

ক্রমিক কন্টেন্ট তৈরির জন্য স্ট্যান্ডার্ড টায়ার হলো ডিফল্ট অপশন। এটি কোনো অতিরিক্ত প্রিমিয়াম বা দীর্ঘ অপেক্ষার ঝামেলা ছাড়াই স্বাভাবিক সময়ে সাড়া দেয়।

  • বিলম্ব: সেকেন্ড থেকে মিনিট।
  • মূল্য: প্রচলিত মূল্য।
  • এর জন্য সর্বোত্তম: বেশিরভাগ ইন্টারেক্টিভ দৈনন্দিন অ্যাপ্লিকেশন।

অগ্রাধিকার অনুমান (বিলম্ব-অপ্টিমাইজড)

প্রায়োরিটি প্রসেসিং আপনার অনুরোধগুলোকে উচ্চ-গুরুত্বপূর্ণ কম্পিউট কিউ-তে পাঠায়। এই ট্র্যাফিক কঠোরভাবে নন-শেডেডেবল (অন্যান্য টিয়ার দ্বারা কখনও প্রি-এম্পটেড হয় না) এবং সর্বোচ্চ নির্ভরযোগ্যতা প্রদান করে। আপনি যদি ডাইনামিক প্রায়োরিটি সীমা অতিক্রম করেন, তবে সিস্টেমটি কোনো ত্রুটি দেখিয়ে ব্যর্থ না হয়ে, অনুরোধটিকে সুষ্ঠুভাবে স্ট্যান্ডার্ড প্রসেসিং-এ নামিয়ে আনবে।

  • লেটেন্সি: অত্যন্ত কম (মিলিসেকেন্ড থেকে সেকেন্ড)।
  • মূল্য: সাধারণ হারের চেয়ে ৭৫% থেকে ১০০% বেশি।
  • এর জন্য সর্বোত্তম: লাইভ কাস্টমার চ্যাটবট, রিয়েল-টাইম জালিয়াতি শনাক্তকরণ, এবং ব্যবসায়িক-গুরুত্বপূর্ণ কো-পাইলট।

ফ্লেক্স ইনফারেন্স (ব্যয়-অপ্টিমাইজড)

ফ্লেক্স ইনফারেন্স সুযোগসন্ধানী, অফ-পিক কম্পিউট ক্ষমতা ব্যবহার করে সাধারণ হারের তুলনায় ৫০% ছাড় প্রদান করে। অনুরোধগুলি সিনক্রোনাসভাবে প্রক্রিয়া করা হয়, যার অর্থ ব্যাচ অবজেক্টগুলি পরিচালনা করার জন্য আপনাকে কোড পুনরায় লিখতে হবে না। যেহেতু এটি "শেডেডেবল" ট্র্যাফিক, তাই সিস্টেমে সাধারণ ট্র্যাফিক স্পাইক দেখা দিলে অনুরোধগুলি প্রি-এম্পট করা হতে পারে।

  • লেটেন্সি: নিশ্চিত নয়, লক্ষ্যমাত্রা ১ থেকে ১৫ মিনিট।
  • মূল্য: সাধারণ মূল্যের ৫০% (প্রতি টোকেন অনুযায়ী বিল করা হবে)।
  • এর জন্য সর্বোত্তম: বহু-ধাপের এজেন্টিক ওয়ার্কফ্লো, যেখানে N+1 নম্বর কলটি N নম্বর কলের আউটপুট, ব্যাকগ্রাউন্ড CRM আপডেট এবং অফলাইন মূল্যায়নের উপর নির্ভর করে।

ব্যাচ এপিআই (বাল্ক, অ্যাসিঙ্ক্রোনাস)

ব্যাচ এপিআইটি সাধারণ খরচের ৫০% ব্যয়ে বিপুল সংখ্যক অনুরোধ অ্যাসিঙ্ক্রোনাসভাবে প্রসেস করার জন্য ডিজাইন করা হয়েছে। আপনি ইন-লাইন ডিকশনারি হিসেবে অথবা একটি JSONL ইনপুট ফাইল (২ জিবি পর্যন্ত) ব্যবহার করে অনুরোধ জমা দিতে পারেন। এটি ব্যাকগ্রাউন্ড থ্রুপুট কিউ ব্যবহার করে অনুরোধগুলো প্রসেস করে, যার লক্ষ্যমাত্রা টার্নঅ্যারাউন্ড টাইম হলো ২৪ ঘণ্টা।

  • বিলম্ব: বেশি (২৪ ঘণ্টা পর্যন্ত)।
  • মূল্য: সাধারণ মূল্যের ৫০%।
  • এর জন্য সর্বোত্তম: বিশাল ডেটাসেট প্রি-প্রসেসিং, পর্যায়ক্রমিক রিগ্রেশন টেস্ট স্যুট চালানো, এবং বিপুল পরিমাণে ইমেজ বা এমবেডিং তৈরি করা।

প্রসঙ্গ ক্যাশিং (ইনপুট সাশ্রয়)

যখন ছোট আকারের অনুরোধ দ্বারা একটি উল্লেখযোগ্য প্রাথমিক কনটেক্সট বারবার উল্লেখ করা হয়, তখন কনটেক্সট ক্যাশিং ব্যবহার করা হয়।

  • অন্তর্নিহিত ক্যাশিং: জেমিনি ২.৫ এবং নতুন মডেলগুলিতে এটি স্বয়ংক্রিয়ভাবে সক্রিয় হয়। সাধারণ প্রম্পট প্রিফিক্সের উপর ভিত্তি করে আপনার অনুরোধটি বিদ্যমান ক্যাশে পৌঁছালে, সিস্টেম সেই সাশ্রয়কৃত খরচ আপনাকে প্রদান করে।
  • সুস্পষ্ট ক্যাশিং: আপনি একটি নির্দিষ্ট টাইম-টু-লিভ (TTL) সহ ম্যানুয়ালি একটি ক্যাশ অবজেক্ট তৈরি করতে পারেন। একবার তৈরি হয়ে গেলে, একই কর্পাস পেলোড বারবার পাঠানো এড়াতে আপনি পরবর্তী অনুরোধগুলির জন্য ক্যাশ করা টোকেনগুলি ব্যবহার করতে পারেন।
  • মূল্য: ক্যাশ টোকেন সংখ্যা এবং সংরক্ষণের সময়কাল (TTL)-এর উপর ভিত্তি করে বিল করা হয়।
  • এর জন্য সর্বোত্তম: বিস্তারিত সিস্টেম নির্দেশাবলী সহ চ্যাটবট, দীর্ঘ ভিডিও ফাইলের পুনরাবৃত্তিমূলক বিশ্লেষণ, অথবা বৃহৎ ডকুমেন্ট সেটের বিরুদ্ধে কোয়েরি।