জেমিনি এপিআই অপ্টিমাইজেশন এবং অনুমান

জেমিনি এপিআই আপনার নির্দিষ্ট ওয়ার্কলোডের চাহিদার উপর ভিত্তি করে গতি, খরচ এবং নির্ভরযোগ্যতার মধ্যে ভারসাম্য বজায় রাখতে সাহায্য করার জন্য বিভিন্ন অপ্টিমাইজেশন ব্যবস্থা প্রদান করে। আপনি রিয়েল-টাইম কথোপকথনমূলক বট তৈরি করুন বা ভারী অফলাইন ডেটা-প্রসেসিং পাইপলাইন চালান, সঠিক পদ্ধতি বেছে নিলে তা খরচ উল্লেখযোগ্যভাবে কমাতে বা কর্মক্ষমতা বাড়াতে পারে।

বৈশিষ্ট্য মান ফ্লেক্স অগ্রাধিকার ব্যাচ ক্যাশিং
মূল্য নির্ধারণ সম্পূর্ণ মূল্য ৫০% ছাড় সাধারণের চেয়ে ৭৫% থেকে ১০০% বেশি ৫০% ছাড় ৯০% ছাড় + আনুপাতিক হারে টোকেন সংরক্ষণ
লেটেন্সি সেকেন্ড থেকে মিনিট মিনিট (লক্ষ্যমাত্রা ১-১৫ মিনিট) সেকেন্ড ২৪ ঘন্টা পর্যন্ত প্রথম টোকেন পেতে আরও কম সময়
নির্ভরযোগ্যতা উচ্চ / মাঝারি-উচ্চ সর্বোত্তম প্রচেষ্টা (বাদ দেওয়া যায়) উচ্চ (অ-ঝরে পড়া) উচ্চ (থ্রুপুটের জন্য) প্রযোজ্য নয়
ইন্টারফেস সিঙ্ক্রোনাস সিঙ্ক্রোনাস সিঙ্ক্রোনাস অ্যাসিঙ্ক্রোনাস সংরক্ষিত অবস্থা
সর্বোত্তম ব্যবহারের ক্ষেত্র সাধারণ অ্যাপ্লিকেশন ওয়ার্কফ্লো অ-জরুরি ক্রমিক শৃঙ্খল উৎপাদন, ব্যবহারকারী-মুখী অ্যাপ বিশাল ডেটাসেট, অফলাইন মূল্যায়ন একই ফাইলের উপর পুনরাবৃত্তিমূলক কোয়েরি

ইনফারেন্স পরিষেবা স্তর (সিঙ্ক্রোনাস)

আপনার স্ট্যান্ডার্ড জেনারেশন কলগুলিতে service_tier প্যারামিটারটি পাস করার মাধ্যমে আপনি নির্ভরযোগ্যতা-অপ্টিমাইজড এবং খরচ-অপ্টিমাইজড সিনক্রোনাস ট্র্যাফিকের মধ্যে পরিবর্তন করতে পারেন।

প্রমিত অনুমান (ডিফল্ট)

ক্রমিক কন্টেন্ট তৈরির জন্য স্ট্যান্ডার্ড টায়ার হলো ডিফল্ট অপশন। এটি কোনো অতিরিক্ত প্রিমিয়াম বা দীর্ঘ অপেক্ষার ঝামেলা ছাড়াই স্বাভাবিক সময়ে সাড়া দেয়।

  • নির্ভরযোগ্যতা: আদর্শ সংকটময়তা
  • মূল্য: প্রচলিত মূল্য।
  • এর জন্য সর্বোত্তম: বেশিরভাগ ইন্টারেক্টিভ দৈনন্দিন অ্যাপ্লিকেশন।

অগ্রাধিকার অনুমান (বিলম্ব-অপ্টিমাইজড)

প্রায়োরিটি প্রসেসিং আপনার অনুরোধগুলোকে উচ্চ-গুরুত্বপূর্ণ কম্পিউট কিউ-তে পাঠায়। এই ট্র্যাফিক কঠোরভাবে নন-শেডেডেবল (অন্যান্য টিয়ার দ্বারা কখনও প্রি-এম্পটেড হয় না) এবং সর্বোচ্চ নির্ভরযোগ্যতা প্রদান করে। আপনি যদি ডাইনামিক প্রায়োরিটি সীমা অতিক্রম করেন, তবে সিস্টেমটি কোনো ত্রুটি দেখিয়ে ব্যর্থ না হয়ে, অনুরোধটিকে সুষ্ঠুভাবে স্ট্যান্ডার্ড প্রসেসিং-এ নামিয়ে আনবে।

  • নির্ভরযোগ্যতা: সর্বোচ্চ সংকটময়তা
  • মূল্য: সাধারণ হারের চেয়ে ৭৫% থেকে ১০০% বেশি।
  • এর জন্য সর্বোত্তম: কাস্টমার চ্যাটবট, রিয়েল-টাইম জালিয়াতি শনাক্তকরণ, এবং ব্যবসায়িক-গুরুত্বপূর্ণ কো-পাইলট।

ফ্লেক্স ইনফারেন্স (ব্যয়-অপ্টিমাইজড)

ফ্লেক্স ইনফারেন্স সুযোগসন্ধানী, অফ-পিক কম্পিউট ক্ষমতা ব্যবহার করে সাধারণ হারের তুলনায় ৫০% ছাড় প্রদান করে। অনুরোধগুলি সিনক্রোনাসভাবে প্রক্রিয়া করা হয়, যার অর্থ ব্যাচ অবজেক্টগুলি পরিচালনা করার জন্য আপনাকে কোড পুনরায় লিখতে হবে না। যেহেতু এটি "শেডেডেবল" ট্র্যাফিক, তাই সিস্টেমে সাধারণ ট্র্যাফিক স্পাইক দেখা দিলে অনুরোধগুলি প্রি-এম্পট করা হতে পারে।

  • নির্ভরযোগ্যতা: অ-নিশ্চিত, বর্জনযোগ্য সংকটময়তা
  • মূল্য: সাধারণ মূল্যের ৫০% (প্রতি টোকেন অনুযায়ী বিল করা হবে)।
  • এর জন্য সর্বোত্তম: বহু-ধাপের এজেন্টিক ওয়ার্কফ্লো, যেখানে N+1 নম্বর কলটি N নম্বর কলের আউটপুট, ব্যাকগ্রাউন্ড CRM আপডেট এবং অফলাইন মূল্যায়নের উপর নির্ভর করে।

ব্যাচ এপিআই (বাল্ক, অ্যাসিঙ্ক্রোনাস)

ব্যাচ এপিআইটি সাধারণ খরচের ৫০% ব্যয়ে বিপুল সংখ্যক অনুরোধ অ্যাসিঙ্ক্রোনাসভাবে প্রসেস করার জন্য ডিজাইন করা হয়েছে। আপনি ইন-লাইন ডিকশনারি হিসেবে অথবা একটি JSONL ইনপুট ফাইল (২ জিবি পর্যন্ত) ব্যবহার করে অনুরোধ জমা দিতে পারেন। এটি ব্যাকগ্রাউন্ড থ্রুপুট কিউ ব্যবহার করে অনুরোধগুলো প্রসেস করে, যার লক্ষ্যমাত্রা টার্নঅ্যারাউন্ড টাইম হলো ২৪ ঘণ্টা।

  • নির্ভরযোগ্যতা: বিচ্ছিন্নযোগ্য, তবে ২৪-ঘণ্টার স্বয়ংক্রিয় পুনঃপ্রচেষ্টা এবং সারি ব্যবস্থা রয়েছে।
  • মূল্য: সাধারণ মূল্যের ৫০%।
  • এর জন্য সর্বোত্তম: বিশাল ডেটাসেট প্রি-প্রসেসিং, পর্যায়ক্রমিক রিগ্রেশন টেস্ট স্যুট চালানো, এবং বিপুল পরিমাণে ইমেজ বা এমবেডিং তৈরি করা।

প্রসঙ্গ ক্যাশিং (ইনপুট সাশ্রয়)

যখন ছোট আকারের অনুরোধ দ্বারা একটি উল্লেখযোগ্য প্রাথমিক কনটেক্সট বারবার উল্লেখ করা হয়, তখন কনটেক্সট ক্যাশিং ব্যবহার করা হয়।

  • অন্তর্নিহিত ক্যাশিং: জেমিনি ২.৫ এবং নতুন মডেলগুলিতে এটি স্বয়ংক্রিয়ভাবে সক্রিয় হয়। সাধারণ প্রম্পট প্রিফিক্সের উপর ভিত্তি করে আপনার অনুরোধটি বিদ্যমান ক্যাশে পৌঁছালে, সিস্টেম সেই সাশ্রয়কৃত খরচ আপনাকে প্রদান করে।
  • সুস্পষ্ট ক্যাশিং: আপনি একটি নির্দিষ্ট টাইম-টু-লিভ (TTL) সহ ম্যানুয়ালি একটি ক্যাশ অবজেক্ট তৈরি করতে পারেন। একবার তৈরি হয়ে গেলে, একই কর্পাস পেলোড বারবার পাঠানো এড়াতে আপনি পরবর্তী অনুরোধগুলির জন্য ক্যাশ করা টোকেনগুলি ব্যবহার করতে পারেন।
  • মূল্য: ক্যাশ টোকেন সংখ্যা এবং সংরক্ষণের সময়কাল (TTL)-এর উপর ভিত্তি করে বিল করা হয়।
  • এর জন্য সর্বোত্তম: বিস্তারিত সিস্টেম নির্দেশাবলী সহ চ্যাটবট, দীর্ঘ ভিডিও ফাইলের পুনরাবৃত্তিমূলক বিশ্লেষণ, অথবা বৃহৎ ডকুমেন্ট সেটের বিরুদ্ধে কোয়েরি।