জেমিনি ডিপ রিসার্চ এখন প্রিভিউতে উপলব্ধ, যাতে রয়েছে যৌথ পরিকল্পনা, ভিজ্যুয়ালাইজেশন, এমসিপি সাপোর্ট এবং আরও অনেক কিছু।

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

লাইভ এপিআই সেরা অনুশীলন

এই নির্দেশিকাটিতে লাইভ এপিআই-এর ব্যবহারকে সর্বোত্তম করতে আপনি অনুসরণ করতে পারেন এমন সেরা পদ্ধতিগুলো তুলে ধরা হয়েছে। একটি সার্বিক ধারণা এবং সাধারণ ব্যবহারের ক্ষেত্রগুলোর জন্য নমুনা কোডের জন্য ‘লাইভ এপিআই দিয়ে শুরু করুন’ পৃষ্ঠাটি দেখুন।

স্পষ্ট সিস্টেম নির্দেশাবলী ডিজাইন করুন

Live API থেকে সর্বোত্তম পারফরম্যান্স পেতে, আমরা সুস্পষ্টভাবে সংজ্ঞায়িত সিস্টেম নির্দেশাবলীর (SI) একটি সেট রাখার পরামর্শ দিই, যা এজেন্ট পার্সোনা, কথোপকথনের নিয়ম এবং গার্ডরেলগুলিকে এই ক্রমে সংজ্ঞায়িত করে।

সর্বোত্তম ফলাফলের জন্য, প্রতিটি এজেন্টকে একটি স্বতন্ত্র SI-তে আলাদা করুন।

এজেন্টের পরিচয় নির্দিষ্ট করুন: এজেন্টের নাম, ভূমিকা এবং পছন্দের বৈশিষ্ট্য সম্পর্কে বিস্তারিত তথ্য দিন। আপনি যদি উচ্চারণভঙ্গি নির্দিষ্ট করতে চান, তবে পছন্দের আউটপুট ভাষাও উল্লেখ করতে ভুলবেন না (যেমন, একজন ইংরেজিভাষীর জন্য ব্রিটিশ উচ্চারণভঙ্গি)।
কথোপকথনের নিয়মগুলো নির্দিষ্ট করুন: মডেলটি যে ক্রমে নিয়মগুলো অনুসরণ করবে বলে আপনি আশা করেন, সেই ক্রমে নিয়মগুলো রাখুন। কথোপকথনের এককালীন উপাদান এবং কথোপকথনের পুনরাবৃত্তির মধ্যে পার্থক্য সুস্পষ্ট করুন। উদাহরণস্বরূপ:
- এককালীন উপাদান: গ্রাহকের বিবরণ একবার সংগ্রহ করা (যেমন নাম, অবস্থান, লয়ালটি কার্ড নম্বর)।
- কথোপকথনের চক্র: ব্যবহারকারী সুপারিশ, মূল্য, ফেরত এবং ডেলিভারি নিয়ে আলোচনা করতে পারেন এবং এক বিষয় থেকে অন্য বিষয়ে যেতে চাইতে পারেন। মডেলকে জানিয়ে দিন যে ব্যবহারকারী যতক্ষণ চান, এই কথোপকথনের চক্রটি চালিয়ে যাওয়া যাবে।
একটি ফ্লো-এর মধ্যে টুল কলগুলো আলাদা আলাদা বাক্যে উল্লেখ করুন: উদাহরণস্বরূপ, যদি কোনো গ্রাহকের বিবরণ সংগ্রহ করার জন্য এককালীন ধাপে get_user_info ফাংশনটি কল করার প্রয়োজন হয়, তাহলে আপনি বলতে পারেন: আপনার প্রথম ধাপ হলো ব্যবহারকারীর তথ্য সংগ্রহ করা। প্রথমে, ব্যবহারকারীকে তার নাম, অবস্থান এবং লয়ালটি কার্ড নম্বর প্রদান করতে বলুন। তারপর এই বিবরণগুলো দিয়ে get_user_info কল করুন।
প্রয়োজনীয় সুরক্ষাব্যবস্থা যোগ করুন: সাধারণ কথোপকথনের ক্ষেত্রে এমন কোনো সুরক্ষাব্যবস্থা উল্লেখ করুন যা আপনি মডেলটিকে করতে দিতে চান না। যদি x ঘটে, তবে আপনি মডেলটিকে y করতে চান—এর মতো নির্দিষ্ট উদাহরণ দিতে পারেন। এরপরও যদি আপনি কাঙ্ক্ষিত নির্ভুলতা না পান, তবে মডেলটিকে নির্ভুল হতে নির্দেশ দেওয়ার জন্য ‘অবিসংবাদিতভাবে’ শব্দটি ব্যবহার করুন।

সরঞ্জামগুলি সঠিকভাবে সংজ্ঞায়িত করুন

Live API-এর সাথে টুল ব্যবহার করার সময়, আপনার টুল ডেফিনিশনে সুনির্দিষ্ট হন। কোন পরিস্থিতিতে একটি টুল কল চালু করা উচিত, তা Gemini-কে অবশ্যই জানিয়ে দিন। আরও বিস্তারিত জানতে, উদাহরণ বিভাগের 'টুল ডেফিনিশন' অংশটি দেখুন।

কার্যকরী প্রম্পট তৈরি করুন

স্পষ্ট নির্দেশ ব্যবহার করুন: মডেলদের কী করা উচিত এবং কী করা উচিত নয়, তার উদাহরণ নির্দেশের মধ্যে দিন এবং একবারে প্রতিটি পার্সোনা বা ভূমিকার জন্য একটির বেশি নির্দেশ না দেওয়ার চেষ্টা করুন। দীর্ঘ, বহু-পৃষ্ঠার নির্দেশের পরিবর্তে, প্রম্পট চেইনিং ব্যবহার করার কথা বিবেচনা করুন। একক ফাংশন কলযুক্ত কাজগুলিতে মডেল সবচেয়ে ভালো পারফর্ম করে।
প্রারম্ভিক কমান্ড এবং তথ্য প্রদান করুন: Live API সাড়া দেওয়ার আগে ব্যবহারকারীর ইনপুট আশা করে। Live API-কে কথোপকথন শুরু করানোর জন্য, ব্যবহারকারীকে অভিবাদন জানাতে বা কথোপকথন শুরু করতে বলার জন্য একটি প্রম্পট অন্তর্ভুক্ত করুন। Live API-কে সেই অভিবাদনটি ব্যক্তিগতকৃত করার জন্য ব্যবহারকারী সম্পর্কে তথ্য অন্তর্ভুক্ত করুন।

ভাষা নির্দিষ্ট করুন

Live API cascaded gemini-live-2.5-flash এ সর্বোত্তম পারফরম্যান্সের জন্য, নিশ্চিত করুন যে API-এর language_code ব্যবহারকারীর ভাষার সাথে মেলে।

যদি মডেলটি ইংরেজি ছাড়া অন্য কোনো ভাষায় সাড়া দেবে বলে প্রত্যাশা করা হয়, তাহলে আপনার সিস্টেম নির্দেশাবলীর অংশ হিসেবে নিম্নলিখিত বিষয়গুলো অন্তর্ভুক্ত করুন:

RESPOND IN {OUTPUT_LANGUAGE}. YOU MUST RESPOND UNMISTAKABLY IN {OUTPUT_LANGUAGE}.

স্ট্রিমিং

রিয়েল-টাইম অডিও বাস্তবায়নের সময় এই সর্বোত্তম অনুশীলনগুলো অনুসরণ করুন:

অডিওর খণ্ডের আকার ও বিলম্ব : অডিও ২০ থেকে ৪০ মিলিসেকেন্ডের খণ্ডে পাঠান।
বাধা ব্যবস্থাপনা : মডেল উত্তর দেওয়ার সময় ব্যবহারকারী কথা বললে, সার্ভার "interrupted": true সহ একটি server_content বার্তা পাঠায়। এজেন্ট যাতে ব্যবহারকারীর কথার মাঝে কথা বলা চালিয়ে যেতে না পারে, সেজন্য আপনাকে অবশ্যই অবিলম্বে আপনার ক্লায়েন্ট-সাইড অডিও বাফারটি বাতিল করতে হবে।

প্রসঙ্গ ব্যবস্থাপনা

দীর্ঘ সেশনের জন্য ContextWindowCompressionConfig ব্যবহার করুন, কারণ নেটিভ অডিও টোকেন দ্রুত জমা হয় (প্রতি সেকেন্ড অডিওতে প্রায় ২৫টি টোকেন)।

ক্লায়েন্ট বাফারিং

পাঠানোর আগে ইনপুট অডিওকে উল্লেখযোগ্য পরিমাণে (যেমন ১ সেকেন্ড) বাফার করবেন না। ল্যাটেন্সি কমাতে ছোট ছোট অংশে (২০ms - ১০০ms) পাঠান।

পুনঃনমুনা

প্রেরণের আগে আপনার ক্লায়েন্ট অ্যাপ্লিকেশনটি যেন মাইক্রোফোন ইনপুটকে (যা প্রায়শই ৪৪.১ কিলোহার্টজ বা ৪৮ কিলোহার্টজ) ১৬ কিলোহার্টজে রিস্যাম্পল করে, তা নিশ্চিত করুন।

সেশন ব্যবস্থাপনা

সেশন লাইফসাইকেল পরিচালনা করতে এবং একটি নির্ভরযোগ্য ব্যবহারকারীর অভিজ্ঞতা নিশ্চিত করতে এই নির্দেশিকাগুলো অনুসরণ করুন:

কন্টেক্সট উইন্ডো কম্প্রেশন সক্রিয় করুন: অডিও টোকেন প্রতি সেকেন্ডে প্রায় ২৫টি হারে জমা হয়। কম্প্রেশন ছাড়া, শুধুমাত্র অডিও সেশন ১৫ মিনিট এবং অডিও-ভিডিও সেশন ২ মিনিটে সীমাবদ্ধ থাকে। সেশনকে অনির্দিষ্টকালের জন্য প্রসারিত করতে কন্টেক্সট উইন্ডো কম্প্রেশন সক্রিয় করুন।
সেশন রিজাম্পশন প্রয়োগ করুন: সার্ভার পর্যায়ক্রমে ওয়েবসকেট সংযোগ রিসেট করতে পারে। কনটেক্সট না হারিয়ে নির্বিঘ্নে পুনরায় সংযোগ করতে সেশন রিজাম্পশন ব্যবহার করুন। SessionResumptionUpdate মেসেজ থেকে সর্বশেষ রিজাম্পশন টোকেনটি সংরক্ষণ করুন এবং পুনরায় সংযোগ করার সময় এটিকে হ্যান্ডেল হিসেবে পাস করুন। শেষ সেশনটি শেষ হওয়ার পর রিজাম্পশন টোকেনগুলো ২ ঘন্টা পর্যন্ত বৈধ থাকে।
GoAway বার্তা পরিচালনা করুন: সার্ভার একটি সংযোগ বিচ্ছিন্ন করার আগে একটি GoAway বার্তা পাঠায়। এই বার্তাটির জন্য অপেক্ষা করুন এবং সংযোগ বন্ধ হওয়ার আগে সুষ্ঠুভাবে কার্যক্রম গুটিয়ে নিতে বা পুনরায় সংযোগ স্থাপন করতে timeLeft ফিল্ডটি ব্যবহার করুন।
generationComplete সিগন্যাল পরিচালনা করুন: মডেলটি কখন একটি প্রতিক্রিয়া তৈরি করা শেষ করেছে তা জানতে generationComplete বার্তাটি ব্যবহার করুন, যাতে আপনার অ্যাপ্লিকেশন তার UI আপডেট করতে বা পরবর্তী কাজে এগিয়ে যেতে পারে।

বাস্তবায়নের বিস্তারিত তথ্যের জন্য, সেশন ম্যানেজমেন্ট দেখুন।

উদাহরণ

এই উদাহরণটি একটি ক্যারিয়ার কোচ হিসেবে মডেলের কর্মক্ষমতাকে পরিচালিত করার জন্য সিস্টেম নির্দেশনা ডিজাইনের সর্বোত্তম অনুশীলন এবং নির্দেশিকা উভয়কেই একত্রিত করে।

**Persona:**
You are Laura, a career coach from Brooklyn, NY. You specialize in providing
data driven advice to give your clients a fresh perspective on the career
questions they're navigating. Your special sauce is providing quantitative,
data-driven insights to help clients think about their issues in a different
way. You leverage statistics, research, and psychology as much as possible.
You only speak to your clients in English, no matter what language they speak
to you in.

**Conversational Rules:**

1. **Introduce yourself:** Warmly greet the client.

2. **Intake:** Ask for your client's full name, date of birth, and state they're
calling in from. Call `create_client_profile` to create a new patient profile.

3. **Discuss the client's issue:** Get a sense of what the client wants to
cover in the session. DO NOT repeat what the client is saying back to them in
your response. Don't ask more than a few questions here.

4. **Reframe the client's issue with real data:** NO PLATITUDES. Start providing
data-driven insights for the client, but embed these as general facts within
conversation. This is what they're coming to you for: your unique thinking on
the subjects that are stressing them out. Show them a new way of thinking about
something. Let this step go on for as long as the client wants. As part of this,
if the client mentions wanting to take any actions, update
`add_action_items_to_profile` to remind the client later.

5. **Next appointment:** Call `get_next_appointment` to see if another
appointment has already been scheduled for the client. If so, then share the
date and time with the client and confirm if they'll be able to attend. If
there is no appointment, then call `get_available_appointments` to see openings.
Share the list of openings with the client and ask what they would prefer. Save
their preference with `schedule_appointment`. If the client prefers to schedule
offline, then let them know that's perfectly fine and to use the patient portal.

**General Guidelines:** You're meant to be a witty, snappy conversational
partner. Keep your responses short and progressively disclose more information
if the client requests it. Don't repeat back what the client says back to them.
Each response you give should be a net new addition to the conversation, not a
recap of what the client said. Be relatable by bringing in your own background 
growing up professionally in Brooklyn, NY. If a client tries to get you off
track, gently bring them back to the workflow articulated above.

**Guardrails:** If the client is being hard on themselves, never encourage that.
Remember that your ultimate goal is to create a supportive environment for your
clients to thrive.

টুল সংজ্ঞা

এই JSON-টি ক্যারিয়ার কোচ উদাহরণে ব্যবহৃত প্রাসঙ্গিক ফাংশনগুলোকে সংজ্ঞায়িত করে। ফাংশন সংজ্ঞায়িত করার সময় সর্বোত্তম ফলাফলের জন্য, সেগুলোর নাম, বিবরণ, প্যারামিটার এবং আহ্বানের শর্তাবলী অন্তর্ভুক্ত করুন।

[
 {
   "name": "create_client_profile",
   "description": "Creates a new client profile with their personal details. Returns a unique client ID. \n**Invocation Condition:** Invoke this tool *only after* the client has provided their full name, date of birth, AND state. This should only be called once at the beginning of the 'Intake' step.",
   "parameters": {
     "type": "object",
     "properties": {
       "full_name": {
         "type": "string",
         "description": "The client's full name."
       },
       "date_of_birth": {
         "type": "string",
         "description": "The client's date of birth in YYYY-MM-DD format."
       },
       "state": {
         "type": "string",
         "description": "The 2-letter postal abbreviation for the client's state (e.g., 'NY', 'CA')."
       }
     },
     "required": ["full_name", "date_of_birth", "state"]
   }
 },
 {
   "name": "add_action_items_to_profile",
   "description": "Adds a list of actionable next steps to a client's profile using their client ID. \n**Invocation Condition:** Invoke this tool *only after* a list of actionable next steps has been discussed and agreed upon with the client during the 'Actions' step. Requires the `client_id` obtained from the start of the session.",
   "parameters": {
     "type": "object",
     "properties": {
       "client_id": {
         "type": "string",
         "description": "The unique ID of the client, obtained from create_client_profile."
       },
       "action_items": {
         "type": "array",
         "items": {
           "type": "string"
         },
         "description": "A list of action items for the client (e.g., ['Update resume', 'Research three companies'])."
       }
     },
     "required": ["client_id", "action_items"]
   }
 },
 {
   "name": "get_next_appointment",
   "description": "Checks if a client has a future appointment already scheduled using their client ID. Returns the appointment details or null. \n**Invocation Condition:** Invoke this tool at the *start* of the 'Next Appointment' workflow step, immediately after the 'Actions' step is complete. This is used to check if an appointment *already exists*.",
   "parameters": {
     "type": "object",
     "properties": {
       "client_id": {
         "type": "string",
         "description": "The unique ID of the client."
       }
     },
     "required": ["client_id"]
   }
 },
 {
   "name": "get_available_appointments",
   "description": "Fetches a list of the next available appointment slots. \n**Invocation Condition:** Invoke this tool *only if* the `get_next_appointment` tool was called and it returned `null` (or an empty response), indicating no future appointment is scheduled.",
   "parameters": {
     "type": "object",
     "properties": {}
   }
 },
 {
   "name": "schedule_appointment",
   "description": "Books a new appointment for a client at a specific date and time. \n**Invocation Condition:** Invoke this tool *only after* `get_available_appointments` has been called, a list of openings has been presented to the client, and the client has *explicitly confirmed* which specific date and time they want to book.",
   "parameters": {
     "type": "object",
     "properties": {
       "client_id": {
         "type": "string",
         "description": "The unique ID of the client."
       },
       "appointment_datetime": {
         "type": "string",
         "description": "The chosen appointment slot in ISO 8601 format (e.g., '2025-10-30T14:30:00')."
       }
     },
     "required": ["client_id", "appointment_datetime"]
   }
 }
]

মূল্য নির্ধারণ এবং বিলিং

জেমিনি লাইভ এপিআই শুধুমাত্র টোকেন ব্যবহারের ভিত্তিতে বিল করে। যেহেতু লাইভ এপিআই একটি স্থায়ী ওয়েবসকেট সেশন বজায় রাখে, তাই সক্রিয় কনটেক্সট উইন্ডোর উপর ভিত্তি করে বিলিং একটি চক্রবৃদ্ধি মডেল অনুসরণ করে।

সেশন প্রসঙ্গ উইন্ডো (চক্রবৃদ্ধি খরচ)

সেশন কনটেক্সট উইন্ডোতে উপস্থিত সমস্ত টোকেনের জন্য এপিআই আপনাকে প্রতি টার্নে চার্জ করে। একটি "টার্ন" বলতে ব্যবহারকারীর একটি ইনপুট এবং মডেলের সংশ্লিষ্ট প্রতিক্রিয়াকে বোঝায়।

সঞ্চয়ন: কনটেক্সট উইন্ডোতে বর্তমান টার্নের নতুন টোকেনগুলোর পাশাপাশি পূর্ববর্তী টার্নগুলো থেকে সঞ্চিত সমস্ত টোকেনও অন্তর্ভুক্ত থাকে।
পুনঃ-বিলিং: আপনার কনফিগার করা কনটেক্সট উইন্ডো সাইজ পর্যন্ত, প্রতিটি নতুন টার্নে পূর্ববর্তী টোকেনগুলো পুনরায় প্রসেস করা হয় এবং হিসাব করা হয়। সেশন দীর্ঘ হওয়ার সাথে সাথে প্রতি টার্নের খরচ বৃদ্ধি পায়, কারণ কথোপকথনের ইতিহাস পুনরায় প্রসেস করা হয়।

অডিও টোকেন এবং ট্রান্সক্রিপশন

লাইভ এপিআই স্বভাবতই মাল্টিমোডাল। এটি ধ্বনিগত সূক্ষ্মতা এবং সুর অক্ষুণ্ণ রাখতে কথোপকথনের ইতিহাসকে কাঁচা অডিও টোকেন হিসেবে সংরক্ষণ করে।

অডিও বিলিং: এপিআই প্রতিবার জমা হওয়া নেটিভ অডিও টোকেনগুলোর জন্য স্ট্যান্ডার্ড অডিও ইনপুট রেটে আপনাকে বিল করে।
ট্রান্সক্রিপশন সারচার্জ: যখন অডিও-টু-টেক্সট ট্রান্সক্রিপশন সক্রিয় করা হয় ( inputAudioTranscription বা outputAudioTranscription ), তখন API সাধারণ অডিও টোকেন খরচের পাশাপাশি ট্রান্সক্রিপশনের জন্য তৈরি হওয়া সমস্ত টেক্সট টোকেনের জন্য টেক্সট টোকেন আউটপুট হারে চার্জ করে।

প্রেক্ষাপটের সীমাবদ্ধতা মাথায় রেখে ব্যয় ব্যবস্থাপনা

দীর্ঘ সেশনে খরচের অনিয়ন্ত্রিত বৃদ্ধি রোধ করতে, contextWindowCompression ব্যবহার করে আপনার কনটেক্সট উইন্ডোর আকার কনফিগার করুন।

একটি কম্প্রেশন ট্রিগার (যেমন, ২৫,০০০ টোকেন) এবং একটি স্লাইডিং উইন্ডো (যেমন, ৮,০০০ টোকেন) সেট করার মাধ্যমে, নির্দিষ্ট সীমায় পৌঁছালে API স্বয়ংক্রিয়ভাবে পুরোনো টোকেনগুলো বাতিল করে দেয়। এরপর API পরবর্তী পালাগুলোতে শুধুমাত্র সংরক্ষিত হিস্টরি এবং যেকোনো নতুন টোকেনের জন্য বিল করে।

প্রোঅ্যাক্টিভ অডিও মোড

যখন প্রোঅ্যাক্টিভ অডিও মোড চালু থাকে, তখন লাইভ এপিআই শোনার পুরো সময় জুড়ে ইনপুট টোকেন চার্জ করা হয়, অপরদিকে আউটপুট টোকেন শুধুমাত্র এপিআই সাড়া দিলেই চার্জ করা হয়।

জেমিনি ৩.১-এর জন্য দ্রষ্টব্য: gemini-3.1-flash-live-preview মডেলে প্রোঅ্যাক্টিভ অডিও মোড সমর্থিত নয়। এই মডেলের ক্ষেত্রে, শুধুমাত্র সক্রিয়ভাবে ইনপুট স্ট্রিমিং করার সময়ই অডিওর জন্য বিল করা হবে।

মূল্য সংক্রান্ত বিস্তারিত তথ্যের জন্য, জেমিনি এপিআই মূল্য তালিকা পৃষ্ঠাটি দেখুন।