Multimodal Live API

মাল্টিমোডাল লাইভ API অডিও এবং টেক্সট আউটপুট সহ টেক্সট, অডিও এবং ভিডিও ইনপুট ব্যবহার করে এমন লো-লেটেন্সি, দ্বি-মুখী মিথস্ক্রিয়া সক্ষম করে। এটি যেকোন সময় মডেলটিকে বাধা দেওয়ার ক্ষমতা সহ প্রাকৃতিক, মানুষের মতো ভয়েস কথোপকথনের সুবিধা দেয়৷ মডেলের ভিডিও বোঝার ক্ষমতা যোগাযোগের পদ্ধতিকে প্রসারিত করে, আপনাকে ক্যামেরা ইনপুট বা স্ক্রিনকাস্ট শেয়ার করতে এবং সেগুলি সম্পর্কে প্রশ্ন জিজ্ঞাসা করতে সক্ষম করে।

মাল্টিমডাল লাইভ এপিআই নিম্নলিখিত মূল ক্ষমতাগুলি অন্তর্ভুক্ত করে:

  • মাল্টিমোডালিটি : মডেল দেখতে, শুনতে এবং কথা বলতে পারে।
  • কম বিলম্বিত রিয়েলটাইম মিথস্ক্রিয়া : মডেল দ্রুত প্রতিক্রিয়া প্রদান করতে পারে।
  • সেশন মেমরি : মডেলটি একটি একক সেশনের মধ্যে সমস্ত মিথস্ক্রিয়াগুলির স্মৃতি ধরে রাখে, পূর্বে শোনা বা দেখা তথ্য স্মরণ করে।
  • ফাংশন কলিং, কোড এক্সিকিউশন, এবং একটি টুল হিসাবে অনুসন্ধানের জন্য সমর্থন : আপনি মডেলটিকে বাহ্যিক পরিষেবা এবং ডেটা উত্সগুলির সাথে একীভূত করতে পারেন৷

মাল্টিমডাল লাইভ API সার্ভার-টু-সার্ভার যোগাযোগের জন্য ডিজাইন করা হয়েছে।

ওয়েব এবং মোবাইল অ্যাপের জন্য, আমরা দৈনিক আমাদের অংশীদারদের থেকে ইন্টিগ্রেশন ব্যবহার করার পরামর্শ দিই।

ইন্টিগ্রেশন গাইড

সেশন

একটি সেশন ক্লায়েন্ট এবং জেমিনি সার্ভারের মধ্যে একটি একক WebSocket সংযোগ উপস্থাপন করে।

একটি ক্লায়েন্ট একটি নতুন সংযোগ শুরু করার পরে সেশনটি সার্ভারের সাথে বার্তা বিনিময় করতে পারে:

  • Gemini সার্ভারে পাঠ্য, অডিও বা ভিডিও পাঠান।
  • Gemini সার্ভার থেকে অডিও, টেক্সট, বা ফাংশন কল প্রতিক্রিয়া পান।

সংযোগের পর প্রথম বার্তায় সেশন কনফিগারেশন পাঠানো হয়। একটি সেশন কনফিগারেশন মডেল, প্রজন্মের পরামিতি, সিস্টেম নির্দেশাবলী, এবং সরঞ্জাম অন্তর্ভুক্ত।

নিম্নলিখিত উদাহরণ কনফিগারেশন দেখুন:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

আরও তথ্যের জন্য, BidiGenerateContentSetup দেখুন।

বার্তা পাঠান

বার্তা হল JSON-ফরম্যাট করা স্ট্রিং যা WebSocket সংযোগের মাধ্যমে বিনিময় করা হয়।

একটি বার্তা পাঠাতে ক্লায়েন্টকে অবশ্যই একটি সমর্থিত ক্লায়েন্ট বার্তা পাঠাতে হবে একটি JSON ফরম্যাটেড স্ট্রিং-এ একটি খোলা WebSocket সংযোগের একটির সাথে।

এছাড়াও দেখুন

  • সাধারণত-ব্যবহৃত API ক্ষেত্রগুলি সম্পর্কে আরও তথ্যের জন্য (উদাহরণস্বরূপ, Content এবং Tool ), সামগ্রী তৈরি করা দেখুন।
  • ফাংশন কলিং সম্পর্কে আরও জানুন।