Multimodal Live API की मदद से, कम इंतज़ार के साथ दोतरफ़ा इंटरैक्शन किया जा सकता है. इसमें टेक्स्ट, ऑडियो, और वीडियो इनपुट का इस्तेमाल किया जाता है. साथ ही, ऑडियो और टेक्स्ट आउटपुट भी मिलता है. इसकी मदद से, इंसानों जैसी आवाज़ में बातचीत की जा सकती है. साथ ही, मॉडल को कभी भी बीच में रोका जा सकता है. वीडियो को समझने की मॉडल की सुविधा की मदद से, कम्यूनिकेशन के तरीकों को बेहतर बनाया जा सकता है. इसकी मदद से, कैमरे से ली गई इमेज या स्क्रीनकास्ट शेयर किए जा सकते हैं और उनके बारे में सवाल पूछे जा सकते हैं.
मल्टीमोडल लाइव एपीआई में ये मुख्य सुविधाएं शामिल हैं:
- मल्टीमोडैलिटी: मॉडल देख सकता है, सुन सकता है, और बोल सकता है.
- कम इंतज़ार वाला रीयल-टाइम इंटरैक्शन: यह मॉडल तेज़ी से जवाब दे सकता है.
- सेशन मेमोरी: मॉडल, एक ही सेशन में हुए सभी इंटरैक्शन की जानकारी सेव रखता है. इससे, पहले सुनी या देखी गई जानकारी को फिर से याद किया जा सकता है.
- फ़ंक्शन कॉल करने, कोड को लागू करने, और टूल के तौर पर Search का इस्तेमाल करने की सुविधा: इसकी मदद से, मॉडल को बाहरी सेवाओं और डेटा सोर्स के साथ इंटिग्रेट किया जा सकता है.
मल्टीमोडल लाइव एपीआई को सर्वर-टू-सर्वर कम्यूनिकेशन के लिए डिज़ाइन किया गया है.
हमारा सुझाव है कि वेब और मोबाइल ऐप्लिकेशन के लिए, Daily पर हमारे पार्टनर के इंटिग्रेशन का इस्तेमाल करें.
इंटिग्रेशन गाइड
सेशन
सेशन, क्लाइंट और Gemini सर्वर के बीच एक WebSocket कनेक्शन दिखाता है.
जब कोई क्लाइंट नया कनेक्शन शुरू करता है, तो सेशन सर्वर के साथ मैसेज शेयर कर सकता है, ताकि:
- Gemini सर्वर पर टेक्स्ट, ऑडियो या वीडियो भेजना.
- Gemini सर्वर से ऑडियो, टेक्स्ट या फ़ंक्शन कॉल के जवाब पाएं.
कनेक्ट होने के बाद, पहले मैसेज में सेशन कॉन्फ़िगरेशन भेजा जाता है. सेशन कॉन्फ़िगरेशन में मॉडल, जनरेशन पैरामीटर, सिस्टम के निर्देश, और टूल शामिल होते हैं.
कॉन्फ़िगरेशन का यह उदाहरण देखें:
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
ज़्यादा जानकारी के लिए, BidiGenerateContentSetup देखें.
मैसेज भेजें
मैसेज, JSON फ़ॉर्मैट में होती हैं. इन्हें WebSocket कनेक्शन पर भेजा जाता है.
मैसेज भेजने के लिए, क्लाइंट को JSON फ़ॉर्मैट की गई स्ट्रिंग में, काम करने वाला क्लाइंट मैसेज भेजना होगा. साथ ही, यह मैसेज किसी ओपन WebSocket कनेक्शन के ज़रिए भेजा जाना चाहिए.
इन्हें भी देखें
- आम तौर पर इस्तेमाल होने वाले एपीआई फ़ील्ड (उदाहरण के लिए,
Content
औरTool
) के बारे में ज़्यादा जानने के लिए, कॉन्टेंट जनरेट करना लेख पढ़ें. - फ़ंक्शन कॉल करने के बारे में ज़्यादा जानें.