Gemini Live API के बारे में खास जानकारी

Live API की मदद से, Gemini के साथ कम समय में रीयल-टाइम में आवाज़ और विज़न से जुड़ी बातचीत की जा सकती है. यह ऑडियो, इमेज, और टेक्स्ट की लगातार स्ट्रीम को प्रोसेस करता है, ताकि आपको तुरंत और इंसानों जैसी आवाज़ में जवाब मिल सकें. इससे आपके उपयोगकर्ताओं को बातचीत का नैचुरल अनुभव मिलता है.

Live API के बारे में खास जानकारी

उपयोग के उदाहरण

Live API का इस्तेमाल, कई तरह के उद्योगों के लिए रीयल-टाइम वॉइस एजेंट बनाने के लिए किया जा सकता है. जैसे:

  • ई-कॉमर्स और खुदरा कारोबार: शॉपिंग असिस्टेंट, लोगों की दिलचस्पी के हिसाब से सुझाव देती हैं. साथ ही, सहायता एजेंट, खरीदारों की समस्याओं को हल करते हैं.
  • गेमिंग: इंटरैक्टिव नॉन-प्लेयर कैरेक्टर (एनपीसी), गेम में मदद करने वाले असिस्टेंट, और गेम में मौजूद कॉन्टेंट का रीयल-टाइम में अनुवाद.
  • नेक्स्ट जनरेशन इंटरफ़ेस: रोबोटिक्स, स्मार्ट ग्लास, और वाहनों में आवाज़ और वीडियो की सुविधा वाले अनुभव.
  • स्वास्थ्य सेवा: मरीज़ों की मदद करने और उन्हें शिक्षित करने के लिए स्वास्थ्य से जुड़े कंपैनियन.
  • वित्तीय सेवाएं: संपत्ति प्रबंधन और निवेश के बारे में सलाह देने के लिए एआई सलाहकार.
  • शिक्षा: एआई मेंटर और सीखने वाले लोगों के साथी, जो उनके हिसाब से निर्देश और सुझाव देते हैं.
  • अनुवाद और स्थानीयकरण: बोली गई बातचीत का रीयल-टाइम में और कम समय में अनुवाद किया जा सकता है. इससे अलग-अलग भाषाओं में आसानी से बातचीत की जा सकती है.

मुख्य सुविधाएं

Live API में, आवाज़ से काम करने वाले एजेंट बनाने के लिए कई सुविधाएं उपलब्ध हैं:

तकनीकी जानकारी

यहां दी गई टेबल में, Live API की तकनीकी खास बातें बताई गई हैं:

कैटगरी विवरण
इनपुट के तरीके ऑडियो (रॉ 16-बिट पीसीएम ऑडियो, 16 किलोहर्ट्ज़, लिटिल-एंडियन), इमेज (JPEG <= 1 एफ़पीएस), टेक्स्ट
आउटपुट के तरीके ऑडियो (रॉ 16-बिट पीसीएम ऑडियो, 24 किलोहर्ट्ज़, लिटिल-एंडियन)
प्रोटोकॉल स्टेटफ़ुल WebSocket कनेक्शन (WSS)

लागू करने का तरीका चुनना

Live API के साथ इंटिग्रेट करते समय, आपको लागू करने के लिए इनमें से कोई एक तरीका चुनना होगा:

  • सर्वर-टू-सर्वर: आपका बैकएंड, WebSockets का इस्तेमाल करके Live API से कनेक्ट होता है. आम तौर पर, आपका क्लाइंट स्ट्रीम डेटा (ऑडियो, वीडियो, टेक्स्ट) को आपके सर्वर पर भेजता है. इसके बाद, सर्वर इसे Live API को भेजता है.
  • क्लाइंट-टू-सर्वर: आपका फ़्रंटएंड कोड, डेटा स्ट्रीम करने के लिए सीधे तौर पर Live API से कनेक्ट होता है. इसके लिए, WebSockets का इस्तेमाल किया जाता है. इससे आपका बैकएंड बायपास हो जाता है.

अपनी प्रोफ़ाइल बनाना शुरू करें

अपने डेवलपमेंट एनवायरमेंट के हिसाब से गाइड चुनें:

सर्वर-टू-सर्वर

Python बैकएंड के साथ रीयल-टाइम मल्टीमॉडल ऐप्लिकेशन बनाने के लिए, GenAI SDK का इस्तेमाल करके Gemini Live API से कनेक्ट करें.

क्लाइंट से सर्वर

WebSockets का इस्तेमाल करके, Gemini Live API से कनेक्ट करें. इससे JavaScript फ़्रंटएंड और कुछ समय के लिए उपलब्ध टोकन के साथ, रीयल-टाइम मल्टीमॉडल ऐप्लिकेशन बनाया जा सकता है.

Agent development kit

कोई एजेंट बनाएं और आवाज़ और वीडियो के ज़रिए बातचीत करने की सुविधा चालू करने के लिए, Agent Development Kit (ADK) स्ट्रीमिंग का इस्तेमाल करें.

पार्टनर इंटिग्रेशन

रीयल-टाइम में काम करने वाले ऑडियो और वीडियो ऐप्लिकेशन को आसानी से डेवलप करने के लिए, तीसरे पक्ष के इंटिग्रेशन का इस्तेमाल किया जा सकता है. यह इंटिग्रेशन, WebRTC या WebSockets पर Gemini Live API के साथ काम करता है.