Gemini Live API overview

Live API की मदद से, Gemini के साथ कम समय में रीयल-टाइम में आवाज़ और विज़न से जुड़ी बातचीत की जा सकती है. यह ऑडियो, इमेज, और टेक्स्ट की लगातार स्ट्रीम को प्रोसेस करता है, ताकि इंसानों जैसी आवाज़ में तुरंत जवाब दिया जा सके. इससे आपके उपयोगकर्ताओं को बातचीत का नैचुरल अनुभव मिलता है.

Live API के बारे में खास जानकारी

उपयोग के उदाहरण

Live API का इस्तेमाल, कई तरह के उद्योगों के लिए रीयल-टाइम में काम करने वाले वॉइस एजेंट बनाने के लिए किया जा सकता है. जैसे:

  • ई-कॉमर्स और खुदरा कारोबार: शॉपिंग असिस्टेंट, लोगों की दिलचस्पी के हिसाब से सुझाव देती हैं. साथ ही, सहायता एजेंट, खरीदारों की समस्याओं को हल करते हैं.
  • गेमिंग: इंटरैक्टिव नॉन-प्लेयर कैरेक्टर (एनपीसी), गेम में मदद करने वाले असिस्टेंट, और गेम में मौजूद कॉन्टेंट का रीयल-टाइम में अनुवाद करने की सुविधा.
  • नेक्स्ट जनरेशन इंटरफ़ेस: रोबोटिक्स, स्मार्ट ग्लास, और वाहनों में आवाज़ और वीडियो की सुविधा वाले अनुभव.
  • स्वास्थ्य सेवा: मरीज़ों की मदद करने और उन्हें जानकारी देने के लिए स्वास्थ्य से जुड़े कंपैनियन.
  • वित्तीय सेवाएं: संपत्ति प्रबंधन और निवेश के लिए एआई सलाहकार की सुविधा.
  • शिक्षा: एआई मेंटर और सीखने वाले लोगों के लिए कंपैनियन, जो उनके हिसाब से निर्देश और सुझाव देते हैं.

मुख्य सुविधाएं

Live API में, आवाज़ से काम करने वाले एजेंट बनाने के लिए कई सुविधाएं उपलब्ध हैं:

तकनीकी जानकारी

यहां दी गई टेबल में, Live API की तकनीकी खास जानकारी दी गई है:

कैटगरी विवरण
इनपुट के तरीके ऑडियो (रॉ 16-बिट पीसीएम ऑडियो, 16 किलोहर्ट्ज़, लिटिल-एंडियन), इमेज (JPEG <= 1 एफ़पीएस), टेक्स्ट
आउटपुट के तरीके ऑडियो (रॉ 16-बिट पीसीएम ऑडियो, 24 किलोहर्ट्ज़, लिटिल-एंडियन)
प्रोटोकॉल स्टेटफ़ुल WebSocket कनेक्शन (WSS)

लागू करने का तरीका चुनना

Live API के साथ इंटिग्रेट करते समय, आपको लागू करने के लिए इनमें से कोई एक तरीका चुनना होगा:

  • सर्वर-टू-सर्वर: आपका बैकएंड, WebSockets का इस्तेमाल करके Live API से कनेक्ट होता है. आम तौर पर, आपका क्लाइंट स्ट्रीम डेटा (ऑडियो, वीडियो, टेक्स्ट) को आपके सर्वर पर भेजता है. इसके बाद, सर्वर इसे Live API को भेजता है.
  • क्लाइंट-टू-सर्वर: आपका फ़्रंटएंड कोड, डेटा स्ट्रीम करने के लिए सीधे तौर पर Live API से कनेक्ट होता है. इसके लिए, WebSockets का इस्तेमाल किया जाता है. इसमें आपके बैकएंड को शामिल नहीं किया जाता.

अपनी प्रोफ़ाइल बनाना शुरू करें

अपने डेवलपमेंट एनवायरमेंट से मेल खाने वाली गाइड चुनें:

सर्वर-टू-सर्वर

Python बैकएंड के साथ रीयल-टाइम में मल्टीमॉडल ऐप्लिकेशन बनाने के लिए, GenAI SDK का इस्तेमाल करके Gemini Live API से कनेक्ट करें.

क्लाइंट-टू-सर्वर

WebSockets का इस्तेमाल करके, Gemini Live API से कनेक्ट करें. इससे JavaScript फ़्रंटएंड और कुछ समय के लिए मान्य टोकन के साथ, रीयल-टाइम में मल्टीमॉडल ऐप्लिकेशन बनाया जा सकता है.

Agent development kit

कोई एजेंट बनाएं और आवाज़ और वीडियो के ज़रिए बातचीत करने की सुविधा चालू करने के लिए, एजेंट डेवलपमेंट किट (एडीके) स्ट्रीमिंग का इस्तेमाल करें.

पार्टनर इंटिग्रेशन

रीयल-टाइम में ऑडियो और वीडियो ऐप्लिकेशन को आसानी से डेवलप करने के लिए, तीसरे पक्ष के इंटिग्रेशन का इस्तेमाल किया जा सकता है. यह इंटिग्रेशन, WebRTC या WebSockets के बजाय Gemini Live API के साथ काम करता है.