Gemini की Deep Research की सुविधा अब झलक के तौर पर उपलब्ध है. इसमें साथ मिलकर प्लान बनाने, विज़ुअलाइज़ेशन, एमसीपी के साथ काम करने की सुविधा वगैरह शामिल है.

Gemini Live API overview

Live API की मदद से, Gemini के साथ कम समय में रीयल-टाइम में आवाज़ और विज़न से जुड़ी बातचीत की जा सकती है. यह ऑडियो, इमेज, और टेक्स्ट की लगातार स्ट्रीम को प्रोसेस करता है, ताकि इंसानों जैसी आवाज़ में तुरंत जवाब दिया जा सके. इससे आपके उपयोगकर्ताओं को बातचीत का नैचुरल अनुभव मिलता है.

Live API के बारे में खास जानकारी

Google AI Studio में Live API आज़माएं GitHub से उदाहरण ऐप्लिकेशन क्लोन करें कोडिंग एजेंट की सुविधाएं इस्तेमाल करें

उपयोग के उदाहरण

Live API का इस्तेमाल, कई तरह के उद्योगों के लिए रीयल-टाइम में काम करने वाले वॉइस एजेंट बनाने के लिए किया जा सकता है. जैसे:

ई-कॉमर्स और खुदरा कारोबार: शॉपिंग असिस्टेंट, लोगों की दिलचस्पी के हिसाब से सुझाव देती हैं. साथ ही, सहायता एजेंट, खरीदारों की समस्याओं को हल करते हैं.
गेमिंग: इंटरैक्टिव नॉन-प्लेयर कैरेक्टर (एनपीसी), गेम में मदद करने वाले असिस्टेंट, और गेम में मौजूद कॉन्टेंट का रीयल-टाइम में अनुवाद करने की सुविधा.
नेक्स्ट जनरेशन इंटरफ़ेस: रोबोटिक्स, स्मार्ट ग्लास, और वाहनों में आवाज़ और वीडियो की सुविधा वाले अनुभव.
स्वास्थ्य सेवा: मरीज़ों की मदद करने और उन्हें जानकारी देने के लिए स्वास्थ्य से जुड़े कंपैनियन.
वित्तीय सेवाएं: संपत्ति प्रबंधन और निवेश के लिए एआई सलाहकार की सुविधा.
शिक्षा: एआई मेंटर और सीखने वाले लोगों के लिए कंपैनियन, जो उनके हिसाब से निर्देश और सुझाव देते हैं.

मुख्य सुविधाएं

Live API में, आवाज़ से काम करने वाले एजेंट बनाने के लिए कई सुविधाएं उपलब्ध हैं:

कई भाषाओं में उपलब्ध: इसकी मदद से, 70 भाषाओं में बातचीत की जा सकती है.
बार्ज-इन: उपयोगकर्ता, जवाब देने वाले इंटरैक्शन के लिए किसी भी समय मॉडल को बाधित कर सकते हैं.
टूल का इस्तेमाल करना: इसमें फ़ंक्शन कॉलिंग और Google Search जैसे टूल इंटिग्रेट किए जाते हैं, ताकि डाइनैमिक इंटरैक्शन किया जा सके.
ऑडियो ट्रांसक्रिप्शन: इसमें उपयोगकर्ता के इनपुट और मॉडल के आउटपुट, दोनों के टेक्स्ट ट्रांसक्रिप्ट शामिल होते हैं.
पहले से तैयार जवाब देने की सुविधा: इस सुविधा की मदद से, यह कंट्रोल किया जा सकता है कि मॉडल कब और किन संदर्भों में जवाब दे.
भावनाओं के हिसाब से बातचीत करना: इसमें जवाब देने की स्टाइल और टोन को, उपयोगकर्ता के इनपुट के हिसाब से बदला जाता है.

तकनीकी जानकारी

यहां दी गई टेबल में, Live API की तकनीकी खास जानकारी दी गई है:

कैटगरी	विवरण
इनपुट के तरीके	ऑडियो (रॉ 16-बिट पीसीएम ऑडियो, 16 किलोहर्ट्ज़, लिटिल-एंडियन), इमेज (JPEG <= 1 एफ़पीएस), टेक्स्ट
आउटपुट के तरीके	ऑडियो (रॉ 16-बिट पीसीएम ऑडियो, 24 किलोहर्ट्ज़, लिटिल-एंडियन)
प्रोटोकॉल	स्टेटफ़ुल WebSocket कनेक्शन (WSS)

लागू करने का तरीका चुनना

Live API के साथ इंटिग्रेट करते समय, आपको लागू करने के लिए इनमें से कोई एक तरीका चुनना होगा:

सर्वर-टू-सर्वर: आपका बैकएंड, WebSockets का इस्तेमाल करके Live API से कनेक्ट होता है. आम तौर पर, आपका क्लाइंट स्ट्रीम डेटा (ऑडियो, वीडियो, टेक्स्ट) को आपके सर्वर पर भेजता है. इसके बाद, सर्वर इसे Live API को भेजता है.
क्लाइंट-टू-सर्वर: आपका फ़्रंटएंड कोड, डेटा स्ट्रीम करने के लिए सीधे तौर पर Live API से कनेक्ट होता है. इसके लिए, WebSockets का इस्तेमाल किया जाता है. इसमें आपके बैकएंड को शामिल नहीं किया जाता.

ध्यान दें: क्लाइंट-टू-सर्वर, आम तौर पर ऑडियो और वीडियो स्ट्रीम करने के लिए बेहतर परफ़ॉर्मेंस देता है. ऐसा इसलिए, क्योंकि इसमें स्ट्रीम को पहले अपने बैकएंड पर भेजने की ज़रूरत नहीं होती. इसे सेट अप करना भी आसान है, क्योंकि आपको ऐसे प्रॉक्सी को लागू करने की ज़रूरत नहीं होती जो आपके क्लाइंट से आपके सर्वर और फिर आपके सर्वर से एपीआई को डेटा भेजता है. हालांकि, प्रोडक्शन एनवायरमेंट के लिए, सुरक्षा से जुड़े जोखिमों को कम करने के लिए, हम स्टैंडर्ड एपीआई कुंजियों के बजाय कुछ समय के लिए मान्य टोकन इस्तेमाल करने का सुझाव देते हैं.

अपनी प्रोफ़ाइल बनाना शुरू करें

अपने डेवलपमेंट एनवायरमेंट से मेल खाने वाली गाइड चुनें:

सर्वर-टू-सर्वर

GenAI SDK ट्यूटोरियल

Python बैकएंड के साथ रीयल-टाइम में मल्टीमॉडल ऐप्लिकेशन बनाने के लिए, GenAI SDK का इस्तेमाल करके Gemini Live API से कनेक्ट करें.

क्लाइंट-टू-सर्वर

WebSocket ट्यूटोरियल

WebSockets का इस्तेमाल करके, Gemini Live API से कनेक्ट करें. इससे JavaScript फ़्रंटएंड और कुछ समय के लिए मान्य टोकन के साथ, रीयल-टाइम में मल्टीमॉडल ऐप्लिकेशन बनाया जा सकता है.

Agent development kit

ADK ट्यूटोरियल

कोई एजेंट बनाएं और आवाज़ और वीडियो के ज़रिए बातचीत करने की सुविधा चालू करने के लिए, एजेंट डेवलपमेंट किट (एडीके) स्ट्रीमिंग का इस्तेमाल करें.

पार्टनर इंटिग्रेशन

रीयल-टाइम में ऑडियो और वीडियो ऐप्लिकेशन को आसानी से डेवलप करने के लिए, तीसरे पक्ष के इंटिग्रेशन का इस्तेमाल किया जा सकता है. यह इंटिग्रेशन, WebRTC या WebSockets के बजाय Gemini Live API के साथ काम करता है.

LiveKit

LiveKit एजेंट के साथ Gemini Live API का इस्तेमाल करें.

Pipecat by Daily

Gemini Live और Pipecat का इस्तेमाल करके, रीयल-टाइम में एआई चैटबॉट बनाएं.

Software Mansion का Fishjam

Fishjam की मदद से, लाइव वीडियो और ऑडियो स्ट्रीमिंग ऐप्लिकेशन बनाएं.

स्ट्रीम के हिसाब से विज़न एजेंट

Vision Agents की मदद से, रीयल-टाइम में वॉइस और वीडियो एआई ऐप्लिकेशन बनाएं.

Voximplant

Voximplant की मदद से, आने वाले और जाने वाले कॉल को Live API से कनेक्ट करें.

अगोरा

Agora की मदद से, रीयल-टाइम में बातचीत करने वाले एआई ऐप्लिकेशन बनाएं.

Firebase AI SDK

Firebase AI Logic का इस्तेमाल करके, Gemini Live API का इस्तेमाल शुरू करें.