Gemini 3.1 Flash की लाइव बातचीत की सुविधा की झलक

Gemini 3.1 Flash Live Preview, कम समय में ऑडियो से ऑडियो जनरेट करने वाला मॉडल है. इसे रीयल-टाइम में बातचीत करने और बोलकर बातचीत करने वाले एआई ऐप्लिकेशन के लिए ऑप्टिमाइज़ किया गया है. इसमें आवाज़ की बारीकियों का पता लगाने, संख्या से जुड़ी जानकारी को सटीक तरीके से प्रोसेस करने, और मल्टीमॉडल की जानकारी को समझने की क्षमता है.

दस्तावेज़

सुविधाओं और क्षमताओं के बारे में पूरी जानकारी पाने के लिए, Live API की गाइड पर जाएं.

gemini-3.1-flash-live-preview

प्रॉपर्टी ब्यौरा
मॉडल कोड gemini-3.1-flash-live-preview
इस्तेमाल किए जा सकने वाले डेटा टाइप

इनपुट

टेक्स्ट, इमेज, ऑडियो, वीडियो

आउटपुट

टेक्स्ट और ऑडियो

टोकन की सीमाएं[*]

इनपुट टोकन की सीमा

131,072

आउटपुट टोकन की सीमा

65,536

मिलने वाली अनुमतियां

ऑडियो जनरेट करने की सुविधा

काम करता है

Batch API

काम नहीं करता है

कैश मेमोरी में सेव होना

काम नहीं करता है

कोड को चलाने की सुविधा

काम नहीं करता है

फ़ाइल खोजना

काम नहीं करता है

फ़ंक्शन कॉलिंग

काम करता है

Google Maps की मदद से जवाब पाना

काम नहीं करता है

इमेज जनरेट करना

काम नहीं करता है

Live API

काम करता है

भरोसेमंद स्रोतों से जानकारी लेना

काम करता है

स्ट्रक्चर्ड आउटपुट

काम नहीं करता है

सोचना

काम करता है

यूआरएल का कॉन्टेक्स्ट

काम नहीं करता है

वर्शन
ज़्यादा जानकारी के लिए, मॉडल वर्शन के पैटर्न पढ़ें.
  • झलक देखें: gemini-3.1-flash-live-preview
नया अपडेट मार्च 2026
जानकारी न मिलना जनवरी 2025

Gemini 2.5 Flash Live से माइग्रेट करना

Gemini 3.1 Flash की लाइव झलक, कम समय में जवाब देने और रीयल-टाइम में बातचीत करने के लिए ऑप्टिमाइज़ की गई है. gemini-2.5-flash-native-audio-preview-12-2025 से माइग्रेट करते समय, इन बातों का ध्यान रखें:

  • मॉडल स्ट्रिंग: अपनी मॉडल स्ट्रिंग को gemini-2.5-flash-native-audio-preview-12-2025 से gemini-3.1-flash-live-preview पर अपडेट करें.
  • सोचने की प्रोसेस का कॉन्फ़िगरेशन: Gemini 3.1, thinkingBudget के बजाय thinkingLevel (minimal, low, medium, और high जैसी सेटिंग के साथ) का इस्तेमाल करता है. डिफ़ॉल्ट रूप से, इंतज़ार के समय को कम करने के लिए minimal को चुना जाता है. सोचने के लेवल और बजट देखें.
  • सर्वर इवेंट: अब एक BidiGenerateContentServerContent इवेंट में एक साथ कॉन्टेंट के कई हिस्से शामिल किए जा सकते हैं. उदाहरण के लिए, ऑडियो के छोटे-छोटे हिस्से और ट्रांसक्रिप्ट. अपने कोड को अपडेट करें, ताकि हर इवेंट में सभी हिस्सों को प्रोसेस किया जा सके. इससे कॉन्टेंट के छूटने की समस्या नहीं होगी.
  • क्लाइंट का कॉन्टेंट: send_client_content का इस्तेमाल सिर्फ़ शुरुआती कॉन्टेक्स्ट के इतिहास को सीड करने के लिए किया जा सकता है. इसके लिए, history_config में initial_history_in_client_content सेट करना ज़रूरी है. बातचीत के दौरान टेक्स्ट अपडेट भेजने के लिए, send_realtime_input का इस्तेमाल करें. कॉन्टेंट में धीरे-धीरे होने वाले अपडेट देखें.
  • टर्न कवरेज: यह TURN_INCLUDES_ONLY_ACTIVITY के बजाय, डिफ़ॉल्ट रूप से TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO पर सेट होता है. मॉडल के जवाब में अब ऑडियो गतिविधि और सभी वीडियो फ़्रेम शामिल हैं. अगर आपका ऐप्लिकेशन लगातार वीडियो फ़्रेम भेजता है, तो आपको अपने ऐप्लिकेशन को अपडेट करना चाहिए. इससे, सिर्फ़ तब वीडियो फ़्रेम भेजे जाएंगे, जब ऑडियो गतिविधि होगी. इससे आपको अतिरिक्त शुल्क नहीं देना पड़ेगा.
  • एसिंक फ़ंक्शन को कॉल करना: फ़िलहाल, यह सुविधा उपलब्ध नहीं है. फ़ंक्शन कॉलिंग सिर्फ़ सिंक्रोनस होती है. जब तक टूल का जवाब नहीं भेजा जाता, तब तक मॉडल जवाब देना शुरू नहीं करेगा. एसिंक्रोनस फ़ंक्शन कॉल करना लेख पढ़ें.
  • पहले से ऑडियो और बातचीत के दौरान भावनाओं का पता लगाने की सुविधा: ये सुविधाएँ फ़िलहाल Gemini 3.1 Flash Live में काम नहीं करती हैं. अपने कोड से, इन सुविधाओं के लिए कॉन्फ़िगरेशन हटाएं. प्रोऐक्टिव ऑडियो और भावनाओं के हिसाब से बातचीत करना सेक्शन देखें.

अलग-अलग सुविधाओं की विस्तार से तुलना देखने के लिए, सुविधाओं की गाइड में मॉडल की तुलना करने वाली टेबल देखें.