Gemini, ऑडियो से जुड़े सवालों के जवाब दे सकता है. उदाहरण के लिए, Gemini ये काम कर सकता है:
- ऑडियो कॉन्टेंट के बारे में बताएं, उसके बारे में खास जानकारी दें या सवालों के जवाब दें.
- ऑडियो की ट्रांसक्रिप्ट उपलब्ध कराएं.
- ऑडियो के किसी सेगमेंट के बारे में जवाब दें या उसकी कोई ट्रांसक्रिप्ट दें.
इस गाइड में, ये काम करने के अलग-अलग तरीके बताए गए हैं:
- ऑडियो को Gemini के किसी मॉडल पर पास करें.
- Gemini मॉडल को ऑडियो के बारे में प्रॉम्प्ट दें.
YouTube पर काम करने वाले ऑडियो फ़ॉर्मैट
Gemini में इस तरह के ऑडियो फ़ॉर्मैट इस्तेमाल किए जा सकते हैं:
- WAV - ऑडियो/wav
- एमपी3 - ऑडियो/mp3
- एआईएफ़एफ़ - ऑडियो/आइफ़
- AAC - ऑडियो/aac
- OGG वोर्बिस - ऑडियो/ogg
- FLAC - ऑडियो/flac
ऑडियो के बारे में तकनीकी जानकारी
Gemini, ऑडियो पर ये नियम लागू करता है:
- Gemini, ऑडियो के हर सेकंड को 25 टोकन के तौर पर दिखाता है; उदाहरण के लिए, एक मिनट के ऑडियो को 1,500 टोकन के तौर पर दिखाया जाता है.
- Gemini सिर्फ़ अंग्रेज़ी भाषा में दिए गए जवाबों का अनुमान लगा सकता है.
- Gemini, "समझ" सकता है बातचीत के अलावा, दूसरी आवाज़ के कॉम्पोनेंट, जैसे कि बर्डसॉन्ग या सायरन.
- एक प्रॉम्प्ट में ज़्यादा से ज़्यादा 9.5 घंटे का ऑडियो डेटा इस्तेमाल किया जा सकता है. Gemini किसी भी प्रॉम्प्ट में ऑडियो फ़ाइलों की संख्या सीमित नहीं करता है; हालांकि, एक प्रॉम्प्ट में सभी ऑडियो फ़ाइलों की कुल लंबाई इससे ज़्यादा नहीं होनी चाहिए 9.5 घंटे.
- Gemini, ऑडियो फ़ाइलों के सैंपल को 16 केबीपीएस डेटा रिज़ॉल्यूशन पर सेट कर देता है.
- अगर ऑडियो सोर्स में कई चैनल हैं, तो Gemini उन चैनलों को एक साथ जोड़ देता है एक चैनल तक सीमित करना है.