Gemini API की मदद से ऑडियो की सुविधाओं के बारे में जानें

Gemini, ऑडियो से जुड़े प्रॉम्प्ट का जवाब दे सकता है. उदाहरण के लिए, Gemini ये काम कर सकता है:

  • ऑडियो कॉन्टेंट के बारे में बताएं, उसकी खास जानकारी दें या उससे जुड़े सवालों के जवाब दें.
  • ऑडियो की ट्रांसक्रिप्ट दें.
  • ऑडियो के किसी खास सेगमेंट के बारे में जवाब या ट्रांसक्रिप्ट दें.

इस गाइड में, Gemini API का इस्तेमाल करके ऑडियो फ़ाइलों और ऑडियो कॉन्टेंट के साथ इंटरैक्ट करने के अलग-अलग तरीके दिखाए गए हैं.

इस्तेमाल किए जा सकने वाले ऑडियो फ़ॉर्मैट

Gemini, ऑडियो फ़ॉर्मैट के इन MIME टाइप के साथ काम करता है:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

ऑडियो के बारे में तकनीकी जानकारी

Gemini, ऑडियो पर ये नियम लागू करता है:

  • Gemini, ऑडियो के हर सेकंड को 25 टोकन के तौर पर दिखाता है. उदाहरण के लिए, एक मिनट के ऑडियो को 1,500 टोकन के तौर पर दिखाया जाता है.
  • Gemini सिर्फ़ अंग्रेज़ी भाषा में बोली गई बातों के जवाब दे सकता है.
  • Gemini, बोली जाने वाली भाषा के अलावा, पक्षियों के गायन या साइरन जैसी आवाज़ों को "समझ" सकता है.
  • किसी एक प्रॉम्प्ट में ऑडियो डेटा की ज़्यादा से ज़्यादा अवधि 9.5 घंटे हो सकती है. Gemini में, एक ही प्रॉम्प्ट में ऑडियो फ़ाइलों की संख्या की कोई सीमा नहीं होती. हालांकि, एक ही प्रॉम्प्ट में सभी ऑडियो फ़ाइलों की कुल अवधि 9.5 घंटे से ज़्यादा नहीं होनी चाहिए.
  • Gemini, ऑडियो फ़ाइलों को 16 केबीपीएस डेटा रिज़ॉल्यूशन में डाउनसैंपल करता है.
  • अगर ऑडियो सोर्स में कई चैनल हैं, तो Gemini उन चैनलों को एक चैनल में जोड़ देता है.

आगे क्या करना है

इस गाइड में, File API का इस्तेमाल करके ऑडियो फ़ाइलें अपलोड करने और फिर ऑडियो इनपुट से टेक्स्ट आउटपुट जनरेट करने का तरीका बताया गया है. ज़्यादा जानने के लिए, ये संसाधन देखें:

  • फ़ाइल के लिए प्रॉम्प्ट करने की रणनीतियां: Gemini API, टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा के साथ प्रॉम्प्ट करने की सुविधा देता है. इसे मल्टीमॉडल प्रॉम्प्ट भी कहा जाता है.
  • सिस्टम के निर्देश: सिस्टम के निर्देशों की मदद से, अपनी ज़रूरतों और इस्तेमाल के उदाहरणों के आधार पर, मॉडल के व्यवहार को कंट्रोल किया जा सकता है.
  • सुरक्षा से जुड़े दिशा-निर्देश: कभी-कभी जनरेटिव एआई मॉडल, अनचाहे आउटपुट देते हैं. जैसे, गलत, पक्षपातपूर्ण या आपत्तिजनक आउटपुट. ऐसे आउटपुट से होने वाले नुकसान को कम करने के लिए, पोस्ट-प्रोसेसिंग और मानवीय आकलन ज़रूरी है.