Gemini API की मदद से ऑडियो की सुविधाओं के बारे में जानें

Gemini, ऑडियो से जुड़े सवालों के जवाब दे सकता है. उदाहरण के लिए, Gemini ये काम कर सकता है:

  • ऑडियो कॉन्टेंट के बारे में बताएं, उसके बारे में खास जानकारी दें या सवालों के जवाब दें.
  • ऑडियो की ट्रांसक्रिप्ट उपलब्ध कराएं.
  • ऑडियो के किसी सेगमेंट के बारे में जवाब दें या उसकी ट्रांसक्रिप्ट दें.

इस गाइड में, ये काम करने के अलग-अलग तरीके बताए गए हैं:

  • ऑडियो को Gemini के किसी मॉडल पर पास करें.
  • Gemini मॉडल को ऑडियो के बारे में प्रॉम्प्ट दें.

YouTube पर काम करने वाले ऑडियो फ़ॉर्मैट

Gemini में इन MIME टाइप के ऑडियो फ़ॉर्मैट इस्तेमाल किए जा सकते हैं:

  • WAV - ऑडियो/wav
  • एमपी3 - ऑडियो/mp3
  • एआईएफ़एफ़ - ऑडियो/आइफ़
  • AAC - ऑडियो/aac
  • OGG वोर्बिस - ऑडियो/ogg
  • FLAC - ऑडियो/flac

ऑडियो के बारे में तकनीकी जानकारी

Gemini, ऑडियो पर ये नियम लागू करता है:

  • Gemini, ऑडियो के हर सेकंड को 25 टोकन के तौर पर दिखाता है; उदाहरण के लिए, एक मिनट के ऑडियो को 1,500 टोकन के तौर पर दिखाया जाता है.
  • Gemini सिर्फ़ अंग्रेज़ी भाषा में दिए गए जवाबों का अनुमान लगा सकता है.
  • Gemini, "समझ" सकता है बातचीत के अलावा, दूसरी आवाज़ के कॉम्पोनेंट, जैसे कि बर्डसॉन्ग या सायरन.
  • एक प्रॉम्प्ट में ज़्यादा से ज़्यादा 9.5 घंटे का ऑडियो डेटा इस्तेमाल किया जा सकता है. Gemini किसी भी प्रॉम्प्ट में ऑडियो फ़ाइलों की संख्या सीमित नहीं करता है; हालांकि, एक प्रॉम्प्ट में सभी ऑडियो फ़ाइलों की कुल लंबाई इससे ज़्यादा नहीं होनी चाहिए 9.5 घंटे.
  • Gemini, ऑडियो फ़ाइलों के सैंपल को 16 केबीपीएस डेटा रिज़ॉल्यूशन पर सेट कर देता है.
  • अगर ऑडियो सोर्स में कई चैनल हैं, तो Gemini उन चैनलों को एक साथ जोड़ देता है एक चैनल तक सीमित करना है.