יכולות אודיו בעזרת Gemini API

Gemini יכול לתת תשובות להנחיות לגבי אודיו. לדוגמה, Gemini יכול:

  • לתאר את תוכן האודיו, לסכם אותו או לענות על שאלות לגביו.
  • צריך לספק תמליל של האודיו.
  • מספקים תשובות או תמליל לגבי קטע מסוים באודיו.

במדריך הזה מתוארות דרכים שונות:

  • העברת האודיו למודל של Gemini.
  • אפשר להנחות את המודל של Gemini לגבי האודיו.

פורמטים נתמכים של אודיו

Gemini תומך בסוגי ה-MIME הבאים של פורמט אודיו:

  • WAV – אודיו/WAV
  • MP3 - אודיו/mp3
  • AIFF - אודיו/aiff
  • AAC – אודיו/aac
  • OGG Vorbis – אודיו/ogg
  • FLAC – אודיו/flac

פרטים טכניים על אודיו

Gemini אוכף את הכללים הבאים לגבי האודיו:

  • Gemini מייצג כל שנייה של אודיו כ-25 אסימונים. לדוגמה, דקה אחת של אודיו מיוצגת כ-1,500 אסימונים.
  • Gemini יכול להסיק את התשובות רק לדיבור באנגלית.
  • Gemini יכול 'להבין' רכיבים שאינם דיבור, כמו שירי ציפורים או סירנות.
  • האורך המקסימלי הנתמך של נתוני אודיו בהנחיה יחידה הוא 9.5 שעות. Gemini לא מגביל את מספר קובצי האודיו בהנחיה אחת, אבל האורך הכולל של כל קובצי האודיו בהנחיה אחת לא יכול לחרוג מ-9.5 שעות.
  • Gemini מצמצם את קובצי האודיו לרזולוציית נתונים של 16Kbps.
  • אם מקור האודיו מכיל כמה ערוצים, Gemini משלב את הערוצים האלה לערוץ אחד.