Gemini יכול להגיב להנחיות לגבי אודיו. לדוגמה, Gemini יכול:
- לתאר, לסכם או לענות על שאלות לגבי תוכן האודיו.
- יש לספק תמליל של האודיו.
- לספק תשובות או תמליל לגבי קטע ספציפי של האודיו.
במדריך הזה מוסבר איך לבצע פעולות שונות בקבצי אודיו ובתוכן אודיו באמצעות Gemini API.
פורמטים נתמכים של קובצי אודיו
Gemini תומך בסוגי ה-MIME הבאים של פורמטים של אודיו:
- WAV –
audio/wav
- MP3 –
audio/mp3
- AIFF –
audio/aiff
- AAC –
audio/aac
- OGG Vorbis –
audio/ogg
- FLAC –
audio/flac
פרטים טכניים על אודיו
מערכת Gemini אוכפת את הכללים הבאים על אודיו:
- מערכת Gemini מייצגת כל שנייה של אודיו כ-25 אסימונים. לדוגמה, דקה אחת של אודיו מיוצגת כ-1,500 אסימונים.
- Gemini יכול להסיק תשובות רק לדיבור באנגלית.
- Gemini יכול "להבין" רכיבים שאינם דיבור, כמו ציוץ ציפורים או סירנות.
- האורך המקסימלי של נתוני אודיו בהנחיה אחת הוא 9.5 שעות. אין הגבלה על מספר קובצי האודיו בהנחיה אחת ב-Gemini, אבל האורך הכולל של כל קובצי האודיו בהנחיה אחת לא יכול לחרוג מ-9.5 שעות.
- מערכת Gemini מבצעת דגימה לאחור של קובצי אודיו לרזולוציית נתונים של 16Kbps.
- אם מקור האודיו מכיל כמה ערוצים, Gemini משלבת את הערוצים האלה לערוץ אחד.
המאמרים הבאים
במדריך הזה מוסבר איך מעלים קובצי אודיו באמצעות File API, ואז יוצרים פלט טקסט ממקורות אודיו. מידע נוסף זמין במשאבים הבאים:
- אסטרטגיות להצגת בקשות להעלאת קבצים: Gemini API תומך בהצגת בקשות להעלאת קבצים עם נתוני טקסט, תמונות, אודיו ווידאו, שנקראות גם בקשות להצגת נתונים במגוון מודלים.
- הוראות מערכת: הוראות המערכת מאפשרות לכם לקבוע את התנהגות המודל בהתאם לצרכים ולתרחישים הספציפיים שלכם.
- הנחיות בטיחות: לפעמים מודלים של AI גנרטיבי יוצרים תוצאות לא צפויות, כמו תוצאות לא מדויקות, מוטה או פוגעניות. עיבוד תמונה (Post Processing) והערכה אנושית הם חיוניים כדי להגביל את הסיכון לנזק כתוצאה מפלט כזה.