Gemini może odpowiadać na pytania o dźwięk. Gemini może na przykład:
- opisywać, streszczać lub odpowiadać na pytania dotyczące treści audio;
- Podaj transkrypcję nagrania.
- Podaj odpowiedzi lub transkrypcję dotyczącą konkretnego fragmentu nagrania.
W tym przewodniku omawiamy różne sposoby:
- Przekazuj dźwięk do modelu Gemini.
- Zapytaj model Gemini o dźwięk.
Obsługiwane formaty audio
Gemini obsługuje następujące typy MIME plików audio:
- WAV – audio/WAV
- MP3 – audio/mp3
- AIFF – audio/aiff
- AAC – audio/AAC
- OGG Vorbis – audio/ogg
- FLAC – audio/flac
Szczegóły techniczne dźwięku
Gemini nakłada te reguły na dźwięk:
- Gemini reprezentuje każdą sekundę dźwięku jako 25 tokenów. np. minuta nagrania dźwiękowego jest przedstawiana jako 1500 tokenów.
- Gemini jest w stanie wywnioskować odpowiedzi tylko na mowę po angielsku.
- Gemini może „rozumieć” komponentów innych niż mowa, takich jak śpiew ptaków czy syreny.
- Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny. Gemini nie ogranicza liczby plików audio w jednym prompcie. jednak łączna długość wszystkich plików audio w jednym prompcie nie może przekroczyć 9,5 godziny.
- Gemini zmniejsza próbkowanie plików audio do rozdzielczości 16 kb/s.
- Jeśli źródło dźwięku zawiera kilka kanałów, Gemini połączy je. do jednego kanału.