Gemini może odpowiadać na pytania o dźwięk. Gemini może na przykład:
- opisywać, streszczać lub odpowiadać na pytania dotyczące treści audio;
- Podaj transkrypcję nagrania.
- Podaj odpowiedzi lub transkrypcję dotyczącą konkretnego fragmentu nagrania.
W tym przewodniku omawiamy różne sposoby:
- Przekazuj dźwięk do modelu Gemini.
- Zapytaj model Gemini o dźwięk.
Obsługiwane formaty audio
Gemini obsługuje następujące typy MIME plików audio:
- WAV – audio/WAV
- MP3 – audio/mp3
- AIFF – audio/aiff
- AAC – audio/AAC
- OGG Vorbis – audio/ogg
- FLAC – audio/flac
Szczegóły techniczne dźwięku
Gemini nakłada te reguły na dźwięk:
- Gemini reprezentuje każdą sekundę dźwięku jako 25 tokenów; na przykład jedna minuta nagrania dźwiękowego to 1500 tokenów.
- Gemini jest w stanie wywnioskować odpowiedzi tylko na mowę po angielsku.
- Gemini potrafi „rozumieć” komponenty niebędące mową, takie jak śpiew ptaków czy syreny.
- Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny. Gemini nie ogranicza liczby plików audio w jednym prompcie, jednak łączna długość wszystkich plików audio w jednym prompcie nie może przekraczać 9,5 godziny.
- Gemini zmniejsza próbkowanie plików audio do rozdzielczości 16 kb/s.
- Jeśli źródło dźwięku zawiera kilka kanałów, Gemini połączy je w jeden.