Poznaj możliwości audio dzięki interfejsowi Gemini API
Zadbaj o dobrą organizację dzięki kolekcji
Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.
Gemini może odpowiadać na pytania o dźwięk. Gemini może na przykład:
opisywać, streszczać lub odpowiadać na pytania dotyczące treści audio;
Podaj transkrypcję nagrania.
Podaj odpowiedzi lub transkrypcję dotyczącą konkretnego fragmentu nagrania.
.
W tym przewodniku omawiamy różne sposoby:
Przekazuj dźwięk do modelu Gemini.
Zapytaj model Gemini o dźwięk.
Obsługiwane formaty audio
Gemini obsługuje następujące typy MIME plików audio:
WAV – audio/WAV
MP3 – audio/mp3
AIFF – audio/aiff
AAC – audio/AAC
OGG Vorbis – audio/ogg
FLAC – audio/flac
Szczegóły techniczne dźwięku
Gemini nakłada te reguły na dźwięk:
Gemini reprezentuje każdą sekundę dźwięku jako 25 tokenów. np.
minuta nagrania dźwiękowego jest przedstawiana jako 1500 tokenów.
Gemini jest w stanie wywnioskować odpowiedzi tylko na mowę po angielsku.
Gemini może „rozumieć” komponentów innych niż mowa, takich jak śpiew ptaków czy syreny.
Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny.
Gemini nie ogranicza liczby plików audio w jednym prompcie. jednak
łączna długość wszystkich plików audio w jednym prompcie nie może przekroczyć
9,5 godziny.
Gemini zmniejsza próbkowanie plików audio do rozdzielczości 16 kb/s.
Jeśli źródło dźwięku zawiera kilka kanałów, Gemini połączy je.
do jednego kanału.