Poznaj możliwości audio dzięki interfejsowi Gemini API

Gemini może odpowiadać na pytania o dźwięk. Gemini może na przykład:

  • opisywać, streszczać lub odpowiadać na pytania dotyczące treści audio;
  • Podaj transkrypcję nagrania.
  • Podaj odpowiedzi lub transkrypcję dotyczącą konkretnego fragmentu nagrania.
.

W tym przewodniku omawiamy różne sposoby:

  • Przekazuj dźwięk do modelu Gemini.
  • Zapytaj model Gemini o dźwięk.

Obsługiwane formaty audio

Gemini obsługuje następujące typy MIME plików audio:

  • WAV – audio/WAV
  • MP3 – audio/mp3
  • AIFF – audio/aiff
  • AAC – audio/AAC
  • OGG Vorbis – audio/ogg
  • FLAC – audio/flac

Szczegóły techniczne dźwięku

Gemini nakłada te reguły na dźwięk:

  • Gemini reprezentuje każdą sekundę dźwięku jako 25 tokenów. np. minuta nagrania dźwiękowego jest przedstawiana jako 1500 tokenów.
  • Gemini jest w stanie wywnioskować odpowiedzi tylko na mowę po angielsku.
  • Gemini może „rozumieć” komponentów innych niż mowa, takich jak śpiew ptaków czy syreny.
  • Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny. Gemini nie ogranicza liczby plików audio w jednym prompcie. jednak łączna długość wszystkich plików audio w jednym prompcie nie może przekroczyć 9,5 godziny.
  • Gemini zmniejsza próbkowanie plików audio do rozdzielczości 16 kb/s.
  • Jeśli źródło dźwięku zawiera kilka kanałów, Gemini połączy je. do jednego kanału.