Poznaj możliwości audio dzięki interfejsowi Gemini API

Gemini może odpowiadać na pytania o dźwięk. Gemini może na przykład:

  • opisywać, streszczać lub odpowiadać na pytania dotyczące treści audio;
  • Podaj transkrypcję nagrania.
  • Podaj odpowiedzi lub transkrypcję dotyczącą konkretnego fragmentu nagrania.

W tym przewodniku omawiamy różne sposoby:

  • Przekazuj dźwięk do modelu Gemini.
  • Zapytaj model Gemini o dźwięk.

Obsługiwane formaty audio

Gemini obsługuje następujące typy MIME plików audio:

  • WAV – audio/WAV
  • MP3 – audio/mp3
  • AIFF – audio/aiff
  • AAC – audio/AAC
  • OGG Vorbis – audio/ogg
  • FLAC – audio/flac

Szczegóły techniczne dźwięku

Gemini nakłada te reguły na dźwięk:

  • Gemini reprezentuje każdą sekundę dźwięku jako 25 tokenów; na przykład jedna minuta nagrania dźwiękowego to 1500 tokenów.
  • Gemini jest w stanie wywnioskować odpowiedzi tylko na mowę po angielsku.
  • Gemini potrafi „rozumieć” komponenty niebędące mową, takie jak śpiew ptaków czy syreny.
  • Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny. Gemini nie ogranicza liczby plików audio w jednym prompcie, jednak łączna długość wszystkich plików audio w jednym prompcie nie może przekraczać 9,5 godziny.
  • Gemini zmniejsza próbkowanie plików audio do rozdzielczości 16 kb/s.
  • Jeśli źródło dźwięku zawiera kilka kanałów, Gemini połączy je w jeden.