Poznaj możliwości audio dzięki interfejsowi Gemini API

Gemini może odpowiadać na prompty dotyczące dźwięku. Gemini może na przykład:

  • opisywać, streszczać lub odpowiadać na pytania dotyczące treści audio;
  • Prześlij transkrypcję nagrania.
  • podawać odpowiedzi lub transkrypcję dotyczące konkretnego fragmentu nagrania audio;

Ten przewodnik pokazuje różne sposoby interakcji z plikami audio i treściami audio za pomocą interfejsu Gemini API.

Obsługiwane formaty audio

Gemini obsługuje te typy MIME formatu audio:

  • WAV – audio/wav
  • MP3 – audio/mp3
  • AIFF – audio/aiff
  • AAC – audio/aac
  • OGG Vorbis – audio/ogg
  • FLAC – audio/flac

Informacje techniczne dotyczące dźwięku

Gemini nakłada na dźwięk następujące reguły:

  • Gemini przedstawia każdą sekundę dźwięku jako 25 tokenów. Na przykład 1 minuta dźwięku to 1500 tokenów.
  • Gemini może udzielać odpowiedzi tylko na wypowiedzi w języku angielskim.
  • Gemini może „rozumieć” elementy niewerbalne, takie jak śpiew ptaków czy syreny.
  • Maksymalna obsługiwana długość danych audio w pojedynczym promptu to 9,5 godziny. Gemini nie ogranicza liczby plików audio w pojedynczym promptzie, ale łączna długość wszystkich plików audio w pojedynczym promptzie nie może przekraczać 9,5 godziny.
  • Gemini zmniejsza rozdzielczość plików audio do 16 kb/s.
  • Jeśli źródło dźwięku zawiera wiele kanałów, Gemini łączy te kanały w jeden kanał.

Co dalej?

Ten przewodnik pokazuje, jak przesyłać pliki audio za pomocą interfejsu File API, a następnie generować tekst wyjściowy na podstawie danych wejściowych audio. Więcej informacji znajdziesz w tych materiałach:

  • Strategie wyświetlania promptów dotyczących plików: interfejs Gemini API obsługuje prompty z tekstem, obrazem, dźwiękiem i danymi wideo, które są też nazywane promptami multimodalnymi.
  • Instrukcje systemowe: instrukcje systemowe pozwalają kierować działaniem modelu na podstawie konkretnych potrzeb i przypadków użycia.
  • Wskazówki dotyczące bezpieczeństwa: modele generatywnej AI czasami generują nieoczekiwane wyniki, np. niedokładne, stronnicze lub obraźliwe. Przetwarzanie końcowe i sprawdzanie przez weryfikatorów są niezbędne do ograniczenia ryzyka szkód wynikających z takich danych wyjściowych.