Gemini może odpowiadać na prompty dotyczące dźwięku. Gemini może na przykład:
- opisywać, streszczać lub odpowiadać na pytania dotyczące treści audio;
- Prześlij transkrypcję nagrania.
- podawać odpowiedzi lub transkrypcję dotyczące konkretnego fragmentu nagrania audio;
Ten przewodnik pokazuje różne sposoby interakcji z plikami audio i treściami audio za pomocą interfejsu Gemini API.
Obsługiwane formaty audio
Gemini obsługuje te typy MIME formatu audio:
- WAV –
audio/wav
- MP3 –
audio/mp3
- AIFF –
audio/aiff
- AAC –
audio/aac
- OGG Vorbis –
audio/ogg
- FLAC –
audio/flac
Informacje techniczne dotyczące dźwięku
Gemini nakłada na dźwięk następujące reguły:
- Gemini przedstawia każdą sekundę dźwięku jako 25 tokenów. Na przykład 1 minuta dźwięku to 1500 tokenów.
- Gemini może udzielać odpowiedzi tylko na wypowiedzi w języku angielskim.
- Gemini może „rozumieć” elementy niewerbalne, takie jak śpiew ptaków czy syreny.
- Maksymalna obsługiwana długość danych audio w pojedynczym promptu to 9,5 godziny. Gemini nie ogranicza liczby plików audio w pojedynczym promptzie, ale łączna długość wszystkich plików audio w pojedynczym promptzie nie może przekraczać 9,5 godziny.
- Gemini zmniejsza rozdzielczość plików audio do 16 kb/s.
- Jeśli źródło dźwięku zawiera wiele kanałów, Gemini łączy te kanały w jeden kanał.
Co dalej?
Ten przewodnik pokazuje, jak przesyłać pliki audio za pomocą interfejsu File API, a następnie generować tekst wyjściowy na podstawie danych wejściowych audio. Więcej informacji znajdziesz w tych materiałach:
- Strategie wyświetlania promptów dotyczących plików: interfejs Gemini API obsługuje prompty z tekstem, obrazem, dźwiękiem i danymi wideo, które są też nazywane promptami multimodalnymi.
- Instrukcje systemowe: instrukcje systemowe pozwalają kierować działaniem modelu na podstawie konkretnych potrzeb i przypadków użycia.
- Wskazówki dotyczące bezpieczeństwa: modele generatywnej AI czasami generują nieoczekiwane wyniki, np. niedokładne, stronnicze lub obraźliwe. Przetwarzanie końcowe i sprawdzanie przez weryfikatorów są niezbędne do ograniczenia ryzyka szkód wynikających z takich danych wyjściowych.