Omówienie interfejsu Gemini Live API

Interfejs Live API umożliwia interakcje głosowe i wizualne z Gemini w czasie rzeczywistym z niewielkimi opóźnieniami. Przetwarza ciągłe strumienie dźwięku, obrazów i tekstu, aby dostarczać natychmiastowe odpowiedzi głosowe, które brzmią jak ludzkie, tworząc naturalne doświadczenie konwersacyjne dla użytkowników.

Omówienie interfejsu Live API

Przypadki użycia

Interfejs Live API może być używany do tworzenia agentów głosowych w czasie rzeczywistym w różnych branżach, m.in.:

  • E-commerce i handel detaliczny: asystenci zakupów, którzy oferują spersonalizowane rekomendacje, oraz agenci obsługi klienta, którzy rozwiązują problemy klientów.
  • Gry: interaktywne postacie niezależne, pomoc w grze i tłumaczenie treści w czasie rzeczywistym.
  • Interfejsy nowej generacji: funkcje głosowe i wideo w robotyce, okularach inteligentnych i pojazdach.
  • Opieka zdrowotna: towarzysze zdrowia, którzy wspierają pacjentów i edukują ich.
  • Usługi finansowe: doradcy AI w zakresie zarządzania kapitałem i inwestycjami.
  • Edukacja: mentorzy i towarzysze uczniów oparte na AI, którzy zapewniają spersonalizowane instrukcje i opinie.
  • Tłumaczenie i lokalizacja: tłumaczenie w czasie rzeczywistym z niskim opóźnieniem rozmów mówionych, co umożliwia bezproblemową komunikację w wielu językach.

Najważniejsze funkcje

Interfejs Live API oferuje kompleksowy zestaw funkcji do tworzenia zaawansowanych agentów głosowych:

  • Obsługa wielu języków: rozmawiaj w 70 obsługiwanych językach.
  • Przerwanie: użytkownicy mogą w dowolnym momencie przerwać działanie modelu, aby uzyskać interaktywne odpowiedzi.
  • Korzystanie z narzędzi: integruje narzędzia takie jak wywoływanie funkcji i wyszukiwarka Google, aby umożliwiać dynamiczne interakcje.
  • Transkrypcje audio: udostępnia transkrypcje tekstowe zarówno danych wejściowych użytkownika, jak i danych wyjściowych modelu.
  • Proaktywny dźwięk: pozwala kontrolować, kiedy i w jakich kontekstach model odpowiada.
  • Dialog afektywny: dostosowuje styl i ton odpowiedzi do ekspresji użytkownika.
  • Tłumaczenie na żywo: tłumaczenie głosowe w czasie rzeczywistym w ponad 70 językach.

Specyfikacja techniczna

W tabeli poniżej znajdziesz dane techniczne interfejsu Live API:

Kategoria Szczegóły
Rodzaje danych wejściowych Audio (surowe 16-bitowe audio PCM, 16 kHz, little-endian), obrazy (JPEG <= 1 kl./s), tekst
Rodzaje danych wyjściowych Audio (surowe 16-bitowe audio PCM, 24 kHz, little-endian)
Protokół Połączenie WebSocket z zachowywaniem stanu (WSS)

Wybierz metodę implementacji

Podczas integracji z interfejsem Live API musisz wybrać jedną z tych metod implementacji:

  • Serwer-serwer: backend łączy się z interfejsem Live API za pomocą WebSockets. Zwykle klient wysyła dane strumieniowe (audio, wideo, tekst) na serwer, który następnie przekazuje je do interfejsu Live API.
  • Klient-serwer: kod frontendu łączy się bezpośrednio z interfejsem Live API za pomocą WebSockets, aby przesyłać strumieniowo dane z pominięciem backendu.

Rozpocznij

Wybierz przewodnik odpowiedni dla Twojego środowiska programistycznego:

Serwer-serwer

Połącz się z interfejsem Gemini Live API za pomocą pakietu GenAI SDK, aby utworzyć wielomodową aplikację w czasie rzeczywistym z backendem w Pythonie.

Klient-serwer

Połącz się z interfejsem Gemini Live API za pomocą protokołu WebSocket, aby utworzyć multimodalną aplikację w czasie rzeczywistym z interfejsem JavaScript i tokenami tymczasowymi.

Pakiet Agent Development Kit

Utwórz agenta i użyj pakietu Agent Development Kit (ADK) Streaming, aby włączyć komunikację głosową i wideo.

Integracje z partnerami

Aby usprawnić tworzenie aplikacji audio i wideo działających w czasie rzeczywistym, możesz użyć integracji innej firmy, która obsługuje interfejs Gemini Live API przez WebRTC lub WebSockets.