Gemini Live API overview

Interfejs Live API umożliwia interakcje głosowe i wizualne z Gemini w czasie rzeczywistym z niewielkimi opóźnieniami. Przetwarza ciągłe strumienie dźwięku, obrazów i tekstu, aby dostarczać natychmiastowe, podobne do ludzkich odpowiedzi głosowe, tworząc naturalne doświadczenie konwersacyjne dla użytkowników.

Omówienie interfejsu Live API

Przypadki użycia

Interfejs Live API może być używany do tworzenia agentów głosowych w czasie rzeczywistym w różnych branżach, m.in.:

  • E-commerce i handel detaliczny: asystenci zakupów, którzy oferują spersonalizowane rekomendacje, oraz agenci obsługi klienta, którzy rozwiązują problemy klientów.
  • Gry: interaktywne postacie niezależne, pomoc w grze i tłumaczenie treści w czasie rzeczywistym.
  • Interfejsy nowej generacji: funkcje głosowe i wideo w robotyce, inteligentnych okularach i pojazdach.
  • Opieka zdrowotna: towarzysze zdrowia, którzy wspierają pacjentów i edukują ich.
  • Usługi finansowe: doradcy AI w zakresie zarządzania kapitałem i inwestycjami.
  • Edukacja: mentorzy i towarzysze nauki oparte na AI, którzy zapewniają spersonalizowane instrukcje i opinie.

Najważniejsze funkcje

Interfejs Live API oferuje kompleksowy zestaw funkcji do tworzenia niezawodnych agentów głosowych:

  • Obsługa wielu języków: rozmawiaj w 70 obsługiwanych językach.
  • Przerwanie: użytkownicy mogą w dowolnym momencie przerwać działanie modelu, aby uzyskać interaktywne odpowiedzi.
  • Korzystanie z narzędzi: integruje narzędzia takie jak wywoływanie funkcji i wyszukiwarka Google, aby umożliwiać dynamiczne interakcje.
  • Transkrypcje audio: udostępnia transkrypcje tekstowe zarówno danych wejściowych użytkownika, jak i danych wyjściowych modelu.
  • Aktywny dźwięk: pozwala kontrolować, kiedy i w jakich kontekstach model odpowiada.
  • Dialog afektywny: dostosowuje styl i ton odpowiedzi do ekspresji użytkownika.

Specyfikacja techniczna

W tabeli poniżej znajdziesz dane techniczne interfejsu Live API:

Kategoria Szczegóły
Rodzaje danych wejściowych Audio (surowe 16-bitowe audio PCM, 16 kHz, little-endian), obrazy (JPEG <= 1 kl./s), tekst
Rodzaje danych wyjściowych Audio (surowe 16-bitowe audio PCM, 24 kHz, little-endian)
Protokół Połączenie WebSocket z zachowywaniem stanu (WSS)

Wybierz metodę implementacji

Podczas integracji z interfejsem Live API musisz wybrać jedną z tych metod implementacji:

  • Serwer-serwer: backend łączy się z interfejsem Live API za pomocą WebSockets. Zwykle klient wysyła dane strumieniowe (audio, wideo, tekst) na serwer, który następnie przekazuje je do interfejsu Live API.
  • Klient-serwer: kod frontendu łączy się bezpośrednio z interfejsem Live API za pomocą WebSockets, aby przesyłać strumieniowo dane z pominięciem backendu.

Rozpocznij

Wybierz przewodnik odpowiedni dla Twojego środowiska programistycznego:

Serwer-serwer

Połącz się z interfejsem Gemini Live API za pomocą pakietu GenAI SDK, aby utworzyć wielomodową aplikację w czasie rzeczywistym z backendem w Pythonie.

Klient-serwer

Połącz się z interfejsem Gemini Live API za pomocą protokołu WebSocket, aby utworzyć multimodalną aplikację w czasie rzeczywistym z interfejsem JavaScript i tokenami tymczasowymi.

Pakiet Agent Development Kit

Tworzenie agenta i korzystanie z pakietu Agent Development Kit (ADK) Streaming w celu włączenia komunikacji głosowej i wideo.

Integracje z partnerami

Aby usprawnić tworzenie aplikacji audio i wideo działających w czasie rzeczywistym, możesz użyć integracji innej firmy, która obsługuje interfejs Gemini Live API przez WebRTC lub WebSockets.