Interfejs Interactions API jest już ogólnie dostępny. Zalecamy korzystanie z tego interfejsu API, aby mieć dostęp do wszystkich najnowszych funkcji i modeli.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Omówienie interfejsu Gemini Live API

Interfejs Live API umożliwia interakcje głosowe i wizualne z Gemini w czasie rzeczywistym z niewielkimi opóźnieniami. Przetwarza ciągłe strumienie dźwięku, obrazów i tekstu, aby dostarczać natychmiastowe odpowiedzi głosowe, które brzmią jak ludzkie, tworząc naturalne doświadczenie konwersacyjne dla użytkowników.

Omówienie interfejsu Live API

Wypróbuj interfejs Live API w Google AI Studio Sklonuj przykładowe aplikacje z GitHub Korzystaj z umiejętności agenta do kodowania

Przypadki użycia

Interfejs Live API może być używany do tworzenia agentów głosowych w czasie rzeczywistym w różnych branżach, m.in.:

E-commerce i handel detaliczny: asystenci zakupów, którzy oferują spersonalizowane rekomendacje, oraz agenci obsługi klienta, którzy rozwiązują problemy klientów.
Gry: interaktywne postacie niezależne, pomoc w grze i tłumaczenie treści w czasie rzeczywistym.
Interfejsy nowej generacji: funkcje głosowe i wideo w robotyce, okularach inteligentnych i pojazdach.
Opieka zdrowotna: towarzysze zdrowia, którzy wspierają pacjentów i edukują ich.
Usługi finansowe: doradcy AI w zakresie zarządzania kapitałem i inwestycjami.
Edukacja: mentorzy i towarzysze uczniów oparte na AI, którzy zapewniają spersonalizowane instrukcje i opinie.
Tłumaczenie i lokalizacja: tłumaczenie w czasie rzeczywistym z niskim opóźnieniem rozmów mówionych, co umożliwia bezproblemową komunikację w wielu językach.

Najważniejsze funkcje

Interfejs Live API oferuje kompleksowy zestaw funkcji do tworzenia zaawansowanych agentów głosowych:

Obsługa wielu języków: rozmawiaj w 70 obsługiwanych językach.
Przerwanie: użytkownicy mogą w dowolnym momencie przerwać działanie modelu, aby uzyskać interaktywne odpowiedzi.
Korzystanie z narzędzi: integruje narzędzia takie jak wywoływanie funkcji i wyszukiwarka Google, aby umożliwiać dynamiczne interakcje.
Transkrypcje audio: udostępnia transkrypcje tekstowe zarówno danych wejściowych użytkownika, jak i danych wyjściowych modelu.
Proaktywny dźwięk: pozwala kontrolować, kiedy i w jakich kontekstach model odpowiada.
Dialog afektywny: dostosowuje styl i ton odpowiedzi do ekspresji użytkownika.
Tłumaczenie na żywo: tłumaczenie głosowe w czasie rzeczywistym w ponad 70 językach.

Specyfikacja techniczna

W tabeli poniżej znajdziesz dane techniczne interfejsu Live API:

Kategoria	Szczegóły
Rodzaje danych wejściowych	Audio (surowe 16-bitowe audio PCM, 16 kHz, little-endian), obrazy (JPEG <= 1 kl./s), tekst
Rodzaje danych wyjściowych	Audio (surowe 16-bitowe audio PCM, 24 kHz, little-endian)
Protokół	Połączenie WebSocket z zachowywaniem stanu (WSS)

Wybierz metodę implementacji

Podczas integracji z interfejsem Live API musisz wybrać jedną z tych metod implementacji:

Serwer-serwer: backend łączy się z interfejsem Live API za pomocą WebSockets. Zwykle klient wysyła dane strumieniowe (audio, wideo, tekst) na serwer, który następnie przekazuje je do interfejsu Live API.
Klient-serwer: kod frontendu łączy się bezpośrednio z interfejsem Live API za pomocą WebSockets, aby przesyłać strumieniowo dane z pominięciem backendu.

Rozpocznij

Wybierz przewodnik odpowiedni dla Twojego środowiska programistycznego:

Serwer-serwer

Integracje z partnerami

Aby usprawnić tworzenie aplikacji audio i wideo działających w czasie rzeczywistym, możesz użyć integracji innej firmy, która obsługuje interfejs Gemini Live API przez WebRTC lub WebSockets.

LiveKit

Korzystanie z interfejsu Gemini Live API z agentami LiveKit.

Pipecat by Daily

Tworzenie czatbota AI działającego w czasie rzeczywistym za pomocą Gemini Live i Pipecat

Fishjam od Software Mansion

Twórz aplikacje do strumieniowego przesyłania wideo i audio na żywo za pomocą Fishjam.

Agenty Vision według strumienia

Twórz aplikacje AI do obsługi głosu i wideo w czasie rzeczywistym za pomocą agentów Vision.

Voximplant

Łączenie połączeń przychodzących i wychodzących z interfejsem Live API za pomocą Voximplant.

Agora

Twórz aplikacje konwersacyjne AI w czasie rzeczywistym za pomocą Agora.

Pakiet Firebase AI SDK

Pierwsze kroki z interfejsem Gemini Live API przy użyciu Firebase AI Logic.