Interfejs API Multimodal Live umożliwia dwukierunkową interakcję z minimalnym opóźnieniem, która wykorzystuje dane wejściowe w postaci tekstu, dźwięku i obrazu oraz dane wyjściowe w postaci dźwięku i tekstu. Umożliwia to naturalne rozmowy z modelem, które brzmią jak rozmowy z ludźmi, z możliwością przerwania w dowolnym momencie. Umiejętność analizowania filmów przez model zwiększa możliwości komunikacji, umożliwiając udostępnianie danych z aparatu lub nagrań ekranu oraz zadawanie pytań na ich temat.
Interfejs API Multimodal Live obejmuje te kluczowe funkcje:
- Multimodalność: model może widzieć, słyszeć i mówić.
- Interakcja w czasie rzeczywistym z minimalnym opóźnieniem: model może szybko udzielać odpowiedzi.
- Pamięć sesji: model zachowuje pamięć o wszystkich interakcjach w ramach pojedynczej sesji, przywołując wcześniej usłyszane lub wyświetlone informacje.
- Obsługa wywoływania funkcji, wykonywania kodu i wyszukiwania jako narzędzia: możesz zintegrować model z zewnętrznymi usługami i źródłami danych.
Interfejs API multimodalny na żywo jest przeznaczony do komunikacji między serwerami.
W przypadku aplikacji internetowych i mobilnych zalecamy korzystanie z integracji naszych partnerów w Daily.
Przewodnik integracji
Sesje
Sesja reprezentuje pojedyncze połączenie WebSocket między klientem a serwerem Gemini.
Gdy klient inicjuje nowe połączenie, sesja może wymieniać się wiadomościami z serwerem, aby:
- Wysyłanie tekstu, dźwięku lub filmu na serwer Gemini.
- otrzymywać odpowiedzi w formie dźwięku, tekstu lub wywołania funkcji z serwera Gemini;
Konfiguracja sesji jest wysyłana w pierwszej wiadomości po nawiązaniu połączenia. Konfiguracja sesji obejmuje model, parametry generowania, instrukcje dotyczące systemu i narzędzia.
Poniżej znajdziesz przykładową konfigurację:
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
Więcej informacji znajdziesz w artykule BidiGenerateContentSetup.
Wysyłanie wiadomości
Wiadomości to ciągi znaków w formacie JSON wymieniane przez połączenie WebSocket.
Aby wysłać wiadomość, klient musi wysłać obsługiwaną wiadomość klienta w postaci ciągu w formacie JSON za pomocą jednego z otwartych połączeń WebSocket.
Zobacz też
- Więcej informacji o najczęściej używanych polach interfejsu API (np.
Content
iTool
) znajdziesz w artykule Generowanie treści. - Dowiedz się więcej o wywoływaniu funkcji.