Multimodal Live API

Interfejs API Multimodal Live umożliwia dwukierunkową interakcję z minimalnym opóźnieniem, która wykorzystuje dane wejściowe w postaci tekstu, dźwięku i obrazu oraz dane wyjściowe w postaci dźwięku i tekstu. Umożliwia to naturalne rozmowy z modelem, które brzmią jak rozmowy z ludźmi, z możliwością przerwania w dowolnym momencie. Umiejętność analizowania filmów przez model zwiększa możliwości komunikacji, umożliwiając udostępnianie danych z aparatu lub nagrań ekranu oraz zadawanie pytań na ich temat.

Interfejs API Multimodal Live obejmuje te kluczowe funkcje:

  • Multimodalność: model może widzieć, słyszeć i mówić.
  • Interakcja w czasie rzeczywistym z minimalnym opóźnieniem: model może szybko udzielać odpowiedzi.
  • Pamięć sesji: model zachowuje pamięć o wszystkich interakcjach w ramach pojedynczej sesji, przywołując wcześniej usłyszane lub wyświetlone informacje.
  • Obsługa wywoływania funkcji, wykonywania kodu i wyszukiwania jako narzędzia: możesz zintegrować model z zewnętrznymi usługami i źródłami danych.

Interfejs API multimodalny na żywo jest przeznaczony do komunikacji między serwerami.

W przypadku aplikacji internetowych i mobilnych zalecamy korzystanie z integracji naszych partnerów w Daily.

Przewodnik integracji

Sesje

Sesja reprezentuje pojedyncze połączenie WebSocket między klientem a serwerem Gemini.

Gdy klient inicjuje nowe połączenie, sesja może wymieniać się wiadomościami z serwerem, aby:

  • Wysyłanie tekstu, dźwięku lub filmu na serwer Gemini.
  • otrzymywać odpowiedzi w formie dźwięku, tekstu lub wywołania funkcji z serwera Gemini;

Konfiguracja sesji jest wysyłana w pierwszej wiadomości po nawiązaniu połączenia. Konfiguracja sesji obejmuje model, parametry generowania, instrukcje dotyczące systemu i narzędzia.

Poniżej znajdziesz przykładową konfigurację:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

Więcej informacji znajdziesz w artykule BidiGenerateContentSetup.

Wysyłanie wiadomości

Wiadomości to ciągi znaków w formacie JSON wymieniane przez połączenie WebSocket.

Aby wysłać wiadomość, klient musi wysłać obsługiwaną wiadomość klienta w postaci ciągu w formacie JSON za pomocą jednego z otwartych połączeń WebSocket.

Zobacz też