Multimodal Live API

Мультимодальный Live API обеспечивает двустороннее взаимодействие с малой задержкой, использующее ввод текста, аудио и видео, а также вывод звука и текста. Это облегчает естественные, человеческие голосовые разговоры с возможностью прервать модель в любой момент. Возможность распознавания видео модели расширяет возможности общения, позволяя вам делиться входными данными с камеры или скринкастами и задавать о них вопросы.

Мультимодальный Live API включает в себя следующие ключевые возможности:

  • Мультимодальность : модель может видеть, слышать и говорить.
  • Взаимодействие в реальном времени с малой задержкой : модель может обеспечивать быстрые ответы.
  • Память сеанса : модель сохраняет память обо всех взаимодействиях в течение одного сеанса, вспоминая ранее услышанную или увиденную информацию.
  • Поддержка вызова функций, выполнения кода и поиска как инструмента : вы можете интегрировать модель с внешними сервисами и источниками данных.

Мультимодальный Live API предназначен для связи между серверами.

Для веб-приложений и мобильных приложений мы рекомендуем использовать интеграцию от наших партнеров Daily .

Руководство по интеграции

Сессии

Сеанс представляет собой одно соединение WebSocket между клиентом и сервером Gemini.

После того, как клиент инициирует новое соединение, сеанс может обмениваться сообщениями с сервером, чтобы:

  • Отправьте текст, аудио или видео на сервер Gemini.
  • Получайте аудио-, текстовые ответы или ответы на вызовы функций с сервера Gemini.

Конфигурация сеанса отправляется в первом сообщении после подключения. Конфигурация сеанса включает модель, параметры генерации, системные инструкции и инструменты.

См. следующий пример конфигурации:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

Дополнительные сведения см. в разделе BidiGenerateContentSetup .

Отправлять сообщения

Сообщения представляют собой строки в формате JSON, которыми обмениваются через соединение WebSocket.

Чтобы отправить сообщение, клиент должен отправить поддерживаемое клиентское сообщение в строке в формате JSON с помощью одного из открытых соединений WebSocket.

См. также