Мультимодальный Live API обеспечивает двустороннее взаимодействие с малой задержкой, использующее ввод текста, аудио и видео, а также вывод звука и текста. Это облегчает естественные, человеческие голосовые разговоры с возможностью прервать модель в любой момент. Возможность распознавания видео модели расширяет возможности общения, позволяя вам делиться входными данными с камеры или скринкастами и задавать о них вопросы.
Мультимодальный Live API включает в себя следующие ключевые возможности:
- Мультимодальность : модель может видеть, слышать и говорить.
- Взаимодействие в реальном времени с малой задержкой : модель может обеспечивать быстрые ответы.
- Память сеанса : модель сохраняет память обо всех взаимодействиях в течение одного сеанса, вспоминая ранее услышанную или увиденную информацию.
- Поддержка вызова функций, выполнения кода и поиска как инструмента : вы можете интегрировать модель с внешними сервисами и источниками данных.
Мультимодальный Live API предназначен для связи между серверами.
Для веб-приложений и мобильных приложений мы рекомендуем использовать интеграцию от наших партнеров Daily .
Руководство по интеграции
Сессии
Сеанс представляет собой одно соединение WebSocket между клиентом и сервером Gemini.
После того, как клиент инициирует новое соединение, сеанс может обмениваться сообщениями с сервером, чтобы:
- Отправьте текст, аудио или видео на сервер Gemini.
- Получайте аудио-, текстовые ответы или ответы на вызовы функций с сервера Gemini.
Конфигурация сеанса отправляется в первом сообщении после подключения. Конфигурация сеанса включает модель, параметры генерации, системные инструкции и инструменты.
См. следующий пример конфигурации:
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
Дополнительные сведения см. в разделе BidiGenerateContentSetup .
Отправлять сообщения
Сообщения представляют собой строки в формате JSON, которыми обмениваются через соединение WebSocket.
Чтобы отправить сообщение, клиент должен отправить поддерживаемое клиентское сообщение в строке в формате JSON с помощью одного из открытых соединений WebSocket.
См. также
- Дополнительную информацию о часто используемых полях API (например,
Content
иTool
) см. в разделе «Генерация контента» . - Узнайте больше о вызове функций .