Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview — это наша модель передачи аудиосигнала с низкой задержкой, оптимизированная для диалогов в реальном времени и приложений искусственного интеллекта, ориентированных на голос, с обнаружением акустических нюансов, числовой точностью и многомодальной распознаваемостью.

Документация

Для получения полной информации о функциях и возможностях API посетите руководство по работе с API в реальном времени .

gemini-3.1-flash-live-preview

Свойство Описание
Код модели gemini-3.1-flash-live-preview
Поддерживаемые типы данных

Входные данные

Текст, изображения, аудио, видео

Выход

Текст и аудио

Ограничения на количество токенов [*]

Ограничение на количество введенных токенов

131,072

лимит выходных токенов

65,536

Возможности

Генерация аудио

Поддерживается

Пакетный API

Не поддерживается

Кэширование

Не поддерживается

Выполнение кода

Не поддерживается

Поиск файлов

Не поддерживается

Вызов функции

Поддерживается

Определить местоположение с помощью Google Maps

Не поддерживается

генерация изображений

Не поддерживается

API в реальном времени

Поддерживается

Поиск заземления

Поддерживается

Структурированные выходные данные

Не поддерживается

Мышление

Поддерживается

контекст URL

Не поддерживается

версии
Для получения более подробной информации ознакомьтесь с шаблонами версий модели .
  • Предварительный просмотр: gemini-3.1-flash-live-preview
Последнее обновление Март 2026 г.
Порог знаний Январь 2025 г.

Переход с Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview оптимизирован для диалогов в реальном времени с низкой задержкой. При переходе с gemini-2.5-flash-native-audio-preview-12-2025 следует учитывать следующее:

  • Строка модели : Обновите строку модели с gemini-2.5-flash-native-audio-preview-12-2025 на gemini-3.1-flash-live-preview .
  • Настройка Thinking : Gemini 3.1 использует thinkingLevel (с настройками, такими как minimal , low , medium и high ) вместо thinkingBudget . По умолчанию установлено minimal для оптимизации минимальной задержки. См. раздел «Уровни и бюджеты Thinking» .
  • События сервера : Теперь одно событие BidiGenerateContentServerContent может одновременно содержать несколько частей контента (например, аудиофрагменты и расшифровку). Обновите свой код, чтобы обрабатывать все части в каждом событии во избежание потери контента.
  • Содержимое клиента : send_client_content поддерживается только для инициализации истории начального контекста (требуется установка initial_history_in_client_content в history_config ). Используйте send_realtime_input для отправки текстовых обновлений во время разговора. См. Инкрементальные обновления содержимого .
  • Покрытие хода : по умолчанию используется TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO вместо TURN_INCLUDES_ONLY_ACTIVITY . Ход модели теперь включает обнаруженную аудиоактивность и все видеокадры. Если ваше приложение в настоящее время отправляет постоянный поток видеокадров, возможно, вам следует обновить его, чтобы оно отправляло видеокадры только при наличии аудиоактивности, чтобы избежать дополнительных затрат.
  • Асинхронный вызов функций : пока не поддерживается. Вызов функций осуществляется только синхронно. Модель не начнет отвечать, пока вы не отправите ответ от инструмента. См. раздел «Асинхронный вызов функций» .
  • Проактивное аудио и эмоциональный диалог : эти функции пока не поддерживаются в Gemini 3.1 Flash Live. Удалите все настройки для этих функций из вашего кода. См. раздел «Проактивное аудио и эмоциональный диалог» .

Для подробного сравнения характеристик см. таблицу сравнения моделей в руководстве по возможностям.