Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview — это наша модель передачи аудиосигнала с низкой задержкой, оптимизированная для диалогов в реальном времени и приложений искусственного интеллекта, ориентированных на голос, с обнаружением акустических нюансов, числовой точностью и многомодальной распознаваемостью.

Документация

Для получения полной информации о функциях и возможностях API посетите руководство по работе с API в реальном времени .

gemini-3.1-flash-live-preview

Свойство Описание
Код модели gemini-3.1-flash-live-preview
Поддерживаемые типы данных

Входные данные

Текст, изображения, аудио, видео

Выход

Текст и аудио

Ограничения на количество токенов [*]

Ограничение на количество введенных токенов

131,072

лимит выходных токенов

65,536

Возможности

Генерация аудио

Поддерживается

Кэширование

Не поддерживается

Выполнение кода

Не поддерживается

Поиск файлов

Не поддерживается

Вызов функции

Поддерживается

Определить местоположение с помощью Google Maps

Не поддерживается

генерация изображений

Не поддерживается

API в реальном времени

Поддерживается

Поиск заземления

Поддерживается

Структурированные выходные данные

Не поддерживается

Мышление

Поддерживается

контекст URL

Не поддерживается

Варианты потребления

Пакетный API

Не поддерживается

версии
Для получения более подробной информации ознакомьтесь с шаблонами версий модели .
  • Предварительный просмотр: gemini-3.1-flash-live-preview
Последнее обновление Март 2026 г.
Порог знаний Январь 2025 г.

Переход с Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview оптимизирован для диалогов в реальном времени с низкой задержкой. При переходе с gemini-2.5-flash-native-audio-preview-12-2025 следует учитывать следующее:

  • Строка модели : Обновите строку модели с gemini-2.5-flash-native-audio-preview-12-2025 на gemini-3.1-flash-live-preview .
  • Настройка Thinking : Gemini 3.1 использует thinkingLevel (с настройками, такими как minimal , low , medium и high ) вместо thinkingBudget . По умолчанию установлено minimal для оптимизации минимальной задержки. См. раздел «Уровни и бюджеты Thinking» .
  • События сервера : Теперь одно событие BidiGenerateContentServerContent может одновременно содержать несколько частей контента (например, аудиофрагменты и расшифровку). Обновите свой код, чтобы обрабатывать все части в каждом событии во избежание потери контента.
  • Содержимое клиента : send_client_content поддерживается только для инициализации истории начального контекста (требуется установка initial_history_in_client_content в history_config ). Используйте send_realtime_input для отправки текстовых обновлений во время разговора. См. Инкрементальные обновления содержимого .
  • Покрытие хода : по умолчанию используется TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO вместо TURN_INCLUDES_ONLY_ACTIVITY . Ход модели теперь включает обнаруженную аудиоактивность и все видеокадры. Если ваше приложение в настоящее время отправляет постоянный поток видеокадров, возможно, вам следует обновить его, чтобы оно отправляло видеокадры только при наличии аудиоактивности, чтобы избежать дополнительных затрат.
  • Асинхронный вызов функций : пока не поддерживается. Вызов функций осуществляется только синхронно. Модель не начнет отвечать, пока вы не отправите ответ от инструмента. См. раздел «Асинхронный вызов функций» .
  • Проактивное аудио и эмоциональный диалог : эти функции пока не поддерживаются в Gemini 3.1 Flash Live. Удалите все настройки для этих функций из вашего кода. См. раздел «Проактивное аудио и эмоциональный диалог» .

Для подробного сравнения характеристик см. таблицу сравнения моделей в руководстве по возможностям.