Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 — это модель визуально-языкового восприятия (VLM), которая переносит возможности Gemini в области робототехники. Она разработана для сложных рассуждений в физическом мире, позволяя роботам интерпретировать сложные визуальные данные, выполнять пространственное мышление и планировать действия на основе команд на естественном языке.

Документация

Для получения полной информации о функциях и возможностях посетите страницу «Робототехника» .

gemini-robotics-er-1.5-preview

Свойство Описание
Код модели gemini-robotics-er-1.5-preview
Поддерживаемые типы данных

Входные данные

Текст, изображения, видео, аудио

Выход

Текст

Ограничения на количество токенов [*]

Ограничение на количество введенных токенов

1 048 576

лимит выходных токенов

65,536

Возможности

Генерация аудио

Не поддерживается

Пакетный API

Не поддерживается

Кэширование

Не поддерживается

Выполнение кода

Поддерживается

Вызов функции

Поддерживается

Определить местоположение с помощью Google Maps

Не поддерживается

генерация изображений

Не поддерживается

API в реальном времени

Не поддерживается

Поиск заземления

Поддерживается

Структурированные выходные данные

Поддерживается

Мышление

Поддерживается

контекст URL

Поддерживается

версии
Для получения более подробной информации ознакомьтесь с шаблонами версий модели .
  • Предварительный просмотр: gemini-robotics-er-1.5-preview
Последнее обновление Сентябрь 2025 г.
Порог знаний Январь 2025 г.