Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 是一种视觉-语言模型 (VLM),可将 Gemini 的智能体功能引入机器人领域。它专为物理世界中的高级推理而设计,可让机器人解读复杂的视觉数据、执行空间推理,并根据自然语言命令规划行动。

文档

如需全面了解功能和特性,请访问机器人技术页面。

gemini-robotics-er-1.5-preview

属性 说明
模型代码 gemini-robotics-er-1.5-preview
支持的数据类型

输入源

文本、图片、视频、音频

输出

文本

令牌限制[*]

输入 token 限制

1,048,576

输出 token 限制

65536

功能

音频生成

不受支持

批量 API

不受支持

缓存

不受支持

代码执行

支持

函数调用

支持

依托 Google 地图进行接地

不受支持

图片生成

不受支持

Live API

不受支持

搜索接地

支持

结构化输出

支持

思考型

支持

网址上下文

支持

版本
如需了解详情,请参阅模型版本模式
  • 预览:gemini-robotics-er-1.5-preview
最新更新 2025 年 9 月
知识截点 2025 年 1 月