Gemini Robotics-ER 1.5 是一种视觉-语言模型 (VLM),可将 Gemini 的智能体功能引入机器人领域。它专为物理世界中的高级推理而设计,可让机器人解读复杂的视觉数据、执行空间推理,并根据自然语言命令规划行动。
文档
如需全面了解功能和特性,请访问机器人技术页面。
gemini-robotics-er-1.5-preview
| 属性 | 说明 |
|---|---|
| 模型代码 | gemini-robotics-er-1.5-preview |
| 支持的数据类型 |
输入源 文本、图片、视频、音频 输出 文本 |
| 令牌限制[*] |
输入 token 限制 1,048,576 输出 token 限制 65536 |
| 功能 |
音频生成 不受支持 批量 API 不受支持 缓存 不受支持 代码执行 支持 函数调用 支持 依托 Google 地图进行接地 不受支持 图片生成 不受支持 Live API 不受支持 搜索接地 支持 结构化输出 支持 思考型 支持 网址上下文 支持 |
| 版本 |
|
| 最新更新 | 2025 年 9 月 |
| 知识截点 | 2025 年 1 月 |