Gemini Robotics-ER 1.6 是一种视觉-语言模型 (VLM),可将 Gemini 的智能体功能引入机器人领域。它专为在物理世界中进行高级推理而设计,可让机器人解读复杂的视觉数据、执行空间推理,并根据自然语言命令规划行动。
文档
如需全面了解功能和功能,请访问机器人页面。
gemini-robotics-er-1.6-preview
| 属性 | 说明 |
|---|---|
| 模型代码 | gemini-robotics-er-1.6-preview |
| 支持的数据类型 |
输入源 文本、图片、视频、音频 输出 文本 |
| 令牌限制[*] |
输入 token 限制 1,048,576 输出 token 限制 65536 |
| 功能 |
音频生成 不受支持 批量 API 支持 缓存 支持 代码执行 支持 计算机使用 支持 文件搜索 支持 Flex 推理 支持 函数调用 支持 依托 Google 地图进行接地 支持 图片生成 不受支持 Live API 不受支持 优先推断 支持 搜索接地 支持 结构化输出 支持 思考型 支持 网址上下文 支持 |
| 版本 |
|
| 最新更新 | 2025 年 12 月 |
| 知识截点 | 2025 年 1 月 |