Gemini Robotics-ER 1.5 是視覺語言模型 (VLM),可將 Gemini 的代理功能帶入機器人領域。這項技術專為實體世界的高階推理而設計,可讓機器人解讀複雜的視覺資料、執行空間推理,並根據自然語言指令規劃動作。
說明文件
如要全面瞭解功能,請前往「機器人」頁面。
gemini-robotics-er-1.5-preview
| 屬性 | 說明 |
|---|---|
| 模型代碼 | gemini-robotics-er-1.5-preview |
| 支援的資料類型 |
輸入裝置 文字、圖片、影片、音訊 輸出內容 文字 |
| 代幣限制[*] |
輸入權杖限制 1,048,576 輸出詞元限制 65,536 |
| 功能 |
語音生成 不支援 批次 API 不支援 快取 不支援 程式碼執行 支援 函式呼叫 支援 運用 Google 地圖建立基準 不支援 圖像生成 不支援 Live API 不支援 以 Google 搜尋為參考依據 支援 結構化輸出內容 支援 思考 支援 網址內容 支援 |
| 個版本 |
|
| 最新更新 | 2025 年 9 月 |
| 知識截點 | 2025 年 1 月 |