Gemini Robotics-ER 1.5 เป็นโมเดลภาษาภาพ (VLM) ที่นำความสามารถแบบเอเจนต์ของ Gemini มาใช้กับหุ่นยนต์ ออกแบบมาเพื่อการให้เหตุผลขั้นสูงในโลกจริง ซึ่งช่วยให้หุ่นยนต์ตีความข้อมูลภาพที่ซับซ้อน ให้เหตุผลเชิงพื้นที่ และวางแผนการดำเนินการจากคำสั่งภาษาธรรมชาติได้
เอกสารประกอบ
ไปที่หน้าหุ่นยนต์เพื่อดูข้อมูลทั้งหมด เกี่ยวกับฟีเจอร์และความสามารถ
gemini-robotics-er-1.5-preview
| พร็อพเพอร์ตี้ | คำอธิบาย |
|---|---|
| รหัสโมเดล | gemini-robotics-er-1.5-preview |
| ประเภทข้อมูลที่รองรับ |
อินพุต ข้อความ รูปภาพ วิดีโอ เสียง เอาต์พุต ข้อความ |
| ขีดจำกัดของโทเค็น[*] |
ขีดจำกัดโทเค็นอินพุต 1,048,576 ขีดจำกัดโทเค็นเอาต์พุต 65,536 |
| ความสามารถ |
การสร้างเสียง สิ่งที่ทำไม่ได้ Batch API สิ่งที่ทำไม่ได้ การแคช สิ่งที่ทำไม่ได้ การรันโค้ด สิ่งที่ทำได้ การเรียกใช้ฟังก์ชัน สิ่งที่ทำได้ การเชื่อมต่อแหล่งข้อมูลกับ Google Maps สิ่งที่ทำไม่ได้ การสร้างรูปภาพ สิ่งที่ทำไม่ได้ Live API สิ่งที่ทำไม่ได้ การเชื่อมต่อแหล่งข้อมูลของ Search สิ่งที่ทำได้ เอาต์พุตที่มีโครงสร้าง สิ่งที่ทำได้ การคิด สิ่งที่ทำได้ บริบทของ URL สิ่งที่ทำได้ |
| เวอร์ชัน |
|
| การอัปเดตล่าสุด | กันยายน 2025 |
| การตัดข้อมูล | มกราคม 2025 |