Gemini Robotics-ER 1.6 เป็นโมเดลภาษาภาพ (VLM) ที่นำความสามารถด้าน Agentic AI ของ Gemini มาใช้กับหุ่นยนต์ โดยออกแบบมาเพื่อการให้เหตุผลขั้นสูงในโลกกายภาพ ซึ่งช่วยให้หุ่นยนต์ตีความข้อมูลภาพที่ซับซ้อน ทำการให้เหตุผลเชิงพื้นที่ และวางแผนการดำเนินการจากคำสั่งภาษาธรรมชาติได้
เอกสารประกอบ
ไปที่หน้าหุ่นยนต์เพื่อดูข้อมูลทั้งหมด เกี่ยวกับฟีเจอร์และความสามารถ
gemini-robotics-er-1.6-preview
| พร็อพเพอร์ตี้ | คำอธิบาย |
|---|---|
| รหัสโมเดล | gemini-robotics-er-1.6-preview |
| ประเภทข้อมูลที่รองรับ |
อินพุต ข้อความ รูปภาพ วิดีโอ เสียง เอาต์พุต ข้อความ |
| ขีดจำกัดของโทเค็น[*] |
ขีดจำกัดโทเค็นอินพุต 1,048,576 ขีดจำกัดโทเค็นเอาต์พุต 65,536 |
| ความสามารถ |
การสร้างเสียง สิ่งที่ทำไม่ได้ Batch API สิ่งที่ทำได้ การแคช สิ่งที่ทำได้ การรันโค้ด สิ่งที่ทำได้ การใช้คอมพิวเตอร์ สิ่งที่ทำได้ ค้นหาไฟล์ สิ่งที่ทำได้ การอนุมานแบบยืดหยุ่น สิ่งที่ทำได้ การเรียกใช้ฟังก์ชัน สิ่งที่ทำได้ การเชื่อมต่อแหล่งข้อมูลกับ Google Maps สิ่งที่ทำได้ การสร้างรูปภาพ สิ่งที่ทำไม่ได้ Live API สิ่งที่ทำไม่ได้ การอนุมานตามลำดับความสำคัญ สิ่งที่ทำได้ การเชื่อมต่อแหล่งข้อมูลของ Search สิ่งที่ทำได้ เอาต์พุตที่มีโครงสร้าง สิ่งที่ทำได้ การคิด สิ่งที่ทำได้ บริบทของ URL สิ่งที่ทำได้ |
| เวอร์ชัน |
|
| การอัปเดตล่าสุด | ธันวาคม 2025 |
| การตัดข้อมูล | มกราคม 2025 |