ลองใช้โมเดล Gemini 3.1 Flash TTS Preview ใหม่เพื่อสร้างคำพูดที่สื่ออารมณ์ได้หลายภาษา

Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 เป็นโมเดลภาษาภาพ (VLM) ที่นำความสามารถด้าน Agentic AI ของ Gemini มาใช้กับหุ่นยนต์ โดยออกแบบมาเพื่อการให้เหตุผลขั้นสูงในโลกกายภาพ ซึ่งช่วยให้หุ่นยนต์ตีความข้อมูลภาพที่ซับซ้อน ทำการให้เหตุผลเชิงพื้นที่ และวางแผนการดำเนินการจากคำสั่งภาษาธรรมชาติได้

ลองใช้ใน Google AI Studio

เอกสารประกอบ

ไปที่หน้าหุ่นยนต์เพื่อดูข้อมูลทั้งหมด เกี่ยวกับฟีเจอร์และความสามารถ

gemini-robotics-er-1.5-preview

พร็อพเพอร์ตี้	คำอธิบาย
รหัสโมเดล	`gemini-robotics-er-1.5-preview`
ประเภทข้อมูลที่รองรับ	อินพุต ข้อความ รูปภาพ วิดีโอ เสียง เอาต์พุต ข้อความ
ขีดจำกัดของโทเค็น^[*]	ขีดจำกัดโทเค็นอินพุต 1,048,576 ขีดจำกัดโทเค็นเอาต์พุต 65,536
ความสามารถ	การสร้างเสียง สิ่งที่ทำไม่ได้ Batch API สิ่งที่ทำไม่ได้ การแคช สิ่งที่ทำไม่ได้ การรันโค้ด สิ่งที่ทำได้ การเรียกใช้ฟังก์ชัน สิ่งที่ทำได้ การเชื่อมต่อแหล่งข้อมูลกับ Google Maps สิ่งที่ทำไม่ได้ การสร้างรูปภาพ สิ่งที่ทำไม่ได้ Live API สิ่งที่ทำไม่ได้ การเชื่อมต่อแหล่งข้อมูลของ Search สิ่งที่ทำได้ เอาต์พุตที่มีโครงสร้าง สิ่งที่ทำได้ การคิด สิ่งที่ทำได้ บริบทของ URL สิ่งที่ทำได้
เวอร์ชัน	อ่านรายละเอียดเพิ่มเติมได้ในรูปแบบเวอร์ชันของโมเดล ตัวอย่าง: `gemini-robotics-er-1.5-preview`
การอัปเดตล่าสุด	กันยายน 2025
การตัดข้อมูล	มกราคม 2025