Gemini 3.1 Flash Live Preview เป็นโมเดลเสียงต่อเสียงที่มีเวลาในการตอบสนองต่ำ ซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับการสนทนาแบบเรียลไทม์และแอปพลิเคชัน AI ที่เน้นเสียงเป็นหลัก พร้อมการตรวจจับความแตกต่างของเสียง ความแม่นยำของตัวเลข และการรับรู้แบบมัลติโมดัล
เอกสารประกอบ
ไปที่คู่มือ Live API เพื่อดูความครอบคลุมทั้งหมด ของฟีเจอร์และความสามารถ
gemini-3.1-flash-live-preview
| พร็อพเพอร์ตี้ | คำอธิบาย |
|---|---|
| รหัสโมเดล |
gemini-3.1-flash-live-preview
|
| ประเภทข้อมูลที่รองรับ |
อินพุต ข้อความ รูปภาพ เสียง วิดีโอ เอาต์พุต ข้อความและเสียง |
| ขีดจำกัดของโทเค็น[*] |
ขีดจำกัดโทเค็นอินพุต 131,072 ขีดจำกัดโทเค็นเอาต์พุต 65,536 |
| ความสามารถ |
การสร้างเสียง สิ่งที่ทำได้ Batch API สิ่งที่ทำไม่ได้ การแคช สิ่งที่ทำไม่ได้ การดำเนินการโค้ด สิ่งที่ทำไม่ได้ ค้นหาไฟล์ ไม่รองรับ การเรียกใช้ฟังก์ชัน สิ่งที่ทำได้ การเชื่อมต่อแหล่งข้อมูลกับ Google Maps สิ่งที่ทำไม่ได้ การสร้างรูปภาพ สิ่งที่ทำไม่ได้ Live API สิ่งที่ทำได้ การเชื่อมต่อแหล่งข้อมูลของ Search สิ่งที่ทำได้ เอาต์พุตที่มีโครงสร้าง สิ่งที่ทำไม่ได้ การคิด สิ่งที่ทำได้ บริบทของ URL สิ่งที่ทำไม่ได้ |
| เวอร์ชัน |
|
| การอัปเดตล่าสุด | มีนาคม 2026 |
| การตัดข้อมูล | มกราคม 2025 |
การย้ายข้อมูลจาก Gemini 2.5 Flash Live
Gemini 3.1 Flash Live Preview ได้รับการเพิ่มประสิทธิภาพสำหรับการสนทนาแบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ
เมื่อย้ายข้อมูลจาก gemini-2.5-flash-native-audio-preview-12-2025 ให้พิจารณาสิ่งต่อไปนี้
- สตริงโมเดล: อัปเดตสตริงโมเดลจาก
gemini-2.5-flash-native-audio-preview-12-2025เป็นgemini-3.1-flash-live-preview - การกำหนดค่าการคิด: Gemini 3.1 ใช้
thinkingLevel(มีการตั้งค่า เช่นminimal,low,mediumและhigh) แทนthinkingBudgetค่าเริ่มต้นคือminimalเพื่อเพิ่มประสิทธิภาพให้มีเวลาในการตอบสนองต่ำที่สุด ดูระดับและงบประมาณที่ควรพิจารณา - เหตุการณ์ฝั่งเซิร์ฟเวอร์: ตอนนี้เหตุการณ์เดียว
BidiGenerateContentServerContentสามารถมีเนื้อหาหลายส่วนพร้อมกันได้ (เช่น เสียงและข้อความถอดเสียง) อัปเดตโค้ดเพื่อประมวลผลทุกส่วนในแต่ละเหตุการณ์เพื่อไม่ให้พลาดเนื้อหา - เนื้อหาของไคลเอ็นต์:
send_client_contentรองรับเฉพาะการเริ่มต้น ประวัติบริบทเริ่มต้น (ต้องตั้งค่าinitial_history_in_client_contentในhistory_config) ใช้send_realtime_inputเพื่อส่ง การอัปเดตข้อความระหว่างการสนทนา ดูการอัปเดตเนื้อหาแบบเพิ่มทีละรายการ - เปิดความครอบคลุม: ค่าเริ่มต้นคือ
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEOแทนTURN_INCLUDES_ONLY_ACTIVITYตอนนี้เทิร์นของโมเดลรวมถึงกิจกรรมเสียงที่ตรวจพบ และเฟรมวิดีโอทั้งหมดแล้ว หากปัจจุบันแอปพลิเคชันของคุณส่งสตรีมเฟรมวิดีโออย่างต่อเนื่อง คุณอาจต้องอัปเดตแอปพลิเคชันให้ส่งเฟรมวิดีโอเฉพาะเมื่อมีกิจกรรมเสียงเพื่อหลีกเลี่ยงการเสียค่าใช้จ่ายเพิ่มเติม - การเรียกใช้ฟังก์ชันแบบไม่พร้อมกัน: ยังไม่รองรับ การเรียกใช้ฟังก์ชันเป็นแบบ ซิงโครนัสเท่านั้น โมเดลจะไม่เริ่มตอบจนกว่าคุณจะส่ง การตอบกลับเครื่องมือ ดูการเรียกฟังก์ชันแบบไม่พร้อมกัน
- เสียงเชิงรุกและบทสนทนาที่แสดงอารมณ์: ฟีเจอร์เหล่านี้ยังไม่พร้อมใช้งานใน Gemini 3.1 Flash Live นำการกำหนดค่าสำหรับฟีเจอร์เหล่านี้ออกจากโค้ด ดู เสียงเชิงรุกและ บทสนทนาที่สื่ออารมณ์
ดูการเปรียบเทียบฟีเจอร์แบบละเอียดได้ที่ตารางการเปรียบเทียบโมเดลในคู่มือความสามารถ