เวอร์ชันตัวอย่างของ Gemini 3.1 Flash Live

Gemini 3.1 Flash Live Preview เป็นโมเดลเสียงต่อเสียงที่มีเวลาในการตอบสนองต่ำ ซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับการสนทนาแบบเรียลไทม์และแอปพลิเคชัน AI ที่เน้นเสียงเป็นหลัก พร้อมการตรวจจับความแตกต่างของเสียง ความแม่นยำของตัวเลข และการรับรู้แบบมัลติโมดัล

เอกสารประกอบ

ไปที่คู่มือ Live API เพื่อดูความครอบคลุมทั้งหมด ของฟีเจอร์และความสามารถ

gemini-3.1-flash-live-preview

พร็อพเพอร์ตี้ คำอธิบาย
รหัสโมเดล gemini-3.1-flash-live-preview
ประเภทข้อมูลที่รองรับ

อินพุต

ข้อความ รูปภาพ เสียง วิดีโอ

เอาต์พุต

ข้อความและเสียง

ขีดจำกัดของโทเค็น[*]

ขีดจำกัดโทเค็นอินพุต

131,072

ขีดจำกัดโทเค็นเอาต์พุต

65,536

ความสามารถ

การสร้างเสียง

สิ่งที่ทำได้

Batch API

สิ่งที่ทำไม่ได้

การแคช

สิ่งที่ทำไม่ได้

การดำเนินการโค้ด

สิ่งที่ทำไม่ได้

ค้นหาไฟล์

ไม่รองรับ

การเรียกใช้ฟังก์ชัน

สิ่งที่ทำได้

การเชื่อมต่อแหล่งข้อมูลกับ Google Maps

สิ่งที่ทำไม่ได้

การสร้างรูปภาพ

สิ่งที่ทำไม่ได้

Live API

สิ่งที่ทำได้

การเชื่อมต่อแหล่งข้อมูลของ Search

สิ่งที่ทำได้

เอาต์พุตที่มีโครงสร้าง

สิ่งที่ทำไม่ได้

การคิด

สิ่งที่ทำได้

บริบทของ URL

สิ่งที่ทำไม่ได้

เวอร์ชัน
อ่านรายละเอียดเพิ่มเติมได้ในรูปแบบเวอร์ชันของโมเดล
  • ตัวอย่าง: gemini-3.1-flash-live-preview
การอัปเดตล่าสุด มีนาคม 2026
การตัดข้อมูล มกราคม 2025

การย้ายข้อมูลจาก Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview ได้รับการเพิ่มประสิทธิภาพสำหรับการสนทนาแบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ เมื่อย้ายข้อมูลจาก gemini-2.5-flash-native-audio-preview-12-2025 ให้พิจารณาสิ่งต่อไปนี้

  • สตริงโมเดล: อัปเดตสตริงโมเดลจาก gemini-2.5-flash-native-audio-preview-12-2025 เป็น gemini-3.1-flash-live-preview
  • การกำหนดค่าการคิด: Gemini 3.1 ใช้ thinkingLevel (มีการตั้งค่า เช่น minimal, low, medium และ high) แทน thinkingBudget ค่าเริ่มต้นคือ minimal เพื่อเพิ่มประสิทธิภาพให้มีเวลาในการตอบสนองต่ำที่สุด ดูระดับและงบประมาณที่ควรพิจารณา
  • เหตุการณ์ฝั่งเซิร์ฟเวอร์: ตอนนี้เหตุการณ์เดียว BidiGenerateContentServerContent สามารถมีเนื้อหาหลายส่วนพร้อมกันได้ (เช่น เสียงและข้อความถอดเสียง) อัปเดตโค้ดเพื่อประมวลผลทุกส่วนในแต่ละเหตุการณ์เพื่อไม่ให้พลาดเนื้อหา
  • เนื้อหาของไคลเอ็นต์: send_client_content รองรับเฉพาะการเริ่มต้น ประวัติบริบทเริ่มต้น (ต้องตั้งค่า initial_history_in_client_content ใน history_config) ใช้ send_realtime_input เพื่อส่ง การอัปเดตข้อความระหว่างการสนทนา ดูการอัปเดตเนื้อหาแบบเพิ่มทีละรายการ
  • เปิดความครอบคลุม: ค่าเริ่มต้นคือ TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO แทน TURN_INCLUDES_ONLY_ACTIVITY ตอนนี้เทิร์นของโมเดลรวมถึงกิจกรรมเสียงที่ตรวจพบ และเฟรมวิดีโอทั้งหมดแล้ว หากปัจจุบันแอปพลิเคชันของคุณส่งสตรีมเฟรมวิดีโออย่างต่อเนื่อง คุณอาจต้องอัปเดตแอปพลิเคชันให้ส่งเฟรมวิดีโอเฉพาะเมื่อมีกิจกรรมเสียงเพื่อหลีกเลี่ยงการเสียค่าใช้จ่ายเพิ่มเติม
  • การเรียกใช้ฟังก์ชันแบบไม่พร้อมกัน: ยังไม่รองรับ การเรียกใช้ฟังก์ชันเป็นแบบ ซิงโครนัสเท่านั้น โมเดลจะไม่เริ่มตอบจนกว่าคุณจะส่ง การตอบกลับเครื่องมือ ดูการเรียกฟังก์ชันแบบไม่พร้อมกัน
  • เสียงเชิงรุกและบทสนทนาที่แสดงอารมณ์: ฟีเจอร์เหล่านี้ยังไม่พร้อมใช้งานใน Gemini 3.1 Flash Live นำการกำหนดค่าสำหรับฟีเจอร์เหล่านี้ออกจากโค้ด ดู เสียงเชิงรุกและ บทสนทนาที่สื่ออารมณ์

ดูการเปรียบเทียบฟีเจอร์แบบละเอียดได้ที่ตารางการเปรียบเทียบโมเดลในคู่มือความสามารถ