ตอนนี้ Interactions API พร้อมให้บริการแก่ผู้ใช้ทั่วไปแล้ว เราขอแนะนำให้ใช้ API นี้เพื่อเข้าถึงฟีเจอร์และโมเดลล่าสุดทั้งหมด

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

เวอร์ชันตัวอย่างของ Gemini 3.1 Flash Live

Gemini 3.1 Flash Live Preview เป็นโมเดลเสียงต่อเสียงที่มีเวลาในการตอบสนองต่ำ ซึ่งได้รับการปรับให้เหมาะกับบทสนทนาแบบเรียลไทม์และแอปพลิเคชัน AI ที่เน้นเสียงเป็นหลัก โดยมีความสามารถในการตรวจจับความแตกต่างของเสียง ความแม่นยำเชิงตัวเลข และการรับรู้แบบมัลติโมดัล

ลองใช้ใน Google AI Studio

เอกสารประกอบ

ดูคู่มือ Live API เพื่อดูฟีเจอร์และความสามารถทั้งหมด

gemini-3.1-flash-live-preview

พร็อพเพอร์ตี้	คำอธิบาย
รหัสโมเดล	`gemini-3.1-flash-live-preview`
ประเภทข้อมูลที่รองรับ	อินพุต ข้อความ รูปภาพ เสียง วิดีโอ เอาต์พุต ข้อความและเสียง
ขีดจำกัดโทเค็น^[*]	ขีดจำกัดโทเค็นอินพุต 131,072 ขีดจำกัดโทเค็นเอาต์พุต 65,536
ความสามารถ	การสร้างเสียง สิ่งที่ทำได้ การแคช ไม่รองรับ การเรียกใช้โค้ด ไม่รองรับ การค้นหาไฟล์ สิ่งที่ทำไม่ได้ การเรียกฟังก์ชัน สิ่งที่ทำได้ การเชื่อมต่อแหล่งข้อมูลกับ Google Maps ไม่รองรับ การสร้างรูปภาพ ไม่รองรับ Live API สิ่งที่ทำได้ การเชื่อมต่อแหล่งข้อมูลของ Search สิ่งที่ทำได้ เอาต์พุตที่มีโครงสร้าง ไม่รองรับ การคิด สิ่งที่ทำได้ บริบท URL ไม่รองรับ
ตัวเลือกการใช้งาน	Batch API ไม่รองรับ
เวอร์ชัน	อ่านรูปแบบเวอร์ชันของโมเดลเพื่อดูรายละเอียดเพิ่มเติม ตัวอย่าง: `gemini-3.1-flash-live-preview`
การอัปเดตล่าสุด	มีนาคม 2026
ขีดจำกัดความรู้	มกราคม 2025

การย้ายข้อมูลจาก Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview ได้รับการปรับให้เหมาะกับบทสนทนาแบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ เมื่อย้ายข้อมูลจาก gemini-2.5-flash-native-audio-preview-12-2025 โปรดคำนึงถึงสิ่งต่อไปนี้

สตริงโมเดล: อัปเดตสตริงโมเดลจาก gemini-2.5-flash-native-audio-preview-12-2025 เป็น gemini-3.1-flash-live-preview
การกำหนดค่าการคิด: Gemini 3.1 ใช้ thinkingLevel (มีการตั้งค่า เช่น minimal, low, medium, และ high) แทน thinkingBudget ค่าเริ่มต้นคือ minimal เพื่อเพิ่มประสิทธิภาพให้มีเวลาในการตอบสนองต่ำที่สุด ดู ระดับและงบประมาณการคิด
เหตุการณ์ของเซิร์ฟเวอร์: ตอนนี้เหตุการณ์ BidiGenerateContentServerContent รายการเดียวสามารถมีเนื้อหาหลายส่วนพร้อมกันได้ (เช่น เสียงและข้อความถอดเสียง) อัปเดตโค้ดเพื่อประมวลผลทุกส่วนในแต่ละเหตุการณ์เพื่อหลีกเลี่ยงการพลาดเนื้อหา
เนื้อหาของไคลเอ็นต์: send_client_content รองรับสำหรับการเริ่มต้น ประวัติบริบทเริ่มต้นเท่านั้น (ต้องตั้งค่า initial_history_in_client_content ใน history_config) ใช้ send_realtime_input เพื่อส่ง การอัปเดตข้อความระหว่างการสนทนา ดู การอัปเดตเนื้อหาแบบเพิ่มทีละส่วน
ความครอบคลุมของเทิร์น: ค่าเริ่มต้นคือ TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO แทน TURN_INCLUDES_ONLY_ACTIVITY ตอนนี้เทิร์นของโมเดลรวมกิจกรรมเสียงที่ตรวจพบและเฟรมวิดีโอทั้งหมด หากแอปพลิเคชันของคุณส่งสตรีมเฟรมวิดีโออย่างต่อเนื่องในปัจจุบัน คุณอาจต้องการอัปเดตแอปพลิเคชันให้ส่งเฟรมวิดีโอเฉพาะเมื่อมีกิจกรรมเสียงเพื่อหลีกเลี่ยงค่าใช้จ่ายเพิ่มเติม
การเรียกฟังก์ชันแบบอะซิงโครนัส: ยังไม่รองรับ การเรียกฟังก์ชันเป็นแบบซิงโครนัสเท่านั้น โมเดลจะไม่เริ่มตอบกลับจนกว่าคุณจะส่งการตอบกลับของเครื่องมือ ดู การเรียกใช้ฟังก์ชันแบบไม่พร้อมกัน
เสียงเชิงรุกและบทสนทนาเชิงอารมณ์: ฟีเจอร์เหล่านี้ยังไม่ รองรับใน Gemini 3.1 Flash Live นำการกำหนดค่าสำหรับฟีเจอร์เหล่านี้ออกจากโค้ด ดู เสียงเชิงรุกและ บทสนทนาเชิงอารมณ์

ดูการเปรียบเทียบฟีเจอร์แบบละเอียดได้ที่ ตารางการเปรียบเทียบรูปแบบการระบุแหล่งที่มาใน คู่มือความสามารถ