Multimodal Live API ช่วยให้สามารถโต้ตอบแบบ 2 ทางที่มีเวลาในการตอบสนองต่ำได้โดยใช้อินพุตข้อความ เสียง และวิดีโอ โดยมีเอาต์พุตเป็นเสียงและข้อความ วิธีนี้ช่วยให้การสนทนาด้วยเสียงเป็นไปอย่างเป็นธรรมชาติและเหมือนมนุษย์ โดยคุณสามารถขัดจังหวะโมเดลได้ทุกเมื่อ ความสามารถในการเข้าใจวิดีโอของโมเดลจะขยายรูปแบบการสื่อสาร ซึ่งช่วยให้คุณแชร์ข้อมูลเข้าจากกล้องหรือสกรีนแคสต์และถามคำถามเกี่ยวกับสิ่งเหล่านั้นได้
Multimodal Live API มีความสามารถหลักๆ ดังนี้
- มัลติโมดอล: โมเดลสามารถมองเห็น ได้ยิน และพูดได้
- การโต้ตอบแบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ: โมเดลสามารถให้คำตอบได้อย่างรวดเร็ว
- หน่วยความจําเซสชัน: โมเดลจะเก็บหน่วยความจําของการโต้ตอบทั้งหมดภายในเซสชันเดียว โดยจะเรียกข้อมูลที่เคยได้ยินหรือเห็นก่อนหน้านี้
- การรองรับการเรียกใช้ฟังก์ชัน การดำเนินการโค้ด และการค้นหาเป็นเครื่องมือ: คุณผสานรวมโมเดลกับบริการและแหล่งข้อมูลภายนอกได้
Multimodal Live API ออกแบบมาเพื่อการสื่อสารแบบเซิร์ฟเวอร์ต่อเซิร์ฟเวอร์
สําหรับเว็บและแอปบนอุปกรณ์เคลื่อนที่ เราขอแนะนําให้ใช้การผสานรวมจากพาร์ทเนอร์ของเราที่ Daily
คู่มือการผสานรวม
เซสชัน
เซสชันแสดงการเชื่อมต่อ WebSocket รายการเดียวระหว่างไคลเอ็นต์กับเซิร์ฟเวอร์ Gemini
หลังจากไคลเอ็นต์เริ่มการเชื่อมต่อใหม่ เซสชันจะแลกเปลี่ยนข้อความกับเซิร์ฟเวอร์เพื่อทำสิ่งต่อไปนี้ได้
- ส่งข้อความ เสียง หรือวิดีโอไปยังเซิร์ฟเวอร์ Gemini
- รับเสียง ข้อความ หรือการตอบกลับการเรียกฟังก์ชันจากเซิร์ฟเวอร์ Gemini
ระบบจะส่งการกําหนดค่าเซสชันในข้อความแรกหลังจากการเชื่อมต่อ การกำหนดค่าเซสชันประกอบด้วยรูปแบบ พารามิเตอร์การสร้าง วิธีการของระบบ และเครื่องมือ
ดูตัวอย่างการกำหนดค่าต่อไปนี้
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
ดูข้อมูลเพิ่มเติมได้ที่ BidiGenerateContentSetup
ส่งข้อความ
ข้อความคือสตริงรูปแบบ JSON ที่แลกเปลี่ยนกันผ่านการเชื่อมต่อ WebSocket
หากต้องการส่งข้อความ ไคลเอ็นต์ต้องส่งข้อความไคลเอ็นต์ที่รองรับในรูปแบบสตริง JSON ผ่านการเชื่อมต่อ WebSocket ที่เปิดอยู่
ดูเพิ่มเติม
- ดูข้อมูลเพิ่มเติมเกี่ยวกับช่อง API ที่ใช้กันโดยทั่วไป (เช่น
Content
และTool
) ได้ที่การสร้างเนื้อหา - ดูข้อมูลเพิ่มเติมเกี่ยวกับการเรียกใช้ฟังก์ชัน