Multimodal Live API

Multimodal Live API ช่วยให้สามารถโต้ตอบแบบ 2 ทางที่มีเวลาในการตอบสนองต่ำได้โดยใช้อินพุตข้อความ เสียง และวิดีโอ โดยมีเอาต์พุตเป็นเสียงและข้อความ วิธีนี้ช่วยให้การสนทนาด้วยเสียงเป็นไปอย่างเป็นธรรมชาติและเหมือนมนุษย์ โดยคุณสามารถขัดจังหวะโมเดลได้ทุกเมื่อ ความสามารถในการเข้าใจวิดีโอของโมเดลจะขยายรูปแบบการสื่อสาร ซึ่งช่วยให้คุณแชร์ข้อมูลเข้าจากกล้องหรือสกรีนแคสต์และถามคำถามเกี่ยวกับสิ่งเหล่านั้นได้

Multimodal Live API มีความสามารถหลักๆ ดังนี้

  • มัลติโมดอล: โมเดลสามารถมองเห็น ได้ยิน และพูดได้
  • การโต้ตอบแบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ: โมเดลสามารถให้คำตอบได้อย่างรวดเร็ว
  • หน่วยความจําเซสชัน: โมเดลจะเก็บหน่วยความจําของการโต้ตอบทั้งหมดภายในเซสชันเดียว โดยจะเรียกข้อมูลที่เคยได้ยินหรือเห็นก่อนหน้านี้
  • การรองรับการเรียกใช้ฟังก์ชัน การดำเนินการโค้ด และการค้นหาเป็นเครื่องมือ: คุณผสานรวมโมเดลกับบริการและแหล่งข้อมูลภายนอกได้

Multimodal Live API ออกแบบมาเพื่อการสื่อสารแบบเซิร์ฟเวอร์ต่อเซิร์ฟเวอร์

สําหรับเว็บและแอปบนอุปกรณ์เคลื่อนที่ เราขอแนะนําให้ใช้การผสานรวมจากพาร์ทเนอร์ของเราที่ Daily

คู่มือการผสานรวม

เซสชัน

เซสชันแสดงการเชื่อมต่อ WebSocket รายการเดียวระหว่างไคลเอ็นต์กับเซิร์ฟเวอร์ Gemini

หลังจากไคลเอ็นต์เริ่มการเชื่อมต่อใหม่ เซสชันจะแลกเปลี่ยนข้อความกับเซิร์ฟเวอร์เพื่อทำสิ่งต่อไปนี้ได้

  • ส่งข้อความ เสียง หรือวิดีโอไปยังเซิร์ฟเวอร์ Gemini
  • รับเสียง ข้อความ หรือการตอบกลับการเรียกฟังก์ชันจากเซิร์ฟเวอร์ Gemini

ระบบจะส่งการกําหนดค่าเซสชันในข้อความแรกหลังจากการเชื่อมต่อ การกำหนดค่าเซสชันประกอบด้วยรูปแบบ พารามิเตอร์การสร้าง วิธีการของระบบ และเครื่องมือ

ดูตัวอย่างการกำหนดค่าต่อไปนี้

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

ดูข้อมูลเพิ่มเติมได้ที่ BidiGenerateContentSetup

ส่งข้อความ

ข้อความคือสตริงรูปแบบ JSON ที่แลกเปลี่ยนกันผ่านการเชื่อมต่อ WebSocket

หากต้องการส่งข้อความ ไคลเอ็นต์ต้องส่งข้อความไคลเอ็นต์ที่รองรับในรูปแบบสตริง JSON ผ่านการเชื่อมต่อ WebSocket ที่เปิดอยู่

ดูเพิ่มเติม