Gemini Live API overview

Live API ช่วยให้โต้ตอบด้วยเสียงและภาพกับ Gemini แบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ โดยจะประมวลผลสตรีมเสียง รูปภาพ และข้อความอย่างต่อเนื่องเพื่อส่งเสียงตอบกลับแบบเรียลไทม์ที่เหมือนกับเสียงพูดของมนุษย์ ซึ่งจะสร้างประสบการณ์การสนทนาที่เป็นธรรมชาติให้กับผู้ใช้

ภาพรวม Live API

กรณีการใช้งาน

คุณสามารถใช้ Live API เพื่อสร้าง Agent ที่โต้ตอบด้วยเสียงแบบเรียลไทม์สำหรับอุตสาหกรรมต่างๆ ได้แก่

  • อีคอมเมิร์ซและการค้าปลีก: ผู้ช่วยช็อปปิ้งที่ให้คำแนะนำที่ปรับให้เหมาะกับแต่ละบุคคลและ Agent ฝ่ายสนับสนุนที่แก้ไขปัญหาของลูกค้า
  • เกม: ตัวละครที่ไม่ใช่ผู้เล่น (NPC) แบบอินเทอร์แอกทีฟ ผู้ช่วยในเกม และการแปลเนื้อหาในเกมแบบเรียลไทม์
  • อินเทอร์เฟซยุคใหม่: ประสบการณ์ที่ใช้เสียงและวิดีโอได้ในหุ่นยนต์ แว่นตาอัจฉริยะ และยานพาหนะ
  • การดูแลสุขภาพ: เพื่อนร่วมดูแลสุขภาพเพื่อสนับสนุนและให้ความรู้แก่ผู้ป่วย
  • บริการทางการเงิน: ที่ปรึกษา AI สำหรับการจัดการความมั่งคั่งและคำแนะนำด้านการลงทุน
  • การศึกษา: ครูฝึก AI และเพื่อนร่วมเรียนที่ให้คำแนะนำและข้อเสนอแนะที่ปรับให้เหมาะกับแต่ละบุคคล

ฟีเจอร์หลัก

Live API มีชุดฟีเจอร์ที่ครอบคลุมสำหรับการสร้าง Agent ที่โต้ตอบด้วยเสียงที่มีประสิทธิภาพ ได้แก่

ข้อกำหนดทางเทคนิค

ตารางต่อไปนี้แสดงข้อกำหนดทางเทคนิคของ Live API

หมวดหมู่ รายละเอียด
รูปแบบอินพุต เสียง (เสียง PCM แบบดิบ 16 บิต, 16kHz, little-endian), รูปภาพ (JPEG <= 1FPS), ข้อความ
รูปแบบเอาต์พุต เสียง (เสียง PCM แบบดิบ 16 บิต, 24kHz, little-endian)
โปรโตคอล การเชื่อมต่อ WebSocket แบบมีสถานะ (WSS)

เลือกวิธีการนำไปใช้งาน

เมื่อผสานรวมกับ Live API คุณจะต้องเลือกวิธีการนำไปใช้งานวิธีใดวิธีหนึ่งต่อไปนี้

  • เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์: แบ็กเอนด์ของคุณจะเชื่อมต่อกับ Live API โดยใช้ WebSockets โดยปกติแล้ว ไคลเอ็นต์จะส่งข้อมูลสตรีม (เสียง วิดีโอ ข้อความ) ไปยังเซิร์ฟเวอร์ ซึ่งจะส่งต่อข้อมูลไปยัง Live API
  • ไคลเอ็นต์ต่อเซิร์ฟเวอร์: โค้ดส่วนหน้าจะเชื่อมต่อกับ Live API โดยตรง โดยใช้ WebSockets เพื่อสตรีมข้อมูล โดยข้ามแบ็กเอนด์

เริ่มต้นใช้งาน

เลือกคำแนะนำที่ตรงกับสภาพแวดล้อมในการพัฒนาซอฟต์แวร์ของคุณ

เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์

เชื่อมต่อกับ Gemini Live API โดยใช้ GenAI SDK เพื่อสร้างแอปพลิเคชันมัลติโมดัลแบบเรียลไทม์ด้วยแบ็กเอนด์ Python

ไคลเอ็นต์ต่อเซิร์ฟเวอร์

เชื่อมต่อกับ Gemini Live API โดยใช้ WebSocket เพื่อสร้างแอปพลิเคชันหลายรูปแบบแบบเรียลไทม์ด้วยฟรอนท์เอนด์ JavaScript และโทเค็นชั่วคราว

ชุดเครื่องมือพัฒนา Agent

สร้าง Agent และใช้การสตรีมชุดเครื่องมือพัฒนา Agent (ADK) เพื่อเปิดใช้การสื่อสารด้วยเสียงและวิดีโอ

การผสานรวมพาร์ทเนอร์

คุณสามารถใช้ การผสานรวมของบุคคลที่สามที่รองรับ Gemini Live API ผ่าน WebRTC หรือ WebSocket เพื่อเพิ่มประสิทธิภาพการพัฒนาแอปเสียงและวิดีโอแบบเรียลไทม์