Gemini Live API overview

Live API ช่วยให้โต้ตอบด้วยเสียงและภาพกับ Gemini ได้แบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ โดยจะประมวลผลสตรีมเสียง รูปภาพ และข้อความอย่างต่อเนื่องเพื่อส่งมอบ คำตอบที่พูดได้ทันทีและเหมือนมนุษย์ ซึ่งจะสร้างประสบการณ์การสนทนาที่เป็นธรรมชาติ สำหรับผู้ใช้

ภาพรวม Live API

กรณีการใช้งาน

คุณใช้ Live API เพื่อสร้างเอเจนต์เสียงแบบเรียลไทม์สำหรับ อุตสาหกรรมต่างๆ ได้ เช่น

  • อีคอมเมิร์ซและการค้าปลีก: ผู้ช่วยช็อปปิ้งที่ให้คำแนะนำที่ปรับเปลี่ยนในแบบของคุณ และตัวแทนฝ่ายสนับสนุนที่แก้ไขปัญหาของลูกค้า
  • เกม: ตัวละครที่ไม่ใช่ผู้เล่น (NPC) แบบอินเทอร์แอกทีฟ ผู้ช่วยในเกม และคำแปลเนื้อหาในเกมแบบเรียลไทม์
  • อินเทอร์เฟซรุ่นถัดไป: ประสบการณ์ที่เปิดใช้เสียงและวิดีโอในหุ่นยนต์ แว่นตาอัจฉริยะ และยานพาหนะ
  • การดูแลสุขอนามัย: เพื่อนร่วมทางด้านสุขภาพเพื่อการสนับสนุนและให้ความรู้แก่ผู้ป่วย
  • บริการทางการเงิน: ที่ปรึกษา AI สำหรับการจัดการความมั่งคั่งและคำแนะนำด้านการลงทุน
  • การศึกษา: ที่ปรึกษาและเพื่อนร่วมเรียนรู้ AI ที่ให้คำแนะนำและความคิดเห็นที่ปรับเปลี่ยนในแบบของคุณ

ฟีเจอร์หลัก

Live API มีชุดฟีเจอร์ที่ครอบคลุมสำหรับการสร้าง เอเจนต์เสียงที่แข็งแกร่ง ดังนี้

ข้อกำหนดทางเทคนิค

ตารางต่อไปนี้แสดงข้อกำหนดทางเทคนิคสำหรับ Live API

หมวดหมู่ รายละเอียด
รูปแบบอินพุต เสียง (เสียง PCM แบบ 16 บิตดิบ, 16kHz, little-endian), รูปภาพ (JPEG <= 1FPS), ข้อความ
รูปแบบเอาต์พุต เสียง (เสียง PCM 16 บิตแบบดิบ, 24kHz, Little-Endian)
โปรโตคอล การเชื่อมต่อ WebSocket แบบมีสถานะ (WSS)

เลือกวิธีการติดตั้งใช้งาน

เมื่อผสานรวมกับ Live API คุณจะต้องเลือกแนวทางการติดตั้งใช้งานอย่างใดอย่างหนึ่งต่อไปนี้

  • เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์: แบ็กเอนด์เชื่อมต่อกับ Live API โดยใช้ WebSockets โดยปกติแล้ว ไคลเอ็นต์จะส่งข้อมูลสตรีม (เสียง วิดีโอ ข้อความ) ไปยังเซิร์ฟเวอร์ของคุณ ซึ่งจะส่งต่อข้อมูลไปยัง Live API
  • ไคลเอ็นต์ถึงเซิร์ฟเวอร์: โค้ดส่วนหน้าจะเชื่อมต่อกับ Live API โดยตรง โดยใช้ WebSockets เพื่อสตรีมข้อมูลโดยข้ามแบ็กเอนด์

เริ่มต้นใช้งาน

เลือกคู่มือที่ตรงกับสภาพแวดล้อมในการพัฒนาของคุณ

เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์

เชื่อมต่อกับ Gemini Live API โดยใช้ GenAI SDK เพื่อสร้างแอปพลิเคชันแบบเรียลไทม์หลายรูปแบบด้วยแบ็กเอนด์ Python

ไคลเอ็นต์ต่อเซิร์ฟเวอร์

เชื่อมต่อกับ Gemini Live API โดยใช้ WebSockets เพื่อสร้างแอปพลิเคชันแบบเรียลไทม์หลายรูปแบบด้วยฟรอนท์เอนด์ JavaScript และโทเค็นชั่วคราว

ชุดพัฒนา Agent

สร้างเอเจนต์และใช้การสตรีมชุดพัฒนาซอฟต์แวร์เอเจนต์ (ADK) เพื่อเปิดใช้การสื่อสารด้วยเสียงและวิดีโอ

การผสานรวมพาร์ทเนอร์

หากต้องการเพิ่มประสิทธิภาพการพัฒนาแอปเสียงและวิดีโอแบบเรียลไทม์ คุณสามารถใช้ การผสานรวมของบุคคลที่สามที่รองรับ Gemini Live API ผ่าน WebRTC หรือ WebSockets