Live API ช่วยให้โต้ตอบด้วยเสียงและภาพกับ Gemini แบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ โดยจะประมวลผลสตรีมเสียง รูปภาพ และข้อความอย่างต่อเนื่องเพื่อส่งเสียงตอบกลับแบบเรียลไทม์ที่เหมือนกับเสียงพูดของมนุษย์ ซึ่งจะสร้างประสบการณ์การสนทนาที่เป็นธรรมชาติให้กับผู้ใช้

กรณีการใช้งาน
คุณสามารถใช้ Live API เพื่อสร้าง Agent ที่โต้ตอบด้วยเสียงแบบเรียลไทม์สำหรับอุตสาหกรรมต่างๆ ได้แก่
- อีคอมเมิร์ซและการค้าปลีก: ผู้ช่วยช็อปปิ้งที่ให้คำแนะนำที่ปรับให้เหมาะกับแต่ละบุคคลและ Agent ฝ่ายสนับสนุนที่แก้ไขปัญหาของลูกค้า
- เกม: ตัวละครที่ไม่ใช่ผู้เล่น (NPC) แบบอินเทอร์แอกทีฟ ผู้ช่วยในเกม และการแปลเนื้อหาในเกมแบบเรียลไทม์
- อินเทอร์เฟซยุคใหม่: ประสบการณ์ที่ใช้เสียงและวิดีโอได้ในหุ่นยนต์ แว่นตาอัจฉริยะ และยานพาหนะ
- การดูแลสุขภาพ: เพื่อนร่วมดูแลสุขภาพเพื่อสนับสนุนและให้ความรู้แก่ผู้ป่วย
- บริการทางการเงิน: ที่ปรึกษา AI สำหรับการจัดการความมั่งคั่งและคำแนะนำด้านการลงทุน
- การศึกษา: ครูฝึก AI และเพื่อนร่วมเรียนที่ให้คำแนะนำและข้อเสนอแนะที่ปรับให้เหมาะกับแต่ละบุคคล
ฟีเจอร์หลัก
Live API มีชุดฟีเจอร์ที่ครอบคลุมสำหรับการสร้าง Agent ที่โต้ตอบด้วยเสียงที่มีประสิทธิภาพ ได้แก่
- รองรับหลายภาษา: สนทนาในภาษาที่รองรับ 70 ภาษา
- Barge-in: ผู้ใช้สามารถขัดจังหวะโมเดลได้ทุกเมื่อเพื่อการโต้ตอบที่ตอบสนอง
- การใช้เครื่องมือ: ผสานรวมเครื่องมือต่างๆ เช่น การเรียกใช้ฟังก์ชันและการค้นหาของ Google เพื่อการโต้ตอบแบบไดนามิก
- การถอดเสียง: ให้ข้อความถอดเสียงทั้งข้อมูลจากผู้ใช้และเอาต์พุตโมเดล
- เสียงเชิงรุก: ให้คุณควบคุมได้ว่าโมเดลจะตอบกลับเมื่อใดและในบริบทใด
- การโต้ตอบที่สะท้อนถึงความรู้สึก: ปรับรูปแบบและน้ำเสียงในการตอบกลับให้ตรงกับคำพูดของผู้ใช้
ข้อกำหนดทางเทคนิค
ตารางต่อไปนี้แสดงข้อกำหนดทางเทคนิคของ Live API
| หมวดหมู่ | รายละเอียด |
|---|---|
| รูปแบบอินพุต | เสียง (เสียง PCM แบบดิบ 16 บิต, 16kHz, little-endian), รูปภาพ (JPEG <= 1FPS), ข้อความ |
| รูปแบบเอาต์พุต | เสียง (เสียง PCM แบบดิบ 16 บิต, 24kHz, little-endian) |
| โปรโตคอล | การเชื่อมต่อ WebSocket แบบมีสถานะ (WSS) |
เลือกวิธีการนำไปใช้งาน
เมื่อผสานรวมกับ Live API คุณจะต้องเลือกวิธีการนำไปใช้งานวิธีใดวิธีหนึ่งต่อไปนี้
- เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์: แบ็กเอนด์ของคุณจะเชื่อมต่อกับ Live API โดยใช้ WebSockets โดยปกติแล้ว ไคลเอ็นต์จะส่งข้อมูลสตรีม (เสียง วิดีโอ ข้อความ) ไปยังเซิร์ฟเวอร์ ซึ่งจะส่งต่อข้อมูลไปยัง Live API
- ไคลเอ็นต์ต่อเซิร์ฟเวอร์: โค้ดส่วนหน้าจะเชื่อมต่อกับ Live API โดยตรง โดยใช้ WebSockets เพื่อสตรีมข้อมูล โดยข้ามแบ็กเอนด์
เริ่มต้นใช้งาน
เลือกคำแนะนำที่ตรงกับสภาพแวดล้อมในการพัฒนาซอฟต์แวร์ของคุณ
บทแนะนำเกี่ยวกับ GenAI SDK
เชื่อมต่อกับ Gemini Live API โดยใช้ GenAI SDK เพื่อสร้างแอปพลิเคชันมัลติโมดัลแบบเรียลไทม์ด้วยแบ็กเอนด์ Python
บทแนะนำเกี่ยวกับ WebSocket
เชื่อมต่อกับ Gemini Live API โดยใช้ WebSocket เพื่อสร้างแอปพลิเคชันหลายรูปแบบแบบเรียลไทม์ด้วยฟรอนท์เอนด์ JavaScript และโทเค็นชั่วคราว
บทแนะนำเกี่ยวกับ ADK
สร้าง Agent และใช้การสตรีมชุดเครื่องมือพัฒนา Agent (ADK) เพื่อเปิดใช้การสื่อสารด้วยเสียงและวิดีโอ
การผสานรวมพาร์ทเนอร์
คุณสามารถใช้ การผสานรวมของบุคคลที่สามที่รองรับ Gemini Live API ผ่าน WebRTC หรือ WebSocket เพื่อเพิ่มประสิทธิภาพการพัฒนาแอปเสียงและวิดีโอแบบเรียลไทม์
LiveKit
ใช้ Gemini Live API กับ LiveKit Agent
Pipecat by Daily
สร้างแชทบอต AI แบบเรียลไทม์โดยใช้ Gemini Live และ Pipecat
Fishjam by Software Mansion
สร้างแอปพลิเคชันการสตรีมวิดีโอสดและเสียงด้วย Fishjam
Vision Agents by Stream
สร้างแอปพลิเคชัน AI ที่โต้ตอบด้วยเสียงและวิดีโอแบบเรียลไทม์ด้วย Vision Agents
Voximplant
เชื่อมต่อสายเรียกเข้าและสายโทรออกกับ Live API ด้วย Voximplant
Agora
สร้างแอปพลิเคชัน AI สำหรับการสนทนาแบบเรียลไทม์ด้วย Agora
Firebase AI SDK
เริ่มต้นใช้งาน Gemini Live API โดยใช้ Firebase AI Logic