Gemini Deep Research พร้อมให้บริการในเวอร์ชันพรีวิวแล้วตอนนี้ โดยมีฟีเจอร์การวางแผนร่วมกัน การแสดงภาพข้อมูล การรองรับ MCP และอื่นๆ

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API overview

Live API ช่วยให้โต้ตอบด้วยเสียงและภาพกับ Gemini แบบเรียลไทม์ที่มีเวลาในการตอบสนองต่ำ โดยจะประมวลผลสตรีมเสียง รูปภาพ และข้อความอย่างต่อเนื่องเพื่อส่งเสียงตอบกลับแบบเรียลไทม์ที่เหมือนกับเสียงพูดของมนุษย์ ซึ่งจะสร้างประสบการณ์การสนทนาที่เป็นธรรมชาติให้กับผู้ใช้

ภาพรวม Live API

ลองใช้ Live API ใน Google AI Studio โคลนแอปตัวอย่างจาก GitHub ใช้ทักษะของ Agent ในการเขียนโค้ด

กรณีการใช้งาน

คุณสามารถใช้ Live API เพื่อสร้าง Agent ที่โต้ตอบด้วยเสียงแบบเรียลไทม์สำหรับอุตสาหกรรมต่างๆ ได้แก่

อีคอมเมิร์ซและการค้าปลีก: ผู้ช่วยช็อปปิ้งที่ให้คำแนะนำที่ปรับให้เหมาะกับแต่ละบุคคลและ Agent ฝ่ายสนับสนุนที่แก้ไขปัญหาของลูกค้า
เกม: ตัวละครที่ไม่ใช่ผู้เล่น (NPC) แบบอินเทอร์แอกทีฟ ผู้ช่วยในเกม และการแปลเนื้อหาในเกมแบบเรียลไทม์
อินเทอร์เฟซยุคใหม่: ประสบการณ์ที่ใช้เสียงและวิดีโอได้ในหุ่นยนต์ แว่นตาอัจฉริยะ และยานพาหนะ
การดูแลสุขภาพ: เพื่อนร่วมดูแลสุขภาพเพื่อสนับสนุนและให้ความรู้แก่ผู้ป่วย
บริการทางการเงิน: ที่ปรึกษา AI สำหรับการจัดการความมั่งคั่งและคำแนะนำด้านการลงทุน
การศึกษา: ครูฝึก AI และเพื่อนร่วมเรียนที่ให้คำแนะนำและข้อเสนอแนะที่ปรับให้เหมาะกับแต่ละบุคคล

ฟีเจอร์หลัก

Live API มีชุดฟีเจอร์ที่ครอบคลุมสำหรับการสร้าง Agent ที่โต้ตอบด้วยเสียงที่มีประสิทธิภาพ ได้แก่

รองรับหลายภาษา: สนทนาในภาษาที่รองรับ 70 ภาษา
Barge-in: ผู้ใช้สามารถขัดจังหวะโมเดลได้ทุกเมื่อเพื่อการโต้ตอบที่ตอบสนอง
การใช้เครื่องมือ: ผสานรวมเครื่องมือต่างๆ เช่น การเรียกใช้ฟังก์ชันและการค้นหาของ Google เพื่อการโต้ตอบแบบไดนามิก
การถอดเสียง: ให้ข้อความถอดเสียงทั้งข้อมูลจากผู้ใช้และเอาต์พุตโมเดล
เสียงเชิงรุก: ให้คุณควบคุมได้ว่าโมเดลจะตอบกลับเมื่อใดและในบริบทใด
การโต้ตอบที่สะท้อนถึงความรู้สึก: ปรับรูปแบบและน้ำเสียงในการตอบกลับให้ตรงกับคำพูดของผู้ใช้

ข้อกำหนดทางเทคนิค

ตารางต่อไปนี้แสดงข้อกำหนดทางเทคนิคของ Live API

หมวดหมู่	รายละเอียด
รูปแบบอินพุต	เสียง (เสียง PCM แบบดิบ 16 บิต, 16kHz, little-endian), รูปภาพ (JPEG <= 1FPS), ข้อความ
รูปแบบเอาต์พุต	เสียง (เสียง PCM แบบดิบ 16 บิต, 24kHz, little-endian)
โปรโตคอล	การเชื่อมต่อ WebSocket แบบมีสถานะ (WSS)

เลือกวิธีการนำไปใช้งาน

เมื่อผสานรวมกับ Live API คุณจะต้องเลือกวิธีการนำไปใช้งานวิธีใดวิธีหนึ่งต่อไปนี้

เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์: แบ็กเอนด์ของคุณจะเชื่อมต่อกับ Live API โดยใช้ WebSockets โดยปกติแล้ว ไคลเอ็นต์จะส่งข้อมูลสตรีม (เสียง วิดีโอ ข้อความ) ไปยังเซิร์ฟเวอร์ ซึ่งจะส่งต่อข้อมูลไปยัง Live API
ไคลเอ็นต์ต่อเซิร์ฟเวอร์: โค้ดส่วนหน้าจะเชื่อมต่อกับ Live API โดยตรง โดยใช้ WebSockets เพื่อสตรีมข้อมูล โดยข้ามแบ็กเอนด์

หมายเหตุ: โดยทั่วไปแล้ว ไคลเอ็นต์ต่อเซิร์ฟเวอร์จะให้ประสิทธิภาพที่ดีกว่าสำหรับการสตรีมเสียง และวิดีโอ เนื่องจากไม่จำเป็นต้องส่งสตรีมไปยังแบ็กเอนด์ก่อน นอกจากนี้ การตั้งค่าก็ทำได้ง่ายกว่าเนื่องจากคุณไม่จำเป็นต้องใช้พร็อกซีที่ส่งข้อมูลจากไคลเอ็นต์ไปยังเซิร์ฟเวอร์ แล้วจากเซิร์ฟเวอร์ไปยัง API อย่างไรก็ตาม สำหรับสภาพแวดล้อมการใช้งานจริง เราขอแนะนำ ให้ใช้โทเค็นชั่วคราวแทน คีย์ API มาตรฐาน

เริ่มต้นใช้งาน

เลือกคำแนะนำที่ตรงกับสภาพแวดล้อมในการพัฒนาซอฟต์แวร์ของคุณ

เซิร์ฟเวอร์ต่อเซิร์ฟเวอร์

บทแนะนำเกี่ยวกับ GenAI SDK

เชื่อมต่อกับ Gemini Live API โดยใช้ GenAI SDK เพื่อสร้างแอปพลิเคชันมัลติโมดัลแบบเรียลไทม์ด้วยแบ็กเอนด์ Python

ไคลเอ็นต์ต่อเซิร์ฟเวอร์

บทแนะนำเกี่ยวกับ WebSocket

เชื่อมต่อกับ Gemini Live API โดยใช้ WebSocket เพื่อสร้างแอปพลิเคชันหลายรูปแบบแบบเรียลไทม์ด้วยฟรอนท์เอนด์ JavaScript และโทเค็นชั่วคราว

ชุดเครื่องมือพัฒนา Agent

บทแนะนำเกี่ยวกับ ADK

สร้าง Agent และใช้การสตรีมชุดเครื่องมือพัฒนา Agent (ADK) เพื่อเปิดใช้การสื่อสารด้วยเสียงและวิดีโอ

การผสานรวมพาร์ทเนอร์

คุณสามารถใช้ การผสานรวมของบุคคลที่สามที่รองรับ Gemini Live API ผ่าน WebRTC หรือ WebSocket เพื่อเพิ่มประสิทธิภาพการพัฒนาแอปเสียงและวิดีโอแบบเรียลไทม์

LiveKit

ใช้ Gemini Live API กับ LiveKit Agent

Pipecat by Daily

สร้างแชทบอต AI แบบเรียลไทม์โดยใช้ Gemini Live และ Pipecat

Fishjam by Software Mansion

สร้างแอปพลิเคชันการสตรีมวิดีโอสดและเสียงด้วย Fishjam

Vision Agents by Stream

สร้างแอปพลิเคชัน AI ที่โต้ตอบด้วยเสียงและวิดีโอแบบเรียลไทม์ด้วย Vision Agents

Voximplant

เชื่อมต่อสายเรียกเข้าและสายโทรออกกับ Live API ด้วย Voximplant

Agora

สร้างแอปพลิเคชัน AI สำหรับการสนทนาแบบเรียลไทม์ด้วย Agora

Firebase AI SDK

เริ่มต้นใช้งาน Gemini Live API โดยใช้ Firebase AI Logic