Live API memungkinkan interaksi suara dan penglihatan real-time latensi rendah dengan Gemini. Model ini memproses aliran audio, gambar, dan teks yang berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia, sehingga menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Kasus penggunaan
Live API dapat digunakan untuk membangun agen suara real-time untuk berbagai industri, termasuk:
- E-commerce dan retail: Asisten belanja yang menawarkan rekomendasi yang dipersonalisasi dan agen dukungan yang menyelesaikan masalah pelanggan.
- Game: Karakter non-pemain (NPC) interaktif, asisten bantuan dalam game, dan terjemahan real-time konten dalam game.
- Antarmuka generasi berikutnya: Pengalaman yang mendukung suara dan video dalam robotika, kacamata pintar, dan kendaraan.
- Layanan kesehatan: Pendamping kesehatan untuk dukungan dan edukasi pasien.
- Jasa keuangan: Penasihat AI untuk pengelolaan kekayaan dan panduan investasi.
- Pendidikan: Pendamping belajar dan mentor AI yang memberikan instruksi dan masukan yang dipersonalisasi.
Fitur utama
Live API menawarkan serangkaian fitur komprehensif untuk membangun agen suara yang andal:
- Dukungan multibahasa: Berbicara dalam 70 bahasa yang didukung.
- Interupsi: Pengguna dapat menginterupsi model kapan saja untuk interaksi responsif.
- Penggunaan alat: Mengintegrasikan alat seperti pemanggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
- Transkripsi audio: Memberikan transkrip teks dari input pengguna dan output model.
- Audio proaktif: Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.
- Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.
Spesifikasi teknis
Tabel berikut menguraikan spesifikasi teknis untuk Live API:
| Kategori | Detail |
|---|---|
| Modalitas input | Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar (JPEG <= 1 FPS), teks |
| Modalitas output | Audio (audio PCM 16-bit mentah, 24 kHz, little-endian) |
| Protokol | Koneksi WebSocket stateful (WSS) |
Memilih pendekatan penerapan
Saat berintegrasi dengan Live API, Anda harus memilih salah satu pendekatan penerapan berikut:
- Server-ke-server: Backend Anda terhubung ke Live API menggunakan WebSockets. Biasanya, klien Anda mengirimkan data streaming (audio, video, teks) ke server Anda, yang kemudian meneruskannya ke Live API.
- Klien ke server: Kode frontend Anda terhubung langsung ke Live API menggunakan WebSockets untuk melakukan streaming data, dengan melewati backend Anda.
Mulai
Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:
Tutorial GenAI SDK
Terhubung ke Gemini Live API menggunakan GenAI SDK untuk membangun aplikasi multimodal real-time dengan backend Python.
Tutorial WebSocket
Terhubung ke Gemini Live API menggunakan WebSockets untuk membangun aplikasi multimodal real-time dengan frontend JavaScript dan token sementara.
Tutorial ADK
Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.
Integrasi partner
Untuk menyederhanakan pengembangan aplikasi audio dan video real-time, Anda dapat menggunakan integrasi pihak ketiga yang mendukung Gemini Live API melalui WebRTC atau WebSockets.
LiveKit
Menggunakan Gemini Live API dengan Agen LiveKit.
Pipecat oleh Daily
Buat chatbot AI real-time menggunakan Gemini Live dan Pipecat.
Fishjam oleh Software Mansion
Buat aplikasi streaming video dan audio live dengan Fishjam.
Agen Vision oleh Stream
Bangun aplikasi AI suara dan video real-time dengan Agen Vision.
Voximplant
Hubungkan panggilan masuk dan keluar ke Live API dengan Voximplant.
Firebase AI SDK
Mulai menggunakan Gemini Live API menggunakan Firebase AI Logic.