Deep Research Gemini kini tersedia dalam pratinjau dengan perencanaan kolaboratif, visualisasi, dukungan MCP, dan lainnya.

Gemini Live API overview

Live API memungkinkan interaksi suara dan penglihatan real-time latensi rendah dengan Gemini. Model ini memproses aliran audio, gambar, dan teks yang berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia, sehingga menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Ringkasan Live API

Coba Live API di Google AI Studio Clone aplikasi contoh dari GitHub Gunakan keterampilan agen coding

Kasus penggunaan

Live API dapat digunakan untuk membangun agen suara real-time untuk berbagai industri, termasuk:

E-commerce dan retail: Asisten belanja yang menawarkan rekomendasi yang dipersonalisasi dan agen dukungan yang menyelesaikan masalah pelanggan.
Game: Karakter non-pemain (NPC) interaktif, asisten bantuan dalam game, dan terjemahan real-time konten dalam game.
Antarmuka generasi berikutnya: Pengalaman yang mendukung suara dan video dalam robotika, kacamata pintar, dan kendaraan.
Layanan kesehatan: Pendamping kesehatan untuk dukungan dan edukasi pasien.
Jasa keuangan: Penasihat AI untuk pengelolaan kekayaan dan panduan investasi.
Pendidikan: Pendamping belajar dan mentor AI yang memberikan instruksi dan masukan yang dipersonalisasi.

Fitur utama

Live API menawarkan serangkaian fitur komprehensif untuk membangun agen suara yang andal:

Dukungan multibahasa: Berbicara dalam 70 bahasa yang didukung.
Penyelaan: Pengguna dapat menyela model kapan saja untuk interaksi responsif.
Penggunaan alat: Mengintegrasikan alat seperti pemanggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
Transkripsi audio: Memberikan transkrip teks dari input pengguna dan output model.
Audio proaktif: Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.
Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.

Spesifikasi teknis

Tabel berikut menguraikan spesifikasi teknis untuk Live API:

Kategori	Detail
Modalitas input	Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar (JPEG <= 1 FPS), teks
Modalitas output	Audio (audio PCM 16-bit mentah, 24 kHz, little-endian)
Protokol	Koneksi WebSocket stateful (WSS)

Memilih pendekatan penerapan

Saat berintegrasi dengan Live API, Anda harus memilih salah satu pendekatan penerapan berikut:

Server-ke-server: Backend Anda terhubung ke Live API menggunakan WebSockets. Biasanya, klien Anda mengirimkan data streaming (audio, video, teks) ke server Anda, yang kemudian meneruskannya ke Live API.
Klien ke server: Kode frontend Anda terhubung langsung ke Live API menggunakan WebSockets untuk melakukan streaming data, dengan melewati backend Anda.

Mulai

Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:

Server-to-server

Tutorial GenAI SDK

Terhubung ke Gemini Live API menggunakan GenAI SDK untuk membangun aplikasi multimodal real-time dengan backend Python.

Klien ke server

Tutorial WebSocket

Terhubung ke Gemini Live API menggunakan WebSockets untuk membangun aplikasi multimodal real-time dengan frontend JavaScript dan token sementara.

Agent Development Kit

Tutorial ADK

Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.

Integrasi partner

Untuk menyederhanakan pengembangan aplikasi audio dan video real-time, Anda dapat menggunakan integrasi pihak ketiga yang mendukung Gemini Live API melalui WebRTC atau WebSockets.

LiveKit

Menggunakan Gemini Live API dengan Agen LiveKit.

Pipecat oleh Daily

Buat chatbot AI real-time menggunakan Gemini Live dan Pipecat.

Fishjam oleh Software Mansion

Buat aplikasi streaming video dan audio live dengan Fishjam.

Agen Vision by Stream

Bangun aplikasi AI suara dan video real-time dengan Agen Vision.

Voximplant

Hubungkan panggilan masuk dan keluar ke Live API dengan Voximplant.

Agora

Bangun aplikasi AI percakapan real-time dengan Agora.

Firebase AI SDK

Mulai menggunakan Gemini Live API menggunakan Firebase AI Logic.