Gemini 3 đã ra mắt. Hãy đọc hướng dẫn dành cho nhà phát triển để bắt đầu sử dụng mô hình tiên tiến nhất của chúng tôi.

Trang này được dịch bởi Cloud Translation API.

Get started with Live API

Live API cho phép bạn tương tác với Gemini bằng giọng nói và video theo thời gian thực với độ trễ thấp. Nền tảng này xử lý luồng âm thanh, video hoặc văn bản liên tục để đưa ra các câu trả lời bằng lời nói tức thì, giống như con người, tạo ra trải nghiệm trò chuyện tự nhiên cho người dùng.

Tổng quan về Live API

Live API cung cấp một bộ tính năng toàn diện như Phát hiện hoạt động bằng giọng nói, sử dụng công cụ và gọi hàm, quản lý phiên (để quản lý các cuộc trò chuyện kéo dài) và mã thông báo tạm thời (để xác thực an toàn phía máy khách).

Trang này giúp bạn bắt đầu với các ví dụ và đoạn mã mẫu cơ bản.

Dùng thử Live API trong Google AI Studio

Ứng dụng mẫu

Hãy xem các ứng dụng mẫu sau đây minh hoạ cách sử dụng Live API cho các trường hợp sử dụng toàn diện:

Ứng dụng khởi động âm thanh trực tiếp trên AI Studio, sử dụng các thư viện JavaScript để kết nối với Live API và truyền trực tuyến âm thanh hai chiều qua micrô và loa.
Sổ tay Python của Live API sử dụng Pyaudio để kết nối với Live API.

Nền tảng tích hợp của đối tác

Nếu muốn có quy trình phát triển đơn giản hơn, bạn có thể sử dụng Daily, LiveKit hoặc Voximplant. Đây là những nền tảng đối tác bên thứ ba đã tích hợp Gemini Live API qua giao thức WebRTC để đơn giản hoá quá trình phát triển các ứng dụng âm thanh và video theo thời gian thực.

Chọn một phương pháp triển khai

Khi tích hợp với Live API, bạn cần chọn một trong các phương pháp triển khai sau:

Máy chủ với máy chủ: Phần phụ trợ của bạn kết nối với Live API bằng WebSockets. Thông thường, ứng dụng của bạn sẽ gửi dữ liệu phát trực tiếp (âm thanh, video, văn bản) đến máy chủ của bạn, sau đó máy chủ sẽ chuyển tiếp dữ liệu đó đến Live API.
Từ máy khách đến máy chủ: Mã giao diện người dùng của bạn kết nối trực tiếp với Live API bằng WebSockets để truyền phát dữ liệu, bỏ qua phần phụ trợ.

Bắt đầu

Ví dụ này đọc một tệp WAV, gửi tệp đó ở định dạng chính xác và lưu dữ liệu nhận được dưới dạng tệp WAV.

Bạn có thể gửi âm thanh bằng cách chuyển đổi âm thanh đó sang định dạng đơn âm, 16 kHz, PCM 16 bit và bạn có thể nhận âm thanh bằng cách đặt AUDIO làm phương thức phản hồi. Đầu ra sử dụng tốc độ lấy mẫu 24 kHz.

Python

# Test file: https://storage.googleapis.com/generativeai-downloads/data/16000.wav
# Install helpers for converting files: pip install librosa soundfile
import asyncio
import io
from pathlib import Path
import wave
from google import genai
from google.genai import types
import soundfile as sf
import librosa

client = genai.Client()

# New native audio model:
model = "gemini-2.5-flash-native-audio-preview-09-2025"

config = {
  "response_modalities": ["AUDIO"],
  "system_instruction": "You are a helpful assistant and answer in a friendly tone.",
}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:

        buffer = io.BytesIO()
        y, sr = librosa.load("sample.wav", sr=16000)
        sf.write(buffer, y, sr, format='RAW', subtype='PCM_16')
        buffer.seek(0)
        audio_bytes = buffer.read()

        # If already in correct format, you can use this:
        # audio_bytes = Path("sample.pcm").read_bytes()

        await session.send_realtime_input(
            audio=types.Blob(data=audio_bytes, mime_type="audio/pcm;rate=16000")
        )

        wf = wave.open("audio.wav", "wb")
        wf.setnchannels(1)
        wf.setsampwidth(2)
        wf.setframerate(24000)  # Output is 24kHz

        async for response in session.receive():
            if response.data is not None:
                wf.writeframes(response.data)

            # Un-comment this code to print audio data info
            # if response.server_content.model_turn is not None:
            #      print(response.server_content.model_turn.parts[0].inline_data.mime_type)

        wf.close()

if __name__ == "__main__":
    asyncio.run(main())

JavaScript

// Test file: https://storage.googleapis.com/generativeai-downloads/data/16000.wav
import { GoogleGenAI, Modality } from '@google/genai';
import * as fs from "node:fs";
import pkg from 'wavefile';  // npm install wavefile
const { WaveFile } = pkg;

const ai = new GoogleGenAI({});
// WARNING: Do not use API keys in client-side (browser based) applications
// Consider using Ephemeral Tokens instead
// More information at: https://ai.google.dev/gemini-api/docs/ephemeral-tokens

// New native audio model:
const model = "gemini-2.5-flash-native-audio-preview-09-2025"

const config = {
  responseModalities: [Modality.AUDIO],
  systemInstruction: "You are a helpful assistant and answer in a friendly tone."
};

async function live() {
    const responseQueue = [];

    async function waitMessage() {
        let done = false;
        let message = undefined;
        while (!done) {
            message = responseQueue.shift();
            if (message) {
                done = true;
            } else {
                await new Promise((resolve) => setTimeout(resolve, 100));
            }
        }
        return message;
    }

    async function handleTurn() {
        const turns = [];
        let done = false;
        while (!done) {
            const message = await waitMessage();
            turns.push(message);
            if (message.serverContent && message.serverContent.turnComplete) {
                done = true;
            }
        }
        return turns;
    }

    const session = await ai.live.connect({
        model: model,
        callbacks: {
            onopen: function () {
                console.debug('Opened');
            },
            onmessage: function (message) {
                responseQueue.push(message);
            },
            onerror: function (e) {
                console.debug('Error:', e.message);
            },
            onclose: function (e) {
                console.debug('Close:', e.reason);
            },
        },
        config: config,
    });

    // Send Audio Chunk
    const fileBuffer = fs.readFileSync("sample.wav");

    // Ensure audio conforms to API requirements (16-bit PCM, 16kHz, mono)
    const wav = new WaveFile();
    wav.fromBuffer(fileBuffer);
    wav.toSampleRate(16000);
    wav.toBitDepth("16");
    const base64Audio = wav.toBase64();

    // If already in correct format, you can use this:
    // const fileBuffer = fs.readFileSync("sample.pcm");
    // const base64Audio = Buffer.from(fileBuffer).toString('base64');

    session.sendRealtimeInput(
        {
            audio: {
                data: base64Audio,
                mimeType: "audio/pcm;rate=16000"
            }
        }

    );

    const turns = await handleTurn();

    // Combine audio data strings and save as wave file
    const combinedAudio = turns.reduce((acc, turn) => {
        if (turn.data) {
            const buffer = Buffer.from(turn.data, 'base64');
            const intArray = new Int16Array(buffer.buffer, buffer.byteOffset, buffer.byteLength / Int16Array.BYTES_PER_ELEMENT);
            return acc.concat(Array.from(intArray));
        }
        return acc;
    }, []);

    const audioBuffer = new Int16Array(combinedAudio);

    const wf = new WaveFile();
    wf.fromScratch(1, 24000, '16', audioBuffer);  // output is 24kHz
    fs.writeFileSync('audio.wav', wf.toBuffer());

    session.close();
}

async function main() {
    await live().catch((e) => console.error('got error', e));
}

main();

Bước tiếp theo

Đọc hướng dẫn đầy đủ về Các chức năng của Live API để biết các chức năng và cấu hình chính; bao gồm cả tính năng Phát hiện hoạt động bằng giọng nói và các tính năng âm thanh gốc.
Đọc hướng dẫn về Cách sử dụng công cụ để tìm hiểu cách tích hợp Live API với các công cụ và tính năng gọi hàm.
Hãy đọc hướng dẫn Quản lý phiên để quản lý các cuộc trò chuyện kéo dài.
Đọc hướng dẫn về Mã thông báo tạm thời để xác thực an toàn trong các ứng dụng từ ứng dụng đến máy chủ.
Để biết thêm thông tin về API WebSockets cơ bản, hãy xem Tài liệu tham khảo về API WebSockets.