Get started with Live API

Live API を使用すると、Gemini との音声と動画による低レイテンシのリアルタイムのやり取りが可能になります。音声、動画、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供し、ユーザーに自然な会話体験を提供します。

Live API の概要

Live API は、音声検出、ツール使用と関数呼び出し、セッション管理（長時間実行される会話の管理用）、エフェメラルトークン（安全なクライアントサイド認証用）など、包括的な機能セットを提供します。

このページでは、例と基本的なコードサンプルを使用して、すぐに作業を開始できます。

Google AI Studio で Live API を試す

アプリケーション例

エンドツーエンドのユースケースで Live API を使用する方法を示す次のサンプルアプリケーションをご覧ください。

AI Studio の Live Audio スターターアプリ。JavaScript ライブラリを使用して Live API に接続し、マイクとスピーカーを介して双方向の音声をストリーミングします。
Live API に接続する Pyaudio を使用した Live API Python クックブック。

パートナーとの統合

開発プロセスを簡素化したい場合は、Daily、LiveKit、Voximplant を使用できます。これらは、WebRTC プロトコルを介して Gemini Live API をすでに統合し、リアルタイムの音声および動画アプリケーションの開発を効率化しているサードパーティパートナープラットフォームです。

構築を開始する前に

Live API を使用して構築を開始する前に、モデルの選択と実装アプローチの選択という 2 つの重要な決定を行う必要があります。

音声生成アーキテクチャを選択する

音声ベースのユースケースを構築する場合、モデルの選択によって、音声レスポンスの作成に使用される音声生成アーキテクチャが決まります。

ネイティブ音声: このオプションでは、最も自然でリアルな音声と、より優れた多言語パフォーマンスが提供されます。また、アフェクティブ（感情認識）ダイアログ、プロアクティブ音声（モデルが特定の入力を無視するか応答するかを決定できる）、「思考」などの高度な機能も有効になります。ネイティブ音声は、次のネイティブ音声モデルでサポートされています。
- gemini-2.5-flash-native-audio-preview-09-2025
ハーフカスケード音声: このオプションでは、カスケードモデルアーキテクチャ（ネイティブ音声入力とテキスト読み上げ出力）が使用されます。特にツールの使用において、本番環境でのパフォーマンスと信頼性が向上します。ハーフカスケードオーディオは、次のモデルでサポートされています。
- gemini-live-2.5-flash-preview
- gemini-2.0-flash-live-001

実装アプローチを選択する

Live API と統合する際は、次のいずれかの実装方法を選択する必要があります。

サーバー間: バックエンドが WebSockets を使用して Live API に接続します。通常、クライアントはストリームデータ（音声、動画、テキスト）をサーバーに送信し、サーバーが Live API に転送します。
クライアントからサーバーへ: フロントエンドコードが WebSockets を使用して Live API に直接接続し、バックエンドをバイパスしてデータをストリーミングします。

始める

この例では、WAV ファイルを読み取り、正しい形式で送信し、受信したデータを WAV ファイルとして保存します。

音声を 16 ビット PCM、16 kHz、モノラル形式に変換することで音声を送信できます。また、AUDIO をレスポンスモダリティとして設定することで音声を受信できます。出力では 24 kHz のサンプリングレートが使用されます。

Python

# Test file: https://storage.googleapis.com/generativeai-downloads/data/16000.wav
# Install helpers for converting files: pip install librosa soundfile
import asyncio
import io
from pathlib import Path
import wave
from google import genai
from google.genai import types
import soundfile as sf
import librosa

client = genai.Client()

# New native audio model:
model = "gemini-2.5-flash-native-audio-preview-09-2025"

config = {
  "response_modalities": ["AUDIO"],
  "system_instruction": "You are a helpful assistant and answer in a friendly tone.",
}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:

        buffer = io.BytesIO()
        y, sr = librosa.load("sample.wav", sr=16000)
        sf.write(buffer, y, sr, format='RAW', subtype='PCM_16')
        buffer.seek(0)
        audio_bytes = buffer.read()

        # If already in correct format, you can use this:
        # audio_bytes = Path("sample.pcm").read_bytes()

        await session.send_realtime_input(
            audio=types.Blob(data=audio_bytes, mime_type="audio/pcm;rate=16000")
        )

        wf = wave.open("audio.wav", "wb")
        wf.setnchannels(1)
        wf.setsampwidth(2)
        wf.setframerate(24000)  # Output is 24kHz

        async for response in session.receive():
            if response.data is not None:
                wf.writeframes(response.data)

            # Un-comment this code to print audio data info
            # if response.server_content.model_turn is not None:
            #      print(response.server_content.model_turn.parts[0].inline_data.mime_type)

        wf.close()

if __name__ == "__main__":
    asyncio.run(main())

JavaScript

// Test file: https://storage.googleapis.com/generativeai-downloads/data/16000.wav
import { GoogleGenAI, Modality } from '@google/genai';
import * as fs from "node:fs";
import pkg from 'wavefile';  // npm install wavefile
const { WaveFile } = pkg;

const ai = new GoogleGenAI({});
// WARNING: Do not use API keys in client-side (browser based) applications
// Consider using Ephemeral Tokens instead
// More information at: https://ai.google.dev/gemini-api/docs/ephemeral-tokens

// New native audio model:
const model = "gemini-2.5-flash-native-audio-preview-09-2025"

const config = {
  responseModalities: [Modality.AUDIO],
  systemInstruction: "You are a helpful assistant and answer in a friendly tone."
};

async function live() {
    const responseQueue = [];

    async function waitMessage() {
        let done = false;
        let message = undefined;
        while (!done) {
            message = responseQueue.shift();
            if (message) {
                done = true;
            } else {
                await new Promise((resolve) => setTimeout(resolve, 100));
            }
        }
        return message;
    }

    async function handleTurn() {
        const turns = [];
        let done = false;
        while (!done) {
            const message = await waitMessage();
            turns.push(message);
            if (message.serverContent && message.serverContent.turnComplete) {
                done = true;
            }
        }
        return turns;
    }

    const session = await ai.live.connect({
        model: model,
        callbacks: {
            onopen: function () {
                console.debug('Opened');
            },
            onmessage: function (message) {
                responseQueue.push(message);
            },
            onerror: function (e) {
                console.debug('Error:', e.message);
            },
            onclose: function (e) {
                console.debug('Close:', e.reason);
            },
        },
        config: config,
    });

    // Send Audio Chunk
    const fileBuffer = fs.readFileSync("sample.wav");

    // Ensure audio conforms to API requirements (16-bit PCM, 16kHz, mono)
    const wav = new WaveFile();
    wav.fromBuffer(fileBuffer);
    wav.toSampleRate(16000);
    wav.toBitDepth("16");
    const base64Audio = wav.toBase64();

    // If already in correct format, you can use this:
    // const fileBuffer = fs.readFileSync("sample.pcm");
    // const base64Audio = Buffer.from(fileBuffer).toString('base64');

    session.sendRealtimeInput(
        {
            audio: {
                data: base64Audio,
                mimeType: "audio/pcm;rate=16000"
            }
        }

    );

    const turns = await handleTurn();

    // Combine audio data strings and save as wave file
    const combinedAudio = turns.reduce((acc, turn) => {
        if (turn.data) {
            const buffer = Buffer.from(turn.data, 'base64');
            const intArray = new Int16Array(buffer.buffer, buffer.byteOffset, buffer.byteLength / Int16Array.BYTES_PER_ELEMENT);
            return acc.concat(Array.from(intArray));
        }
        return acc;
    }, []);

    const audioBuffer = new Int16Array(combinedAudio);

    const wf = new WaveFile();
    wf.fromScratch(1, 24000, '16', audioBuffer);  // output is 24kHz
    fs.writeFileSync('audio.wav', wf.toBuffer());

    session.close();
}

async function main() {
    await live().catch((e) => console.error('got error', e));
}

main();

次のステップ

音声検出やネイティブ音声機能など、主な機能と構成については、Live API の機能ガイドをご覧ください。
ツールの使用ガイドを読んで、Live API をツールや関数呼び出しと統合する方法を確認します。
長時間にわたる会話を管理するには、セッション管理ガイドをご覧ください。
クライアントとサーバー間のアプリケーションで安全な認証を行うには、エフェメラルトークンのガイドをご覧ください。
基盤となる WebSockets API について詳しくは、WebSockets API リファレンスをご覧ください。