Gemini Deep Research jest teraz dostępna w wersji testowej z funkcjami planowania współpracy, wizualizacji, obsługi MCP i nie tylko.

Get started with Gemini Live API using the Google GenAI SDK

Interfejs Gemini Live API umożliwia dwukierunkową interakcję w czasie rzeczywistym z modelami Gemini, obsługującą wejścia audio, wideo i tekstowe oraz natywne wyjścia audio. Z tego przewodnika dowiesz się, jak zintegrować interfejs API za pomocą pakietu Google GenAI SDK na serwerze.

Wypróbuj interfejs Live API w Google AI Studio Sklonuj przykładową aplikację z GitHub Korzystaj z umiejętności agenta do kodowania

Przegląd

Interfejs Gemini Live API używa protokołu WebSocket do komunikacji w czasie rzeczywistym. Pakiet SDK google-genai udostępnia interfejs asynchroniczny wysokiego poziomu do zarządzania tymi połączeniami.

Kluczowe pojęcia:

Sesja: trwałe połączenie z modelem.
Konfiguracja: ustawianie trybów (audio/tekst), głosu i instrukcji systemowych.
Dane wejściowe w czasie rzeczywistym: wysyłanie klatek audio i wideo jako obiektów binarnych.

Łączenie z interfejsem Live API

Rozpocznij sesję Live API za pomocą klucza interfejsu API:

Python

import asyncio
from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

model = "gemini-3.1-flash-live-preview"
config = {"response_modalities": ["AUDIO"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        print("Session started")
        # Send content...

if __name__ == "__main__":
    asyncio.run(main())

JavaScript

import { GoogleGenAI, Modality } from '@google/genai';

const ai = new GoogleGenAI({ apiKey: "YOUR_API_KEY"});
const model = 'gemini-3.1-flash-live-preview';
const config = { responseModalities: [Modality.AUDIO] };

async function main() {

  const session = await ai.live.connect({
    model: model,
    callbacks: {
      onopen: function () {
        console.debug('Opened');
      },
      onmessage: function (message) {
        console.debug(message);
      },
      onerror: function (e) {
        console.debug('Error:', e.message);
      },
      onclose: function (e) {
        console.debug('Close:', e.reason);
      },
    },
    config: config,
  });

  console.debug("Session started");
  // Send content...

  session.close();
}

main();

Wysyłam tekst

Tekst można wysyłać za pomocą funkcji send_realtime_input (Python) lub sendRealtimeInput (JavaScript).

Python

await session.send_realtime_input(text="Hello, how are you?")

JavaScript

session.sendRealtimeInput({
  text: 'Hello, how are you?'
});

Wysyłanie dźwięku

Dźwięk musi być przesyłany jako surowe dane PCM (surowy 16-bitowy dźwięk PCM, 16 kHz, little-endian).

Python

# Assuming 'chunk' is your raw PCM audio bytes
await session.send_realtime_input(
    audio=types.Blob(
        data=chunk,
        mime_type="audio/pcm;rate=16000"
    )
)

JavaScript

// Assuming 'chunk' is a Buffer of raw PCM audio
session.sendRealtimeInput({
  audio: {
    data: chunk.toString('base64'),
    mimeType: 'audio/pcm;rate=16000'
  }
});

Przykład pobierania dźwięku z urządzenia klienta (np. przeglądarki) znajdziesz w kompleksowym przykładzie w GitHub.

Wysyłam film

Klatki wideo są wysyłane jako pojedyncze obrazy (np. JPEG lub PNG) z określoną liczbą klatek na sekundę (maksymalnie 1 klatka na sekundę).

Python

# Assuming 'frame' is your JPEG-encoded image bytes
await session.send_realtime_input(
    video=types.Blob(
        data=frame,
        mime_type="image/jpeg"
    )
)

JavaScript

// Assuming 'frame' is a Buffer of JPEG-encoded image data
session.sendRealtimeInput({
  video: {
    data: frame.toString('base64'),
    mimeType: 'image/jpeg'
  }
});

Przykład pobierania filmu z urządzenia klienta (np. przeglądarki) znajdziesz w kompleksowym przykładzie w GitHub.

Odbieranie dźwięku

Odpowiedzi dźwiękowe modelu są odbierane jako fragmenty danych.

Python

async for response in session.receive():
    if response.server_content and response.server_content.model_turn:
        for part in response.server_content.model_turn.parts:
            if part.inline_data:
                audio_data = part.inline_data.data
                # Process or play the audio data

JavaScript

// Inside the onmessage callback
const content = response.serverContent;
if (content?.modelTurn?.parts) {
  for (const part of content.modelTurn.parts) {
    if (part.inlineData) {
      const audioData = part.inlineData.data;
      // Process or play audioData (base64 encoded string)
    }
  }
}

Przykład aplikacji znajdziesz na GitHubie. Dowiesz się z niego, jak odbierać dźwięk na serwerze i odtwarzać go w przeglądarce.

Odbieram wiadomość

Transkrypcje danych wejściowych użytkownika i danych wyjściowych modelu są dostępne w treści serwera.

Python

async for response in session.receive():
    content = response.server_content
    if content:
        if content.input_transcription:
            print(f"User: {content.input_transcription.text}")
        if content.output_transcription:
            print(f"Gemini: {content.output_transcription.text}")

JavaScript

// Inside the onmessage callback
const content = response.serverContent;
if (content?.inputTranscription) {
  console.log('User:', content.inputTranscription.text);
}
if (content?.outputTranscription) {
  console.log('Gemini:', content.outputTranscription.text);
}

Obsługa wywołań narzędzi

Interfejs API obsługuje wywoływanie narzędzi (wywoływanie funkcji). Gdy model poprosi o wywołanie narzędzia, musisz wykonać funkcję i odesłać odpowiedź.

Python

async for response in session.receive():
    if response.tool_call:
        function_responses = []
        for fc in response.tool_call.function_calls:
            # 1. Execute the function locally
            result = my_tool_function(**fc.args)

            # 2. Prepare the response
            function_responses.append(types.FunctionResponse(
                name=fc.name,
                id=fc.id,
                response={"result": result}
            ))

        # 3. Send the tool response back to the session
        await session.send_tool_response(function_responses=function_responses)

JavaScript

// Inside the onmessage callback
if (response.toolCall) {
  const functionResponses = [];
  for (const fc of response.toolCall.functionCalls) {
    const result = myToolFunction(fc.args);
    functionResponses.push({
      name: fc.name,
      id: fc.id,
      response: { result }
    });
  }
  session.sendToolResponse({ functionResponses });
}

Co dalej?

Zapoznaj się z pełnym przewodnikiem po możliwościach interfejsu Live API, aby poznać kluczowe funkcje i konfiguracje, w tym wykrywanie aktywności głosowej i natywne funkcje audio.
Zapoznaj się z przewodnikiem Korzystanie z narzędzi, aby dowiedzieć się, jak zintegrować interfejs Live API z narzędziami i wywołaniem funkcji.
Aby dowiedzieć się, jak zarządzać długimi rozmowami, przeczytaj przewodnik Zarządzanie sesjami.
Przeczytaj przewodnik Tokeny tymczasowe, aby dowiedzieć się więcej o bezpiecznym uwierzytelnianiu w aplikacjach klient-serwer.
Więcej informacji o podstawowym interfejsie WebSockets API znajdziesz w dokumentacji API WebSockets.