Multimodal Live API

L'API Multimodal Live consente interazioni bidirezionali a bassa latenza che utilizzano input di testo, audio e video, con output di audio e testo. In questo modo, è possibile conversare in modo naturale, con la possibilità di interrompere il modello in qualsiasi momento. La capacità di comprensione dei video del modello consente di espandere le modalità di comunicazione, in modo da condividere input della fotocamera o screencast e porre domande in merito.

L'API Multimodal Live include le seguenti funzionalità principali:

  • Multimodalità: il modello può vedere, sentire e parlare.
  • Interazione in tempo reale a bassa latenza: il modello può fornire risposte rapide.
  • Memoria di sessione: il modello memorizza tutte le interazioni all'interno di un'unica sessione, richiamando le informazioni ascoltate o viste in precedenza.
  • Supporto per la chiamata di funzioni, l'esecuzione di codice e la Ricerca come strumento: puoi integrare il modello con servizi e origini dati esterni.

L'API Multimodal Live è progettata per la comunicazione server-to-server.

Per le app web e mobile, ti consigliamo di utilizzare l'integrazione dei nostri partner su Daily.

Guida all'integrazione

Sessioni

Una sessione rappresenta una singola connessione WebSocket tra il client e il server Gemini.

Dopo che un client ha avviato una nuova connessione, la sessione può scambiare messaggi con il server per:

  • Invia testo, audio o video al server Gemini.
  • Ricevere risposte audio, di testo o di chiamata di funzione dal server Gemini.

La configurazione della sessione viene inviata nel primo messaggio dopo la connessione. Una configurazione della sessione include il modello, i parametri di generazione, le istruzioni di sistema e gli strumenti.

Vedi la seguente configurazione di esempio:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

Per ulteriori informazioni, consulta BidiGenerateContentSetup.

Inviare messaggi

I messaggi sono stringhe in formato JSON scambiate tramite la connessione WebSocket.

Per inviare un messaggio, il client deve inviare un messaggio client supportato in una stringa formattata in JSON con uno dei metodi su una connessione WebSocket aperta.

Vedi anche