Gemini Live API overview

L'API Live consente interazioni vocali e visive in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, immagini e testo per fornire risposte immediate e simili a quelle umane, creando un'esperienza conversazionale naturale per i tuoi utenti.

Panoramica dell'API Live

Casi d'uso

L'API Live può essere utilizzata per creare agenti vocali in tempo reale per una varietà di settori, tra cui:

  • E-commerce e vendita al dettaglio: assistenti per lo shopping che offrono consigli personalizzati e agenti di assistenza che risolvono i problemi dei clienti.
  • Gaming:personaggi non giocabili (PNG) interattivi, assistenti in-game e traduzione in tempo reale dei contenuti in-game.
  • Interfacce di nuova generazione:esperienze abilitate per voce e video in robotica, occhiali smart e veicoli.
  • Sanità:compagni di salute per l'assistenza e l'istruzione dei pazienti.
  • Servizi finanziari:consulenti AI per la gestione patrimoniale e la consulenza sugli investimenti.
  • Istruzione:mentori AI e compagni di apprendimento che forniscono istruzioni e feedback personalizzati.

Funzionalità principali

L'API Live offre un insieme completo di funzionalità per la creazione di agenti vocali robusti:

  • Supporto multilingue: Parla in 70 lingue supportate.
  • Interruzione: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
  • Utilizzo degli strumenti: integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
  • Trascrizioni audio: Fornisce trascrizioni di testo sia dell'input dell'utente che dell'output del modello.
  • Audio proattivo: Consente di controllare quando e in quali contesti il modello risponde.
  • Dialogo affettivo: Adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.

Specifiche tecniche

La seguente tabella descrive le specifiche tecniche dell'API Live:

Categoria Dettagli
Modalità di input Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini (JPEG <= 1 FPS), testo
Modalità di output Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian)
Protocollo Connessione WebSocket con stato (WSS)

Scegliere un approccio di implementazione

Quando esegui l'integrazione con l'API Live, devi scegliere uno dei seguenti approcci di implementazione:

  • Da server a server: il backend si connette all'API Live utilizzando WebSockets. In genere, il client invia i dati dello stream (audio, video, testo) al server, che a sua volta li inoltra all'API Live.
  • Da client a server: il codice frontend si connette direttamente all'API Live utilizzando WebSockets per trasmettere i dati in streaming, bypassando il backend.

Inizia

Seleziona la guida corrispondente al tuo ambiente di sviluppo:

Server-to-server

Connettiti all'API Gemini Live utilizzando l'SDK GenAI per creare un'applicazione multimodale in tempo reale con un backend Python.

Client-to-server

Connettiti all'API Gemini Live utilizzando WebSockets per creare un'applicazione multimodale in tempo reale con un frontend JavaScript e token effimeri.

Agent Development Kit

Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.

Integrazioni con i partner

Per semplificare lo sviluppo di app audio e video in tempo reale, puoi utilizzare un'integrazione di terze parti che supporti l'API Gemini Live tramite WebRTC o WebSocket.