Panoramica dell'API Gemini Live

L'API Live consente interazioni vocali e visive in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, immagini e testo per fornire risposte parlate immediate e simili a quelle umane, creando un'esperienza di conversazione naturale per gli utenti.

Panoramica dell'API Live

Casi d'uso

L'API Live può essere utilizzata per creare agenti vocali in tempo reale per una varietà di settori, tra cui:

  • E-commerce e vendita al dettaglio:assistenti allo shopping che offrono consigli personalizzati e agenti di assistenza che risolvono i problemi dei clienti.
  • Giochi:personaggi non giocanti (PNG) interattivi, assistenti di aiuto in-game e traduzione in tempo reale dei contenuti in-game.
  • Interfacce di nuova generazione:esperienze abilitate per voce e video in robotica, occhiali smart e veicoli.
  • Sanità:compagni di salute per il supporto e l'istruzione dei pazienti.
  • Servizi finanziari:consulenti AI per la gestione patrimoniale e la consulenza sugli investimenti.
  • Istruzione:mentori AI e compagni di apprendimento che forniscono istruzioni e feedback personalizzati.
  • Traduzione e localizzazione:traduzione in tempo reale a bassa latenza delle conversazioni parlate, che consente una comunicazione multilingue senza interruzioni.

Funzionalità principali

L'API Live offre un insieme completo di funzionalità per la creazione di agenti vocali robusti:

  • Supporto multilingue: parla in 70 lingue supportate.
  • Barge-in: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
  • **Utilizzo degli strumenti**: integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
  • Trascrizioni audio: Fornisce trascrizioni di testo sia dell'input dell'utente sia dell'output del modello.
  • Audio proattivo: consente di controllare quando e in quali contesti il modello risponde.
  • Dialogo empatico: adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.
  • Traduzione dal vivo: traduzione vocale in tempo reale in oltre 70 lingue.

Specifiche tecniche

La tabella seguente illustra le specifiche tecniche dell'API Live:

Categoria Dettagli
Modalità di input Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini (JPEG <= 1 FPS), testo
Modalità di output Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian)
Protocollo Connessione WebSocket con stato (WSS)

Scegli un approccio di implementazione

Quando esegui l'integrazione con l'API Live, devi scegliere uno dei seguenti approcci di implementazione:

  • Da server a server: il backend si connette all'API Live utilizzando WebSockets. In genere, il client invia i dati dello stream (audio, video, testo) al server, che poi li inoltra all'API Live.
  • Da client a server: il codice frontend si connette direttamente all'API Live utilizzando WebSockets per lo streaming dei dati, bypassando il backend.

Inizia

Seleziona la guida che corrisponde al tuo ambiente di sviluppo:

Da server a server

Connettiti all'API Gemini Live utilizzando l'SDK GenAI per creare un'applicazione multimodale in tempo reale con un backend Python.

Da client a server

Connettiti all'API Gemini Live utilizzando WebSockets per creare un'applicazione multimodale in tempo reale con un frontend JavaScript e token effimeri.

Kit di sviluppo dell'agente

Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.

Integrazioni con i partner

Per semplificare lo sviluppo di app audio e video in tempo reale, puoi utilizzare un'integrazione di terze parti che supporta l'API Gemini Live su WebRTC o WebSockets.