L'API Live consente interazioni vocali e visive in tempo reale a bassa latenza con Gemini. Elabora flussi continui di audio, immagini e testo per fornire risposte immediate e simili a quelle umane, creando un'esperienza conversazionale naturale per i tuoi utenti.

Casi d'uso
L'API Live può essere utilizzata per creare agenti vocali in tempo reale per una varietà di settori, tra cui:
- E-commerce e vendita al dettaglio: assistenti per lo shopping che offrono consigli personalizzati e agenti di assistenza che risolvono i problemi dei clienti.
- Gaming:personaggi non giocabili (PNG) interattivi, assistenti in-game e traduzione in tempo reale dei contenuti in-game.
- Interfacce di nuova generazione:esperienze abilitate per voce e video in robotica, occhiali smart e veicoli.
- Sanità:compagni di salute per l'assistenza e l'istruzione dei pazienti.
- Servizi finanziari:consulenti AI per la gestione patrimoniale e la consulenza sugli investimenti.
- Istruzione:mentori AI e compagni di apprendimento che forniscono istruzioni e feedback personalizzati.
Funzionalità principali
L'API Live offre un insieme completo di funzionalità per la creazione di agenti vocali robusti:
- Supporto multilingue: Parla in 70 lingue supportate.
- Interruzione: Gli utenti possono interrompere il modello in qualsiasi momento per interazioni reattive.
- Utilizzo degli strumenti: integra strumenti come la chiamata di funzioni e la Ricerca Google per interazioni dinamiche.
- Trascrizioni audio: Fornisce trascrizioni di testo sia dell'input dell'utente che dell'output del modello.
- Audio proattivo: Consente di controllare quando e in quali contesti il modello risponde.
- Dialogo affettivo: Adatta lo stile e il tono della risposta in base all'espressione dell'input dell'utente.
Specifiche tecniche
La seguente tabella descrive le specifiche tecniche dell'API Live:
| Categoria | Dettagli |
|---|---|
| Modalità di input | Audio (audio PCM a 16 bit non elaborato, 16 kHz, little-endian), immagini (JPEG <= 1 FPS), testo |
| Modalità di output | Audio (audio PCM a 16 bit non elaborato, 24 kHz, little-endian) |
| Protocollo | Connessione WebSocket con stato (WSS) |
Scegliere un approccio di implementazione
Quando esegui l'integrazione con l'API Live, devi scegliere uno dei seguenti approcci di implementazione:
- Da server a server: il backend si connette all'API Live utilizzando WebSockets. In genere, il client invia i dati dello stream (audio, video, testo) al server, che a sua volta li inoltra all'API Live.
- Da client a server: il codice frontend si connette direttamente all'API Live utilizzando WebSockets per trasmettere i dati in streaming, bypassando il backend.
Inizia
Seleziona la guida corrispondente al tuo ambiente di sviluppo:
Tutorial sull'SDK GenAI
Connettiti all'API Gemini Live utilizzando l'SDK GenAI per creare un'applicazione multimodale in tempo reale con un backend Python.
Tutorial su WebSocket
Connettiti all'API Gemini Live utilizzando WebSockets per creare un'applicazione multimodale in tempo reale con un frontend JavaScript e token effimeri.
Tutorial ADK
Crea un agente e utilizza lo streaming dell'Agent Development Kit (ADK) per abilitare la comunicazione vocale e video.
Integrazioni con i partner
Per semplificare lo sviluppo di app audio e video in tempo reale, puoi utilizzare un'integrazione di terze parti che supporti l'API Gemini Live tramite WebRTC o WebSocket.
LiveKit
Utilizza l'API Gemini Live con LiveKit Agents.
Pipecat by Daily
Crea un chatbot AI in tempo reale utilizzando Gemini Live e Pipecat.
Fishjam di Software Mansion
Crea applicazioni di streaming audio e video live con Fishjam.
Vision Agents di Stream
Crea applicazioni AI vocali e video in tempo reale con Vision Agents.
Voximplant
Collega le chiamate in entrata e in uscita all'API Live con Voximplant.
Firebase AI SDK
Inizia a utilizzare l'API Gemini Live con Firebase AI Logic.