L'API Live permet des interactions vocales et visuelles en temps réel et à faible latence avec Gemini. Il traite des flux continus d'audio, d'images et de texte pour fournir des réponses vocales immédiates et naturelles, créant ainsi une expérience conversationnelle naturelle pour vos utilisateurs.

Cas d'utilisation
L'API Live peut être utilisée pour créer des agents vocaux en temps réel pour divers secteurs, y compris :
- E-commerce et vente au détail : assistants d'achat qui proposent des recommandations personnalisées et agents d'assistance qui résolvent les problèmes des clients.
- Jeux vidéo : personnages non joueurs (PNJ) interactifs, assistants d'aide dans les jeux et traduction en temps réel du contenu des jeux.
- Interfaces nouvelle génération : expériences vocales et vidéo dans la robotique, les lunettes connectées et les véhicules.
- Santé : compagnons de santé pour l'assistance et l'éducation des patients.
- Services financiers : conseillers IA pour la gestion de patrimoine et les conseils d'investissement.
- Éducation : mentors et compagnons d'apprentissage basés sur l'IA qui fournissent des instructions et des commentaires personnalisés.
Principales fonctionnalités
L'API Live offre un ensemble complet de fonctionnalités permettant de créer des agents vocaux robustes :
- Compatibilité multilingue : discutez dans l'une des 70 langues disponibles.
- Interruption : les utilisateurs peuvent interrompre le modèle à tout moment pour des interactions réactives.
- Utilisation d'outils : intègre des outils tels que l'appel de fonction et la recherche Google pour des interactions dynamiques.
- Transcriptions audio : fournit des transcriptions textuelles des entrées utilisateur et des sorties du modèle.
- Audio proactif : vous permet de contrôler quand et dans quels contextes le modèle répond.
- Dialogue affectif : adapte le style et le ton de la réponse en fonction de l'expression de l'utilisateur.
Spécifications techniques
Le tableau suivant présente les spécifications techniques de l'API Live :
| Catégorie | Détails |
|---|---|
| Modes d'entrée | Audio (audio PCM 16 bits brut, 16 kHz, little-endian), images (JPEG <= 1 FPS), texte |
| Modes de sortie | Audio (audio PCM 16 bits brut, 24 kHz, little-endian) |
| Protocole | Connexion WebSocket avec état (WSS) |
Choisir une approche d'implémentation
Lorsque vous intégrez l'API Live, vous devez choisir l'une des approches d'implémentation suivantes :
- Serveur à serveur : votre backend se connecte à l'API Live à l'aide de WebSockets. En règle générale, votre client envoie des données de flux (audio, vidéo, texte) à votre serveur, qui les transmet ensuite à l'API Live.
- Client vers serveur : votre code de frontend se connecte directement à l'API Live à l'aide de WebSockets pour diffuser des données, en contournant votre backend.
Premiers pas
Sélectionnez le guide correspondant à votre environnement de développement :
Tutoriel sur le SDK GenAI
Connectez-vous à l'API Gemini Live à l'aide du SDK GenAI pour créer une application multimodale en temps réel avec un backend Python.
Tutoriel WebSocket
Connectez-vous à l'API Gemini Live à l'aide de WebSockets pour créer une application multimodale en temps réel avec un frontend JavaScript et des jetons éphémères.
Tutoriel ADK
Créez un agent et utilisez Agent Development Kit (ADK) Streaming pour activer la communication vocale et vidéo.
Intégration de partenaires
Pour simplifier le développement d'applications audio et vidéo en temps réel, vous pouvez utiliser une intégration tierce compatible avec l'API Gemini Live sur WebRTC ou WebSockets.
LiveKit
Utiliser l'API Gemini Live avec les agents LiveKit
Pipecat by Daily
Créez un chatbot IA en temps réel à l'aide de Gemini Live et Pipecat.
Fishjam de Software Mansion
Créez des applications de streaming vidéo et audio en direct avec Fishjam.
Agents Vision de Stream
Créez des applications d'IA vocales et vidéo en temps réel avec les agents Vision.
Voximplant
Connectez les appels entrants et sortants à l'API Live avec Voximplant.
SDK Firebase AI
Faites vos premiers pas avec l'API Gemini Live à l'aide de Firebase AI Logic.