L'API Interactions est désormais en disponibilité générale. Nous vous recommandons d'utiliser cette API pour accéder à toutes les dernières fonctionnalités et tous les derniers modèles.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Présentation de l'API Gemini Live

L'API Live permet des interactions vocales et visuelles en temps réel et à faible latence avec Gemini. Elle traite des flux continus d'audio, d'images et de texte pour fournir des réponses immédiates et semblables à celles d'un humain, créant ainsi une expérience de conversation naturelle pour vos utilisateurs.

Présentation de l'API Live

Essayer l'API Live dans Google AI Studio Cloner des exemples d'applications depuis GitHub Utiliser les compétences de l'agent de codage

Cas d'utilisation

L'API Live peut être utilisée pour créer des agents vocaux en temps réel dans divers secteurs, y compris les suivants :

E-commerce et vente au détail : assistants d'achat qui proposent des recommandations personnalisées et agents d'assistance qui résolvent les problèmes des clients.
Jeux vidéo : personnages non jouables (PNJ) interactifs, assistants d'aide dans le jeu et traduction en temps réel du contenu du jeu.
Interfaces de nouvelle génération : expériences vocales et vidéo dans la robotique, les lunettes connectées et les véhicules.
Santé : compagnons de santé pour l'assistance et l'éducation des patients.
Services financiers : conseillers IA pour la gestion de patrimoine et les conseils en investissement.
Éducation : mentors IA et compagnons d'apprentissage qui fournissent des instructions et des commentaires personnalisés.
Traduction et localisation : traduction en temps réel et à faible latence des conversations orales, permettant une communication multilingue fluide.

Principales fonctionnalités

L'API Live offre un ensemble complet de fonctionnalités pour créer des agents vocaux robustes :

Compatibilité multilingue: Conversez dans 70 langues compatibles.
Interruption: les utilisateurs peuvent interrompre le modèle à tout moment pour des interactions réactives.
Utilisation d'outils : intègre des outils tels que l'appel de fonction et la recherche Google pour des interactions dynamiques.
Transcriptions audio: fournit des transcriptions textuelles des entrées utilisateur et des sorties du modèle.
Audio proactif: vous permet de contrôler quand le modèle répond et dans quels contextes.
Dialogue affectif: adapte le style et le ton de la réponse en fonction de l'expression de l'entrée utilisateur.
Traduction instantanée: traduction vocale en temps réel dans plus de 70 langues.

Spécifications techniques

Le tableau suivant présente les spécifications techniques de l'API Live :

Catégorie	Détails
Modes d'entrée	Audio (audio PCM 16 bits brut, 16 kHz, little-endian), images (JPEG <= 1 FPS), texte
Modes de sortie	Audio (audio PCM 16 bits brut, 24 kHz, little-endian)
Protocole	Connexion WebSocket avec état (WSS)

Choisir une approche d'implémentation

Lorsque vous intégrez l'API Live, vous devez choisir l'une des approches d'implémentation suivantes :

Serveur à serveur : votre backend se connecte à l'API Live à l'aide de WebSockets. En règle générale, votre client envoie des données de flux (audio, vidéo, texte) à votre serveur, qui les transmet ensuite à l'API Live.
Client à serveur : votre code frontend se connecte directement à l'API Live à l'aide de WebSockets pour diffuser des données, en contournant votre backend.

Premiers pas

Sélectionnez le guide qui correspond à votre environnement de développement :

Serveur à serveur

Intégration de partenaires

Pour simplifier le développement d'applications audio et vidéo en temps réel, vous pouvez utiliser une intégration tierce qui prend en charge l'API Gemini Live via WebRTC ou WebSockets.

LiveKit

Utilisez l'API Gemini Live avec les agents LiveKit.

Pipecat by Daily

Créez un chatbot IA en temps réel à l'aide de Gemini Live et Pipecat.

Fishjam by Software Mansion

Créez des applications de streaming audio et vidéo en direct avec Fishjam.

Vision Agents by Stream

Créez des applications d'IA vocales et vidéo en temps réel avec Vision Agents.

Voximplant

Connectez les appels entrants et sortants à l'API Live avec Voximplant.

Agora

Créez des applications d'IA conversationnelle en temps réel avec Agora.

SDK Firebase AI

Premiers pas avec l'API Gemini Live à l'aide de Firebase AI Logic.