Multimodal Live API

L'API Multimodal Live permet des interactions bidirectionnelles à faible latence qui utilisent des entrées texte, audio et vidéo, avec une sortie audio et textuelle. Cela facilite les conversations vocales naturelles et humaines, avec la possibilité d'interrompre le modèle à tout moment. La capacité de compréhension vidéo du modèle élargit les modalités de communication, ce qui vous permet de partager des entrées de l'appareil photo ou des enregistrements d'écran, et de poser des questions à leur sujet.

L'API Multimodal Live inclut les principales fonctionnalités suivantes:

  • Multimodalité: le modèle peut voir, entendre et parler.
  • Interaction en temps réel à faible latence: le modèle peut fournir des réponses rapides.
  • Mémoire de session: le modèle conserve la mémoire de toutes les interactions au cours d'une même session, en rappelant les informations entendues ou vues précédemment.
  • Compatibilité avec l'appel de fonction, l'exécution de code et la recherche en tant qu'outil : vous pouvez intégrer le modèle à des services et des sources de données externes.

L'API Multimodal Live est conçue pour la communication de serveur à serveur.

Pour les applications Web et mobiles, nous vous recommandons d'utiliser l'intégration de nos partenaires Daily.

Guide d'intégration

Sessions

Une session représente une seule connexion WebSocket entre le client et le serveur Gemini.

Une fois qu'un client a établi une nouvelle connexion, la session peut échanger des messages avec le serveur pour:

  • Envoyer du texte, de l'audio ou de la vidéo au serveur Gemini
  • Recevoir des réponses audio, textuelles ou d'appel de fonction du serveur Gemini

La configuration de la session est envoyée dans le premier message après la connexion. Une configuration de session comprend le modèle, les paramètres de génération, les instructions système et les outils.

Consultez l'exemple de configuration suivant:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

Pour en savoir plus, consultez BidiGenerateContentSetup.

Envoyer des messages

Les messages sont des chaînes au format JSON échangées via la connexion WebSocket.

Pour envoyer un message, le client doit envoyer un message client compatible dans une chaîne au format JSON avec l'une des méthodes suivantes via une connexion WebSocket ouverte.

Voir aussi