Multimodal Live API

Multimodal Live API 支持使用文本、音频和视频输入进行低延迟的双向互动,并提供音频和文本输出。这样,您就可以随时中断模型,进行自然的人声对话。该模型的视频理解功能扩展了沟通模式,让您可以分享摄像头输入或屏幕投放内容,并提出相关问题。

Multimodal Live API 包含以下主要功能:

  • 多模态:该模型可以看到、听到和说话。
  • 低延迟实时互动:模型可以提供快速响应。
  • 会话记忆:该模型会保留单个会话中的所有互动记忆,从而回想之前听到或看到的信息。
  • 支持函数调用、代码执行和“搜索作为工具”:您可以将模型与外部服务和数据源集成。

Multimodal Live API 专为服务器到服务器通信而设计。

对于网站和移动应用,我们建议您使用 Daily 中合作伙伴提供的集成。

集成指南

会话

会话表示客户端与 Gemini 服务器之间的单个 WebSocket 连接。

客户端发起新连接后,会话可以与服务器交换消息,以执行以下操作:

  • 向 Gemini 服务器发送文本、音频或视频。
  • 从 Gemini 服务器接收音频、文本或函数调用响应。

会话配置会在连接后的首条消息中发送。会话配置包括模型、生成参数、系统说明和工具。

请参阅以下示例配置:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

如需了解详情,请参阅 BidiGenerateContentSetup

发送消息

消息是通过 WebSocket 连接交换的 JSON 格式的字符串。

如需发送消息,客户端必须以 JSON 格式的字符串发送受支持的客户端消息,并通过以下任一方式发送消息:通过打开的 WebSocket 连接发送消息。

另请参阅

  • 如需详细了解常用的 API 字段(例如 ContentTool),请参阅生成内容
  • 详细了解函数调用