Multimodal Live API 支持使用文本、音频和视频输入进行低延迟的双向互动,并提供音频和文本输出。这样,您就可以随时中断模型,进行自然的人声对话。该模型的视频理解功能扩展了沟通模式,让您可以分享摄像头输入或屏幕投放内容,并提出相关问题。
Multimodal Live API 包含以下主要功能:
- 多模态:该模型可以看到、听到和说话。
- 低延迟实时互动:模型可以提供快速响应。
- 会话记忆:该模型会保留单个会话中的所有互动记忆,从而回想之前听到或看到的信息。
- 支持函数调用、代码执行和“搜索作为工具”:您可以将模型与外部服务和数据源集成。
Multimodal Live API 专为服务器到服务器通信而设计。
对于网站和移动应用,我们建议您使用 Daily 中合作伙伴提供的集成。
集成指南
会话
会话表示客户端与 Gemini 服务器之间的单个 WebSocket 连接。
客户端发起新连接后,会话可以与服务器交换消息,以执行以下操作:
- 向 Gemini 服务器发送文本、音频或视频。
- 从 Gemini 服务器接收音频、文本或函数调用响应。
会话配置会在连接后的首条消息中发送。会话配置包括模型、生成参数、系统说明和工具。
请参阅以下示例配置:
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
如需了解详情,请参阅 BidiGenerateContentSetup。
发送消息
消息是通过 WebSocket 连接交换的 JSON 格式的字符串。
如需发送消息,客户端必须以 JSON 格式的字符串发送受支持的客户端消息,并通过以下任一方式发送消息:通过打开的 WebSocket 连接发送消息。