Gemini Live API overview

Live API 支持与 Gemini 进行低延迟、实时的语音和视觉交互。它能够处理连续的音频、图片和文本流,以提供即时、自然逼真的语音回答,从而为用户打造自然的对话体验。

Live API 概览

使用场景

Live API 可用于为各种行业构建实时语音代理,包括:

  • 电子商务和零售:提供个性化推荐的购物助理,以及解决客户问题的支持人员。
  • 游戏:互动式非玩家角色 (NPC)、游戏内帮助助理和游戏内内容的实时翻译。
  • 新一代界面:在机器人、智能眼镜和车辆中提供语音和视频功能。
  • 医疗保健:用于患者支持和教育的健康助手。
  • 金融服务:用于财富管理和投资指导的 AI 顾问。
  • 教育:提供个性化指导和反馈的 AI 导师和学习伙伴。

主要特性

Live API 提供了一套全面的功能,用于构建强大的语音代理:

  • 多语言支持:支持用 70 种语言进行对话。
  • 打断功能:用户可以随时中断模型,以便进行响应式互动。
  • 工具使用:集成函数调用和 Google 搜索等工具,实现动态交互。
  • 音频转写:提供用户输入和模型输出的文本转写内容。
  • 主动音频:可让您控制模型何时响应以及在哪些情境下响应。
  • 共情对话:根据用户输入内容的情绪表达调整回答风格和语气。

技术规范

下表列出了 Live API 的技术规范:

类别 详细信息
输入模态 音频(原始 16 位 PCM 音频,16kHz,小端序)、图片(JPEG <= 1FPS)、文本
输出模态 音频(原始 16 位 PCM 音频,24kHz,小端序)
协议 有状态 WebSocket 连接 (WSS)

选择一种实现方法

与 Live API 集成时,您需要选择以下实现方法之一:

  • 服务器到服务器:您的后端使用 WebSockets 连接到 Live API。通常,您的客户端会将流数据(音频、视频、文本)发送到您的服务器,然后您的服务器会将这些数据转发到 Live API。
  • 客户端到服务器:您的前端代码使用 WebSockets 直接连接到 Live API 以流式传输数据,从而绕过后端。

开始使用

选择与您的开发环境相符的指南:

服务器到服务器

使用 GenAI SDK 连接到 Gemini Live API,以构建具有 Python 后端的实时多模态应用。

客户端到服务器

使用 WebSockets 连接到 Gemini Live API,以构建一个具有 JavaScript 前端和临时令牌的实时多模态应用。

智能体开发套件

创建代理,并使用智能体开发套件 (ADK) 流式传输功能来实现语音和视频通信。

合作伙伴集成

为了简化实时音频和视频应用的开发,您可以使用通过 WebRTC 或 WebSockets 支持 Gemini Live API 的第三方集成。