Gemini Deep Research 现已推出预览版，支持协作规划、可视化、MCP 等功能。

Gemini Live API overview

Live API 支持与 Gemini 进行低延迟、实时的语音和视觉交互。它能够处理连续的音频、图片和文本流，以提供即时、自然逼真的语音回答，从而为用户创造自然的对话体验。

Live API 概览

使用场景

Live API 可用于为各种行业构建实时语音代理，包括：

Live API 提供了一套全面的功能，用于构建强大的语音代理：

下表列出了 Live API 的技术规范：

类别	详细信息
输入模态	音频（原始 16 位 PCM 音频，16kHz，小端序）、图片（JPEG <= 1FPS）、文本
输出模态	音频（原始 16 位 PCM 音频，24kHz，小端序）
协议	有状态 WebSocket 连接 (WSS)

与 Live API 集成时，您需要选择以下实现方法之一：

服务器到服务器：您的后端使用 WebSockets 连接到 Live API。通常，您的客户端会将流数据（音频、视频、文本）发送到您的服务器，然后您的服务器会将这些数据转发到 Live API。
客户端到服务器：您的前端代码使用 WebSockets 直接连接到 Live API 以流式传输数据，从而绕过后端。

选择与您的开发环境相符的指南：

服务器到服务器

使用 GenAI SDK 连接到 Gemini Live API，以构建具有 Python 后端的实时多模态应用。

客户端到服务器

使用 WebSockets 连接到 Gemini Live API，以构建一个具有 JavaScript 前端和临时令牌的实时多模态应用。

智能体开发套件

创建代理，并使用智能体开发套件 (ADK) 流式传输功能来实现语音和视频通信。

为了简化实时音频和视频应用的开发，您可以使用通过 WebRTC 或 WebSockets 支持 Gemini Live API 的第三方集成。

LiveKit

将 Gemini Live API 与 LiveKit 智能体搭配使用。

Pipecat by Daily

使用 Gemini Live 和 Pipecat 创建实时 AI 聊天机器人。

Software Mansion 的 Fishjam

使用 Fishjam 创建实时视频和音频流式传输应用。

Stream 的 Vision Agent

使用 Vision Agent 构建实时语音和视频 AI 应用。

Voximplant

通过 Voximplant 将入站和出站通话连接到 Live API。

Agora

使用 Agora 构建实时对话式 AI 应用。

Firebase AI SDK

使用 Firebase AI Logic 开始使用 Gemini Live API。