Interactions API 現已正式發布。建議使用這個 API，存取所有最新功能和模型。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API 總覽

透過 Live API，您可以與 Gemini 展開低延遲的即時語音和視覺互動。這項服務可處理連續的音訊、圖片和文字，並立即以擬真語音回應，為使用者打造自然的對話體驗。

Live API 總覽

用途

Live API 可用於為各種產業建構即時語音代理程式，包括：

Live API 提供完整的功能，可建構強大的語音代理程式：

下表列出 Live API 的技術規格：

類別	詳細資料
輸入模態	音訊 (原始 16 位元 PCM 音訊，16 kHz，小端序)、圖片 (JPEG <= 1 FPS)、文字
輸出模態	音訊 (原始 16 位元 PCM 音訊，24 kHz，小端序)
通訊協定	具狀態的 WebSocket 連線 (WSS)

整合 Live API 時，您需要選擇下列其中一種實作方式：

伺服器對伺服器：後端會使用 WebSockets 連線至 Live API。一般來說，用戶端會將串流資料 (音訊、影片、文字) 傳送至伺服器，然後伺服器會將資料轉送至 Live API。
用戶端到伺服器：前端程式碼會使用 WebSockets 直接連線至 Live API 來串流資料，略過後端。

選取與開發環境相符的指南：

伺服器對伺服器

使用 GenAI SDK 連線至 Gemini Live API，透過 Python 後端建構即時多模態應用程式。

用戶端對伺服器

使用 WebSockets 連線至 Gemini Live API，透過 JavaScript 前端和臨時權杖建構即時多模態應用程式。

Agent Development Kit

建立代理程式，並使用 Agent Development Kit (ADK) 串流功能啟用語音和視訊通訊。

如要簡化即時音訊和視訊應用程式的開發作業，您可以透過 WebRTC 或 WebSocket 使用支援 Gemini Live API 的第三方整合服務。

LiveKit

搭配 LiveKit Agents 使用 Gemini Live API。

Pipecat by Daily

使用 Gemini Live 和 Pipecat 建立即時 AI 聊天機器人。

Software Mansion 的 Fishjam

使用 Fishjam 建立即時影像和音訊串流應用程式。

Stream 的 Vision Agents

使用 Vision Agents 建構即時語音和視訊 AI 應用程式。

Voximplant

使用 Voximplant 將撥入和撥出電話連線至 Live API。

Agora

使用 Agora 建構即時對話式 AI 應用程式。

Firebase AI SDK

使用 Firebase AI Logic 開始使用 Gemini Live API。