透過 Live API,您可以與 Gemini 進行低延遲的即時語音和視覺互動。這項技術會處理連續的音訊、圖片和文字串流,立即提供擬真的口語回覆,為使用者打造自然的對話體驗。

用途
Live API 可用於為各種產業建構即時語音代理程式,包括:
- 電子商務和零售業:提供個人化建議的購物助理,以及解決顧客問題的支援服務專員。
- 遊戲:互動式非玩家角色 (NPC)、遊戲內說明助理,以及遊戲內容的即時翻譯。
- 新一代介面:支援語音和視訊的機器人、智慧眼鏡和車輛體驗。
- 醫療保健:為病患提供支援和教育資訊的健康夥伴。
- 金融服務:提供財富管理和投資建議的 AI 顧問。
- 教育:AI 導師和學習夥伴,提供個人化指導和意見回饋。
主要功能與特色
Live API 提供完整功能,可建構強大的語音代理程式:
- 支援多種語言: 支援 70 種語言。
- 插話: 使用者隨時可以打斷模型,進行回應式互動。
- 工具使用: 整合函式呼叫和 Google 搜尋等工具,進行動態互動。
- 音訊轉錄稿: 提供使用者輸入內容和模型輸出內容的文字轉錄稿。
- 主動式語音: 可控制模型回覆的時間和情境。
- 情感對話: 根據使用者輸入內容的措辭調整回覆風格和語氣。
技術規格
下表列出 Live API 的技術規格:
| 類別 | 詳細資料 |
|---|---|
| 輸入模態 | 音訊 (原始 16 位元 PCM 音訊,16 kHz,小端序)、圖片 (JPEG <= 1 FPS)、文字 |
| 輸出模態 | 音訊 (原始 16 位元 PCM 音訊,24 kHz,小端序) |
| 通訊協定 | 具狀態的 WebSocket 連線 (WSS) |
選擇導入方式
整合 Live API 時,您需要選擇下列其中一種實作方式:
- 伺服器對伺服器:後端會使用 WebSockets 連線至 Live API。一般來說,用戶端會將串流資料 (音訊、影片、文字) 傳送至伺服器,然後伺服器會將資料轉送至 Live API。
- 用戶端到伺服器:前端程式碼會使用 WebSockets 直接連線至 Live API,以串流資料,略過後端。
開始使用
選取與開發環境相符的指南:
與合作夥伴整合
如要簡化即時音訊和視訊應用程式的開發作業,您可以透過 WebRTC 或 WebSocket 使用支援 Gemini Live API 的第三方整合服務。
LiveKit
搭配 LiveKit Agents 使用 Gemini Live API。
Pipecat by Daily
使用 Gemini Live 和 Pipecat 建立即時 AI 聊天機器人。
Software Mansion 的 Fishjam
使用 Fishjam 建立直播影片和音訊串流應用程式。
Stream 的 Vision Agents
使用 Vision Agents 建構即時語音和視訊 AI 應用程式。
Voximplant
使用 Voximplant 將撥入和撥出電話連線至 Live API。
Firebase AI SDK
使用 Firebase AI Logic 開始使用 Gemini Live API。