Multimodal Live API

Multimodal Live API 可實現低延遲的雙向互動,使用文字、音訊和影片輸入內容,並提供音訊和文字輸出內容。這有助於進行自然的人類語音對話,並可隨時中斷模型。模型的視訊理解能力可擴展通訊模式,讓你分享相機輸入內容或螢幕投影內容,並針對這些內容提出問題。

Multimodal Live API 提供下列主要功能:

  • 多模態:模型可以看到、聽到及說出內容。
  • 低延遲即時互動:模型可提供快速回應。
  • 工作階段記憶:模型會保留單一工作階段內所有互動的記憶,回想先前聽到或看到的資訊。
  • 支援函式呼叫、程式碼執行和搜尋做為工具:您可以將模型與外部服務和資料來源整合。

Multimodal Live API 是用於伺服器對伺服器的通訊。

如果是網頁和行動應用程式,建議您使用Daily合作夥伴提供的整合服務。

整合指南

工作階段

工作階段代表用戶端與 Gemini 伺服器之間的單一 WebSocket 連線。

用戶端啟動新連線後,工作階段可與伺服器交換訊息,以便執行下列操作:

  • 將文字、音訊或影片傳送至 Gemini 伺服器。
  • 接收 Gemini 伺服器的音訊、文字或函式呼叫回應。

連線後,系統會在第一則訊息中傳送工作階段設定。工作階段設定包含模型、產生參數、系統指示和工具。

請參考以下設定範例:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

詳情請參閱 BidiGenerateContentSetup

傳送訊息

訊息是透過 WebSocket 連線交換的 JSON 格式字串。

如要傳送訊息,用戶端必須透過已開啟的 WebSocket 連線,以 JSON 格式字串傳送支援的用戶端訊息。

另請參閱

  • 如要進一步瞭解常用的 API 欄位 (例如 ContentTool),請參閱「產生內容」一文。
  • 進一步瞭解函式呼叫