Multimodal Live API 可實現低延遲的雙向互動,使用文字、音訊和影片輸入內容,並提供音訊和文字輸出內容。這有助於進行自然的人類語音對話,並可隨時中斷模型。模型的視訊理解能力可擴展通訊模式,讓你分享相機輸入內容或螢幕投影內容,並針對這些內容提出問題。
Multimodal Live API 提供下列主要功能:
- 多模態:模型可以看到、聽到及說出內容。
- 低延遲即時互動:模型可提供快速回應。
- 工作階段記憶:模型會保留單一工作階段內所有互動的記憶,回想先前聽到或看到的資訊。
- 支援函式呼叫、程式碼執行和搜尋做為工具:您可以將模型與外部服務和資料來源整合。
Multimodal Live API 是用於伺服器對伺服器的通訊。
如果是網頁和行動應用程式,建議您使用Daily合作夥伴提供的整合服務。
整合指南
工作階段
工作階段代表用戶端與 Gemini 伺服器之間的單一 WebSocket 連線。
用戶端啟動新連線後,工作階段可與伺服器交換訊息,以便執行下列操作:
- 將文字、音訊或影片傳送至 Gemini 伺服器。
- 接收 Gemini 伺服器的音訊、文字或函式呼叫回應。
連線後,系統會在第一則訊息中傳送工作階段設定。工作階段設定包含模型、產生參數、系統指示和工具。
請參考以下設定範例:
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
詳情請參閱 BidiGenerateContentSetup。
傳送訊息
訊息是透過 WebSocket 連線交換的 JSON 格式字串。
如要傳送訊息,用戶端必須透過已開啟的 WebSocket 連線,以 JSON 格式字串傳送支援的用戶端訊息。