Multimodal Live API を使用すると、テキスト、音声、動画の入力と音声とテキストの出力を使用して、低レイテンシの双方向インタラクションを実現できます。これにより、モデルをいつでも中断できる、自然で人間のような音声会話が実現します。モデルの動画理解機能により、コミュニケーション モダリティが拡張され、カメラ入力やスクリーンキャストを共有して質問できるようになります。
Multimodal Live API には、次の主な機能が含まれています。
- マルチモーダル: モデルは視覚、聴覚、音声を認識できます。
- 低レイテンシのリアルタイム インタラクション: モデルは高速なレスポンスを提供できます。
- セッション メモリ: モデルは 1 つのセッション内のすべてのインタラクションのメモリを保持し、以前に聞いたことや見たことがある情報を呼び出します。
- 関数呼び出し、コード実行、ツールとしての検索のサポート: モデルを外部サービスやデータソースと統合できます。
Multimodal Live API は、サーバー間通信用に設計されています。
ウェブアプリとモバイルアプリの場合は、Daily のパートナーによる統合を使用することをおすすめします。
統合ガイド
セッション
セッションは、クライアントと Gemini サーバー間の単一の WebSocket 接続を表します。
クライアントが新しい接続を開始すると、セッションはサーバーとメッセージを交換して、次のことができます。
- テキスト、音声、動画を Gemini サーバーに送信します。
- Gemini サーバーから音声、テキスト、関数呼び出しのレスポンスを受信します。
セッション構成は、接続後の最初のメッセージで送信されます。セッション構成には、モデル、生成パラメータ、システム指示、ツールが含まれます。
次の構成例をご覧ください。
{ "model": string, "generation_config": { "candidateCount": integer, "maxOutputTokens": integer, "temperature": number, "topP": number, "topK": integer, "presencePenalty": number, "frequencyPenalty": number, "response_modalities": string, "speech_config":object }, "system_instruction": "", "tools":[] }
詳細については、BidiGenerateContentSetup をご覧ください。
メッセージを送信する
メッセージは、WebSocket 接続を介して交換される JSON 形式の文字列です。
メッセージを送信するには、クライアントが、開いている WebSocket 接続を介して、サポートされているクライアント メッセージを JSON 形式の文字列で送信する必要があります。