Multimodal Live API

Multimodal Live API を使用すると、テキスト、音声、動画の入力と音声とテキストの出力を使用して、低レイテンシの双方向インタラクションを実現できます。これにより、モデルをいつでも中断できる、自然で人間のような音声会話が実現します。モデルの動画理解機能により、コミュニケーション モダリティが拡張され、カメラ入力やスクリーンキャストを共有して質問できるようになります。

Multimodal Live API には、次の主な機能が含まれています。

  • マルチモーダル: モデルは視覚、聴覚、音声を認識できます。
  • 低レイテンシのリアルタイム インタラクション: モデルは高速なレスポンスを提供できます。
  • セッション メモリ: モデルは 1 つのセッション内のすべてのインタラクションのメモリを保持し、以前に聞いたことや見たことがある情報を呼び出します。
  • 関数呼び出し、コード実行、ツールとしての検索のサポート: モデルを外部サービスやデータソースと統合できます。

Multimodal Live API は、サーバー間通信用に設計されています。

ウェブアプリとモバイルアプリの場合は、Daily のパートナーによる統合を使用することをおすすめします。

統合ガイド

セッション

セッションは、クライアントと Gemini サーバー間の単一の WebSocket 接続を表します。

クライアントが新しい接続を開始すると、セッションはサーバーとメッセージを交換して、次のことができます。

  • テキスト、音声、動画を Gemini サーバーに送信します。
  • Gemini サーバーから音声、テキスト、関数呼び出しのレスポンスを受信します。

セッション構成は、接続後の最初のメッセージで送信されます。セッション構成には、モデル、生成パラメータ、システム指示、ツールが含まれます。

次の構成例をご覧ください。

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

詳細については、BidiGenerateContentSetup をご覧ください。

メッセージを送信する

メッセージは、WebSocket 接続を介して交換される JSON 形式の文字列です。

メッセージを送信するには、クライアントが、開いている WebSocket 接続を介して、サポートされているクライアント メッセージを JSON 形式の文字列で送信する必要があります。

関連情報