Gemini Live API overview

Live API を使用すると、Gemini と音声とビジョンによるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、画像、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供し、ユーザーに自然な会話体験を提供します。

Live API の概要

ユースケース

Live API を使用すると、次のようなさまざまな業界向けのリアルタイム音声エージェントを構築できます。

  • e コマースと小売業: パーソナライズされたおすすめを提供するショッピング アシスタントや、お客様の問題を解決するサポート エージェント。
  • ゲーム: インタラクティブなノンプレーヤー キャラクター(NPC)、ゲーム内ヘルプ アシスタント、ゲーム内コンテンツのリアルタイム翻訳。
  • 次世代インターフェース: ロボット工学、スマート グラス、車両における音声と動画対応のエクスペリエンス。
  • ヘルスケア: 患者のサポートと教育のためのヘルスケア コンパニオン。
  • 金融サービス: 資産管理と投資ガイダンスのための AI アドバイザー。
  • 教育: パーソナライズされた指導とフィードバックを提供する AI メンターと学習コンパニオン。

主な機能

Live API は、堅牢な音声エージェントを構築するための包括的な機能セットを提供します。

  • 多言語サポート: 70 の言語で会話できます。
  • 割り込み: ユーザーは、応答性の高いインタラクションのために、いつでもモデルを中断できます。
  • ツールの使用: 関数呼び出しや Google 検索などのツールを統合して、動的なやり取りを実現します。
  • 音声文字変換: ユーザー入力とモデル出力の両方のテキスト文字変換を提供します。
  • プロアクティブ音声: モデルが応答するタイミングやコンテキストを制御できます。
  • アフェクティブ ダイアログ: ユーザーの入力表現に合わせて、回答のスタイルとトーンを調整します。

技術仕様

次の表に、Live API の技術仕様の概要を示します。

カテゴリ 詳細
入力モダリティ 音声(RAW 16 ビット PCM 音声、16kHz、リトル エンディアン)、画像(JPEG <= 1FPS)、テキスト
出力モダリティ 音声(RAW 16 ビット PCM 音声、24kHz、リトル エンディアン)
プロトコル ステートフル WebSocket 接続(WSS)

実装アプローチを選択する

Live API と統合する際は、次のいずれかの実装方法を選択する必要があります。

  • サーバー間: バックエンドが WebSockets を使用して Live API に接続します。通常、クライアントはストリーム データ(音声、動画、テキスト)をサーバーに送信し、サーバーはそれを Live API に転送します。
  • クライアントからサーバーへ: フロントエンド コードが WebSockets を使用して Live API に直接接続し、バックエンドをバイパスしてデータをストリーミングします。

始める

開発環境に一致するガイドを選択してください。

サーバー間

GenAI SDK を使用して Gemini Live API に接続し、Python バックエンドでリアルタイムのマルチモーダル アプリケーションを構築します。

クライアントからサーバー

WebSocket を使用して Gemini Live API に接続し、JavaScript フロントエンドとエフェメラル トークンを使用してリアルタイムのマルチモーダル アプリケーションを構築します。

Agent Development Kit

エージェントを作成し、Agent Development Kit(ADK)ストリーミングを使用して音声と動画の通信を有効にします。

パートナーとの統合

リアルタイムの音声アプリと動画アプリの開発を効率化するには、WebRTC または WebSocket 経由で Gemini Live API をサポートするサードパーティ統合を使用します。