Gemini Deep Research がプレビュー版で利用可能になりました。共同プランニング、可視化、MCP サポートなどが含まれています。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API overview

Live API を使用すると、Gemini と音声とビジョンによるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、画像、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供し、ユーザーに自然な会話エクスペリエンスを提供します。

Live API の概要

ユースケース

Live API を使用すると、次のようなさまざまな業界向けのリアルタイム音声エージェントを構築できます。

Live API は、堅牢な音声エージェントを構築するための包括的な機能セットを提供します。

次の表に、Live API の技術仕様の概要を示します。

カテゴリ	詳細
入力モダリティ	音声（RAW 16 ビット PCM 音声、16kHz、リトルエンディアン）、画像（JPEG <= 1FPS）、テキスト
出力モダリティ	音声（RAW 16 ビット PCM 音声、24kHz、リトルエンディアン）
プロトコル	ステートフル WebSocket 接続（WSS）

Live API と統合する場合は、次のいずれかの実装方法を選択する必要があります。

サーバー間: バックエンドは Live API に WebSockets を使用して接続します。通常、クライアントはストリームデータ（音声、動画、テキスト）をサーバーに送信し、サーバーはそれを Live API に転送します。
クライアントからサーバー: フロントエンドコードは Live API に直接接続し、WebSockets を使用してバックエンドをバイパスしてデータをストリーミングします。

開発環境に一致するガイドを選択してください。

サーバー間

GenAI SDK を使用して Gemini Live API に接続し、Python バックエンドでリアルタイムのマルチモーダルアプリケーションを構築します。

クライアントからサーバー

WebSocket を使用して Gemini Live API に接続し、JavaScript フロントエンドとエフェメラルトークンを使用してリアルタイムのマルチモーダルアプリケーションを構築します。

Agent Development Kit

エージェントを作成し、Agent Development Kit（ADK）ストリーミングを使用して音声と動画の通信を有効にします。

リアルタイムの音声アプリと動画アプリの開発を効率化するには、 WebRTC または WebSocket 経由で Gemini Live API をサポートするサードパーティ統合を使用します。

LiveKit

Gemini Live API を LiveKit エージェントで使用します。

Daily の Pipecat

Gemini Live と Pipecat を使用してリアルタイムの AI チャットボットを作成します。

Software Mansion の Fishjam

Fishjam を使用してライブ動画と音声のストリーミングアプリケーションを作成します。

Stream の Vision Agents

Vision Agents を使用してリアルタイムの音声と動画の AI アプリケーションを構築します。

Voximplant

Voximplant を使用して、インバウンド通話とアウトバウンド通話を Live API に接続します。

Agora

Agora を使用してリアルタイムの会話型 AI アプリケーションを構築します。

Firebase AI SDK

Firebase AI Logic を使用して Gemini Live API を使ってみましょう。