Interactions API の一般提供を開始しました。この API を使用して、最新の機能とモデルにアクセスすることをおすすめします。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API の概要

Live API を使用すると、Gemini と音声とビジョンによるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、画像、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供し、ユーザーに自然な会話体験を提供します。

Live API の概要

ユースケース

Live API を使用して、次のようなさまざまな業界向けのリアルタイム音声エージェントを構築できます。

Live API は、堅牢な音声エージェントを構築するための包括的な機能セットを提供します。

次の表に、Live API の技術仕様の概要を示します。

カテゴリ	詳細
入力モダリティ	音声（RAW 16 ビット PCM 音声、16kHz、リトルエンディアン）、画像（JPEG <= 1FPS）、テキスト
出力モダリティ	音声（RAW 16 ビット PCM 音声、24kHz、リトルエンディアン）
プロトコル	ステートフル WebSocket 接続（WSS）

Live API と統合する際は、次のいずれかの実装方法を選択する必要があります。

サーバー間: バックエンドが WebSockets を使用して Live API に接続します。通常、クライアントはストリームデータ（音声、動画、テキスト）をサーバーに送信し、サーバーはそれを Live API に転送します。
クライアントからサーバーへ: フロントエンドコードが WebSockets を使用して Live API に直接接続し、バックエンドをバイパスしてデータをストリーミングします。

開発環境に一致するガイドを選択してください。

サーバー間

GenAI SDK を使用して Gemini Live API に接続し、Python バックエンドでリアルタイムのマルチモーダルアプリケーションを構築します。

クライアントからサーバーへ

WebSocket を使用して Gemini Live API に接続し、JavaScript フロントエンドとエフェメラルトークンを使用してリアルタイムのマルチモーダルアプリケーションを構築します。

Agent Development Kit

エージェントを作成し、Agent Development Kit（ADK）ストリーミングを使用して音声と動画の通信を有効にします。

リアルタイムの音声アプリと動画アプリの開発を効率化するには、WebRTC または WebSocket 経由で Gemini Live API をサポートするサードパーティ統合を使用します。

LiveKit

LiveKit エージェントで Gemini Live API を使用します。

Pipecat by Daily

Gemini Live と Pipecat を使用してリアルタイムの AI チャットボットを作成します。

Software Mansion の Fishjam

Fishjam を使用して、ライブ動画と音声のストリーミングアプリケーションを作成します。

Stream による Vision エージェント

Vision エージェントを使用して、リアルタイムの音声と動画の AI アプリケーションを構築します。

Voximplant

Voximplant を使用して、インバウンド通話とアウトバウンド通話を Live API に接続します。

Agora

Agora を使用してリアルタイムの会話型 AI アプリケーションを構築します。

Firebase AI SDK

Firebase AI Logic を使用して Gemini Live API を使ってみましょう。