이제 Interactions API가 정식 버전으로 출시되었습니다. 이 API를 사용하여 모든 최신 기능과 모델에 액세스하는 것이 좋습니다.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API 개요

Live API는 Gemini와의 지연 시간이 짧은 실시간 음성 및 시각 상호작용을 지원합니다. 오디오, 이미지, 텍스트의 연속 스트림을 처리하여 즉각적이고 사람과 유사한 음성 대답을 제공하므로 사용자에게 자연스러운 대화 환경을 제공합니다.

Live API 개요

사용 사례

Live API는 다음과 같은 다양한 업계에서 실시간 음성 에이전트를 빌드하는 데 사용할 수 있습니다.

Live API는 강력한 음성 에이전트를 빌드하기 위한 포괄적인 기능 세트를 제공합니다.

다음 표에는 Live API의 기술 사양이 나와 있습니다.

카테고리	세부정보
입력 모달리티	오디오 (원시 16비트 PCM 오디오, 16kHz, 리틀 엔디안), 이미지 (JPEG <= 1FPS), 텍스트
출력 모달리티	오디오 (원시 16비트 PCM 오디오, 24kHz, 리틀 엔디안)
프로토콜	스테이트풀 WebSocket 연결 (WSS)

Live API와 통합할 때는 다음 구현 접근 방식 중 하나를 선택해야 합니다.

서버 간: 백엔드가 WebSockets을 사용하여 Live API에 연결합니다. 일반적으로 클라이언트는 스트림 데이터 (오디오, 동영상, 텍스트)를 서버로 전송한 후 서버에서 Live API로 전달합니다.
클라이언트-서버: 프런트엔드 코드가 Live API 에 직접 연결하여 WebSockets을 사용하여 백엔드를 우회하고 데이터를 스트리밍합니다.

개발 환경에 맞는 가이드를 선택합니다.

서버 간

생성형 AI SDK를 사용하여 Gemini Live API에 연결하여 Python 백엔드로 실시간 멀티모달 애플리케이션을 빌드합니다.

클라이언트-서버

WebSocket을 사용하여 Gemini Live API에 연결하여 JavaScript 프런트엔드 및 단기 토큰으로 실시간 멀티모달 애플리케이션을 빌드합니다.

에이전트 개발 키트

에이전트를 만들고 에이전트 개발 키트(ADK) 스트리밍을 사용하여 음성 및 영상 커뮤니케이션을 사용 설정합니다.

실시간 오디오 및 동영상 앱 개발을 간소화하려면 WebRTC 또는 WebSocket을 통해 Gemini Live API를 지원하는 서드 파티 연동을 사용하면 됩니다.

LiveKit

LiveKit 에이전트와 함께 Gemini Live API를 사용합니다.

Daily의 Pipecat

Gemini Live 및 Pipecat을 사용하여 실시간 AI 챗봇을 만듭니다.

Software Mansion의 Fishjam

Fishjam으로 라이브 동영상 및 오디오 스트리밍 애플리케이션을 만듭니다.

Stream의 Vision 에이전트

Vision 에이전트로 실시간 음성 및 동영상 AI 애플리케이션을 빌드합니다.

Voximplant

Voximplant를 사용하여 인바운드 및 아웃바운드 통화를 Live API에 연결합니다.

Agora

Agora로 실시간 대화형 AI 애플리케이션을 빌드합니다.

Firebase AI SDK

Firebase AI Logic을 사용하여 Gemini Live API를 시작합니다.