Gemini 3.1 Flash Live Preview는 음성 우선 AI 애플리케이션과 실시간 대화에 최적화된 짧은 지연 시간의 오디오-오디오 모델로, 음향 뉘앙스 감지, 숫자 정밀도, 멀티모달 인식 기능을 갖추고 있습니다.
문서
기능 및 기능에 관한 전체 내용은 Live API 가이드를 참고하세요.
gemini-3.1-flash-live-preview
| 속성 | 설명 |
|---|---|
| 모델 코드 |
gemini-3.1-flash-live-preview
|
| 지원 데이터 유형 |
입력 텍스트, 이미지, 오디오, 동영상 출력 텍스트 및 오디오 |
| 토큰 한도[*] |
입력 토큰 한도 131,072 출력 토큰 한도 65,536 |
| 기능 |
오디오 생성 지원됨 Batch API 지원되지 않음 캐싱 지원되지 않음 코드 실행 지원되지 않음 파일 검색 지원되지 않음 함수 호출 지원됨 Google 지도 그라운딩 지원되지 않음 이미지 생성 지원되지 않음 Live API 지원됨 검색 그라운딩 지원됨 구조화된 출력 지원되지 않음 사고 지원됨 URL 컨텍스트 지원되지 않음 |
| 버전 |
|
| 최신 업데이트 | 2026년 3월 |
| 지식 단절 | 2025년 1월 |
Gemini 2.5 Flash Live에서 이전
Gemini 3.1 Flash Live Preview는 짧은 지연 시간의 실시간 대화에 최적화되어 있습니다.
gemini-2.5-flash-native-audio-preview-12-2025에서 이전할 때는 다음 사항을 고려하세요.
- 모델 문자열: 모델 문자열을
gemini-2.5-flash-native-audio-preview-12-2025에서gemini-3.1-flash-live-preview로 업데이트합니다. - 사고 모델 구성: Gemini 3.1은
thinkingBudget대신thinkingLevel(minimal,low,medium,high등의 설정 포함)을 사용합니다. 기본값은 가장 짧은 지연 시간을 위해 최적화된minimal입니다. 사고 모델 수준 및 예산을 참고하세요. - 서버 이벤트: 이제 단일
BidiGenerateContentServerContent이벤트에 여러 콘텐츠 부분이 동시에 포함될 수 있습니다 (예: 오디오 청크 및 스크립트). 콘텐츠가 누락되지 않도록 각 이벤트의 모든 부분을 처리하도록 코드를 업데이트합니다. - 클라이언트 콘텐츠:
send_client_content는 초기 컨텍스트 기록 시딩에만 지원됩니다 (history_config에서initial_history_in_client_content설정 필요). 대화 중에 텍스트 업데이트를 전송하려면send_realtime_input를 사용하세요. 증분 콘텐츠 업데이트를 참고하세요. - Turn coverage:
TURN_INCLUDES_ONLY_ACTIVITY대신TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO이 기본값입니다. 이제 모델의 턴에 감지된 오디오 활동과 모든 동영상 프레임이 포함됩니다. 현재 애플리케이션에서 동영상 프레임을 지속적으로 전송하는 경우 추가 비용이 발생하지 않도록 오디오 활동이 있을 때만 동영상 프레임을 전송하도록 애플리케이션을 업데이트하는 것이 좋습니다. - 비동기 함수 호출: 아직 지원되지 않습니다. 함수 호출은 동기식으로만 지원됩니다. 도구 응답을 전송할 때까지 모델은 응답을 시작하지 않습니다. 비동기 함수 호출을 참고하세요.
- 사전 대응 오디오 및 정서적 대화: 이러한 기능은 아직 Gemini 3.1 Flash Live에서 지원되지 않습니다. 코드에서 이러한 기능의 구성을 삭제합니다. 능동적 오디오 및 공감형 대화를 참고하세요.
자세한 기능 비교는 기능 가이드의 모델 비교 표를 참고하세요.