Gemini Robotics-ER 1.5는 Gemini의 에이전트 기능을 로봇 공학에 도입하는 비전 언어 모델 (VLM)입니다. 물리적 세계에서 고급 추론을 할 수 있도록 설계되어 로봇이 복잡한 시각적 데이터를 해석하고, 공간 추론을 수행하고, 자연어 명령에서 작업을 계획할 수 있습니다.
문서
기능과 기능에 관한 전체 내용은 로보틱스 페이지를 참고하세요.
gemini-robotics-er-1.5-preview
| 속성 | 설명 |
|---|---|
| 모델 코드 | gemini-robotics-er-1.5-preview |
| 지원 데이터 유형 |
입력 텍스트, 이미지, 동영상, 오디오 출력 텍스트 |
| 토큰 한도[*] |
입력 토큰 한도 1,048,576 출력 토큰 한도 65,536 |
| 기능 |
오디오 생성 지원되지 않음 Batch API 지원되지 않음 캐싱 지원되지 않음 코드 실행 지원됨 함수 호출 지원됨 Google 지도 그라운딩 지원되지 않음 이미지 생성 지원되지 않음 Live API 지원되지 않음 검색 그라운딩 지원됨 구조화된 출력 지원됨 사고 지원됨 URL 컨텍스트 지원됨 |
| 버전 |
|
| 최신 업데이트 | 2025년 9월 |
| 지식 단절 | 2025년 1월 |