Gemini Robotics-ER 1.5

Gemini Robotics-ER 1.5 là một mô hình thị giác-ngôn ngữ (VLM) mang các khả năng dựa trên tác nhân của Gemini vào lĩnh vực robot học. Mô hình này được thiết kế để suy luận nâng cao trong thế giới thực, cho phép robot diễn giải dữ liệu trực quan phức tạp, thực hiện suy luận không gian và lập kế hoạch hành động từ các lệnh bằng ngôn ngữ tự nhiên.

Tài liệu

Truy cập trang Robotics (Robot học) để xem thông tin đầy đủ về các tính năng và chức năng.

gemini-robotics-er-1.5-preview

Thuộc tính Mô tả
Mã kiểu máy gemini-robotics-er-1.5-preview
Các loại dữ liệu được hỗ trợ

Thông tin đầu vào

Văn bản, hình ảnh, video, âm thanh

Đầu ra

Văn bản

Giới hạn mã thông báo[*]

Giới hạn mã thông báo đầu vào

1.048.576

Giới hạn mã thông báo đầu ra

65.536

Chức năng

Tạo âm thanh

Không được hỗ trợ

Batch API

Không được hỗ trợ

Lưu vào bộ nhớ đệm

Không được hỗ trợ

Thực thi mã

Được hỗ trợ

Gọi hàm

Được hỗ trợ

Kết nối với Google Maps

Không được hỗ trợ

Tạo hình ảnh

Không được hỗ trợ

Live API

Không được hỗ trợ

Tìm trong phần liên kết thực tế

Được hỗ trợ

Đầu ra có cấu trúc

Được hỗ trợ

Tư duy

Được hỗ trợ

Bối cảnh URL

Được hỗ trợ

Phiên bản
Đọc các mẫu phiên bản mô hình để biết thêm thông tin chi tiết.
  • Xem trước: gemini-robotics-er-1.5-preview
Thông tin cập nhật mới nhất Tháng 9 năm 2025
Điểm cắt kiến thức Tháng 1 năm 2025