Gemini 3.1 Flash Live Preview là mô hình âm thanh sang âm thanh có độ trễ thấp, được tối ưu hoá cho các ứng dụng AI tương tác bằng giọng nói và đối thoại theo thời gian thực, có khả năng phát hiện sắc thái âm thanh, độ chính xác về số và nhận thức đa phương thức.
Tài liệu
Hãy truy cập vào hướng dẫn về Live API để xem toàn bộ các tính năng và chức năng.
gemini-3.1-flash-live-preview
| Thuộc tính | Mô tả |
|---|---|
| Mã kiểu máy |
gemini-3.1-flash-live-preview
|
| Các loại dữ liệu được hỗ trợ |
Thông tin đầu vào Văn bản, hình ảnh, âm thanh, video Đầu ra Văn bản và âm thanh |
| Giới hạn mã thông báo[*] |
Giới hạn token đầu vào 131.072 Giới hạn mã thông báo đầu ra 65.536 |
| Chức năng |
Tạo âm thanh Được hỗ trợ Batch API Không được hỗ trợ Lưu vào bộ nhớ đệm Không được hỗ trợ Thực thi mã Không được hỗ trợ Tìm kiếm tệp Không được hỗ trợ Gọi hàm Được hỗ trợ Kết nối với Google Maps Không được hỗ trợ Tạo hình ảnh Không được hỗ trợ Live API Được hỗ trợ Tìm trong phần liên kết thực tế Được hỗ trợ Đầu ra có cấu trúc Không được hỗ trợ Tư duy Được hỗ trợ Bối cảnh URL Không được hỗ trợ |
| Phiên bản |
|
| Thông tin cập nhật mới nhất | Tháng 3 năm 2026 |
| Điểm cắt kiến thức | Tháng 1 năm 2025 |
Di chuyển từ Gemini 2.5 Flash Live
Gemini 3.1 Flash Live Preview được tối ưu hoá cho các cuộc trò chuyện theo thời gian thực với độ trễ thấp.
Khi di chuyển từ gemini-2.5-flash-native-audio-preview-12-2025, hãy cân nhắc những điều sau:
- Chuỗi mô hình: Cập nhật chuỗi mô hình từ
gemini-2.5-flash-native-audio-preview-12-2025thànhgemini-3.1-flash-live-preview. - Cấu hình suy nghĩ: Gemini 3.1 sử dụng
thinkingLevel(với các chế độ cài đặt nhưminimal,low,mediumvàhigh) thay vìthinkingBudget. Chế độ mặc định làminimalđể tối ưu hoá cho độ trễ thấp nhất. Xem phần Cân nhắc các cấp và ngân sách. - Sự kiện trên máy chủ: Giờ đây, một sự kiện
BidiGenerateContentServerContentcó thể chứa nhiều phần nội dung cùng lúc (ví dụ: các đoạn âm thanh và bản chép lời). Cập nhật mã để xử lý tất cả các phần trong mỗi sự kiện nhằm tránh bỏ lỡ nội dung. - Nội dung của ứng dụng:
send_client_contentchỉ được hỗ trợ để gieo hạt nhật ký ngữ cảnh ban đầu (yêu cầu đặtinitial_history_in_client_contenttronghistory_config). Sử dụngsend_realtime_inputđể gửi nội dung cập nhật văn bản trong cuộc trò chuyện. Xem Bản cập nhật nội dung gia tăng. - Phạm vi phủ sóng: Mặc định là
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEOthay vìTURN_INCLUDES_ONLY_ACTIVITY. Lượt phản hồi của mô hình hiện bao gồm hoạt động âm thanh được phát hiện và tất cả các khung hình video. Nếu ứng dụng của bạn hiện đang gửi một luồng khung hình video liên tục, bạn có thể muốn cập nhật ứng dụng để chỉ gửi khung hình video khi có hoạt động âm thanh nhằm tránh phát sinh thêm chi phí. - Gọi hàm không đồng bộ: Chưa được hỗ trợ. Tính năng gọi hàm chỉ đồng bộ. Mô hình sẽ không bắt đầu phản hồi cho đến khi bạn gửi phản hồi của công cụ. Xem phần Gọi hàm không đồng bộ.
- Âm thanh chủ động và đối thoại cảm xúc: Các tính năng này chưa được hỗ trợ trong Gemini 3.1 Flash Live. Xoá mọi cấu hình cho các tính năng này khỏi mã của bạn. Xem Âm thanh chủ động và Đoạn hội thoại cảm xúc.
Để biết thông tin so sánh chi tiết về các tính năng, hãy xem bảng So sánh mô hình trong hướng dẫn về các chức năng.