Interactions API hiện đã được phát hành rộng rãi. Bạn nên sử dụng API này để truy cập vào tất cả các tính năng và mô hình mới nhất.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Bản xem trước Gemini 3.1 Flash Live

Gemini 3.1 Flash Live Preview là mô hình âm thanh sang âm thanh có độ trễ thấp, được tối ưu hoá cho cuộc trò chuyện theo thời gian thực và các ứng dụng AI ưu tiên giọng nói với tính năng phát hiện sắc thái âm thanh, độ chính xác về số và nhận biết đa phương thức.

Dùng thử trong Google AI Studio

Tài liệu

Hãy truy cập vào hướng dẫn Live API để xem đầy đủ các tính năng và chức năng.

gemini-3.1-flash-live-preview

Thuộc tính	Mô tả
Mã mô hình	`gemini-3.1-flash-live-preview`
Các loại dữ liệu được hỗ trợ	Thông tin đầu vào Văn bản, hình ảnh, âm thanh, video Đầu ra Văn bản và âm thanh
Giới hạn mã thông báo^[*]	Giới hạn mã thông báo đầu vào 131.072 Giới hạn mã thông báo đầu ra 65.536
Chức năng	Tạo âm thanh Được hỗ trợ Lưu vào bộ nhớ đệm Không được hỗ trợ Thực thi mã Không được hỗ trợ Tìm tệp Không được hỗ trợ Gọi hàm Được hỗ trợ Kết nối với Google Maps Không được hỗ trợ Tạo hình ảnh Không được hỗ trợ Live API Được hỗ trợ Tìm trong phần liên kết thực tế Được hỗ trợ Đầu ra có cấu trúc Không được hỗ trợ Tư duy Được hỗ trợ Bối cảnh URL Không được hỗ trợ
Các tuỳ chọn tiêu thụ	Batch API Không được hỗ trợ
Phiên bản	Đọc các mẫu phiên bản mô hình để biết thêm chi tiết. Xem trước: `gemini-3.1-flash-live-preview`
Nội dung cập nhật mới nhất	Tháng 3 năm 2026
Điểm cắt kiến thức	Tháng 1 năm 2025

Di chuyển từ Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview được tối ưu hoá cho cuộc trò chuyện theo thời gian thực có độ trễ thấp. Khi di chuyển từ gemini-2.5-flash-native-audio-preview-12-2025, hãy cân nhắc những điều sau:

Chuỗi mô hình: Cập nhật chuỗi mô hình từ gemini-2.5-flash-native-audio-preview-12-2025 thành gemini-3.1-flash-live-preview.
Cấu hình tư duy: Gemini 3.1 sử dụng thinkingLevel (với các chế độ cài đặt như minimal, low, medium, và high) thay vì thinkingBudget. Chế độ mặc định là minimal để tối ưu hoá cho độ trễ thấp nhất. Xem các cấp độ và ngân sách tư duy.
Sự kiện máy chủ: Một sự kiện BidiGenerateContentServerContent hiện có thể chứa nhiều phần nội dung cùng lúc (ví dụ: các đoạn âm thanh và bản chép lời). Hãy cập nhật mã của bạn để xử lý tất cả các phần trong mỗi sự kiện nhằm tránh bỏ lỡ nội dung.
Nội dung của ứng dụng: send_client_content chỉ được hỗ trợ để gieo hạt cho nhật ký bối cảnh ban đầu (yêu cầu thiết lập initial_history_in_client_content trong history_config). Hãy sử dụng send_realtime_input để gửi nội dung cập nhật văn bản trong cuộc trò chuyện. Xem nội dung cập nhật tăng dần.
Phạm vi lượt tương tác: Mặc định là TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO thay vì TURN_INCLUDES_ONLY_ACTIVITY. Lượt tương tác của mô hình hiện bao gồm hoạt động âm thanh được phát hiện và tất cả khung hình video. Nếu ứng dụng của bạn hiện gửi một luồng khung hình video liên tục, bạn có thể muốn cập nhật ứng dụng để chỉ gửi khung hình video khi có hoạt động âm thanh nhằm tránh phát sinh thêm chi phí.
Gọi hàm không đồng bộ: Hiện chưa được hỗ trợ. Chỉ có thể gọi hàm đồng bộ. Mô hình sẽ không bắt đầu phản hồi cho đến khi bạn gửi phản hồi của công cụ. Xem phần Gọi hàm không đồng bộ.
Âm thanh chủ động và cuộc trò chuyện cảm xúc: Các tính năng này hiện chưa được hỗ trợ trong Gemini 3.1 Flash Live. Hãy xoá mọi cấu hình cho các tính năng này khỏi mã của bạn. Xem phần Âm thanh chủ động và cuộc trò chuyện cảm xúc.

Để so sánh chi tiết các tính năng, hãy xem Bảng so sánh mô hình trong hướng dẫn về chức năng.