Bản xem trước Gemini 3.1 Flash Live

Gemini 3.1 Flash Live Preview là mô hình âm thanh sang âm thanh có độ trễ thấp, được tối ưu hoá cho cuộc trò chuyện theo thời gian thực và các ứng dụng AI ưu tiên giọng nói với tính năng phát hiện sắc thái âm thanh, độ chính xác về số và nhận biết đa phương thức.

Tài liệu

Hãy truy cập vào hướng dẫn Live API để xem đầy đủ các tính năng và chức năng.

gemini-3.1-flash-live-preview

Thuộc tính Mô tả
Mã mô hình gemini-3.1-flash-live-preview
Các loại dữ liệu được hỗ trợ

Thông tin đầu vào

Văn bản, hình ảnh, âm thanh, video

Đầu ra

Văn bản và âm thanh

Giới hạn mã thông báo[*]

Giới hạn mã thông báo đầu vào

131.072

Giới hạn mã thông báo đầu ra

65.536

Chức năng

Tạo âm thanh

Được hỗ trợ

Lưu vào bộ nhớ đệm

Không được hỗ trợ

Thực thi mã

Không được hỗ trợ

Tìm tệp

Không được hỗ trợ

Gọi hàm

Được hỗ trợ

Kết nối với Google Maps

Không được hỗ trợ

Tạo hình ảnh

Không được hỗ trợ

Live API

Được hỗ trợ

Tìm trong phần liên kết thực tế

Được hỗ trợ

Đầu ra có cấu trúc

Không được hỗ trợ

Tư duy

Được hỗ trợ

Bối cảnh URL

Không được hỗ trợ

Các tuỳ chọn tiêu thụ

Batch API

Không được hỗ trợ

Phiên bản
Đọc các mẫu phiên bản mô hình để biết thêm chi tiết.
  • Xem trước: gemini-3.1-flash-live-preview
Nội dung cập nhật mới nhất Tháng 3 năm 2026
Điểm cắt kiến thức Tháng 1 năm 2025

Di chuyển từ Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview được tối ưu hoá cho cuộc trò chuyện theo thời gian thực có độ trễ thấp. Khi di chuyển từ gemini-2.5-flash-native-audio-preview-12-2025, hãy cân nhắc những điều sau:

  • Chuỗi mô hình: Cập nhật chuỗi mô hình từ gemini-2.5-flash-native-audio-preview-12-2025 thành gemini-3.1-flash-live-preview.
  • Cấu hình tư duy: Gemini 3.1 sử dụng thinkingLevel (với các chế độ cài đặt như minimal, low, medium, và high) thay vì thinkingBudget. Chế độ mặc định là minimal để tối ưu hoá cho độ trễ thấp nhất. Xem các cấp độ và ngân sách tư duy.
  • Sự kiện máy chủ: Một sự kiện BidiGenerateContentServerContent hiện có thể chứa nhiều phần nội dung cùng lúc (ví dụ: các đoạn âm thanh và bản chép lời). Hãy cập nhật mã của bạn để xử lý tất cả các phần trong mỗi sự kiện nhằm tránh bỏ lỡ nội dung.
  • Nội dung của ứng dụng: send_client_content chỉ được hỗ trợ để gieo hạt cho nhật ký bối cảnh ban đầu (yêu cầu thiết lập initial_history_in_client_content trong history_config). Hãy sử dụng send_realtime_input để gửi nội dung cập nhật văn bản trong cuộc trò chuyện. Xem nội dung cập nhật tăng dần.
  • Phạm vi lượt tương tác: Mặc định là TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO thay vì TURN_INCLUDES_ONLY_ACTIVITY. Lượt tương tác của mô hình hiện bao gồm hoạt động âm thanh được phát hiện và tất cả khung hình video. Nếu ứng dụng của bạn hiện gửi một luồng khung hình video liên tục, bạn có thể muốn cập nhật ứng dụng để chỉ gửi khung hình video khi có hoạt động âm thanh nhằm tránh phát sinh thêm chi phí.
  • Gọi hàm không đồng bộ: Hiện chưa được hỗ trợ. Chỉ có thể gọi hàm đồng bộ. Mô hình sẽ không bắt đầu phản hồi cho đến khi bạn gửi phản hồi của công cụ. Xem phần Gọi hàm không đồng bộ.
  • Âm thanh chủ động và cuộc trò chuyện cảm xúc: Các tính năng này hiện chưa được hỗ trợ trong Gemini 3.1 Flash Live. Hãy xoá mọi cấu hình cho các tính năng này khỏi mã của bạn. Xem phần Âm thanh chủ độngcuộc trò chuyện cảm xúc.

Để so sánh chi tiết các tính năng, hãy xem Bảng so sánh mô hình trong hướng dẫn về chức năng.