Bản xem trước Gemini 3.1 Flash Live

Gemini 3.1 Flash Live Preview là mô hình âm thanh sang âm thanh có độ trễ thấp, được tối ưu hoá cho các ứng dụng AI tương tác bằng giọng nói và đối thoại theo thời gian thực, có khả năng phát hiện sắc thái âm thanh, độ chính xác về số và nhận thức đa phương thức.

Tài liệu

Hãy truy cập vào hướng dẫn về Live API để xem toàn bộ các tính năng và chức năng.

gemini-3.1-flash-live-preview

Thuộc tính Mô tả
Mã kiểu máy gemini-3.1-flash-live-preview
Các loại dữ liệu được hỗ trợ

Thông tin đầu vào

Văn bản, hình ảnh, âm thanh, video

Đầu ra

Văn bản và âm thanh

Giới hạn mã thông báo[*]

Giới hạn token đầu vào

131.072

Giới hạn mã thông báo đầu ra

65.536

Chức năng

Tạo âm thanh

Được hỗ trợ

Batch API

Không được hỗ trợ

Lưu vào bộ nhớ đệm

Không được hỗ trợ

Thực thi mã

Không được hỗ trợ

Tìm kiếm tệp

Không được hỗ trợ

Gọi hàm

Được hỗ trợ

Kết nối với Google Maps

Không được hỗ trợ

Tạo hình ảnh

Không được hỗ trợ

Live API

Được hỗ trợ

Tìm trong phần liên kết thực tế

Được hỗ trợ

Đầu ra có cấu trúc

Không được hỗ trợ

Tư duy

Được hỗ trợ

Bối cảnh URL

Không được hỗ trợ

Phiên bản
Đọc các mẫu phiên bản mô hình để biết thêm thông tin chi tiết.
  • Xem trước: gemini-3.1-flash-live-preview
Thông tin cập nhật mới nhất Tháng 3 năm 2026
Điểm cắt kiến thức Tháng 1 năm 2025

Di chuyển từ Gemini 2.5 Flash Live

Gemini 3.1 Flash Live Preview được tối ưu hoá cho các cuộc trò chuyện theo thời gian thực với độ trễ thấp. Khi di chuyển từ gemini-2.5-flash-native-audio-preview-12-2025, hãy cân nhắc những điều sau:

  • Chuỗi mô hình: Cập nhật chuỗi mô hình từ gemini-2.5-flash-native-audio-preview-12-2025 thành gemini-3.1-flash-live-preview.
  • Cấu hình suy nghĩ: Gemini 3.1 sử dụng thinkingLevel (với các chế độ cài đặt như minimal, low, mediumhigh) thay vì thinkingBudget. Chế độ mặc định là minimal để tối ưu hoá cho độ trễ thấp nhất. Xem phần Cân nhắc các cấp và ngân sách.
  • Sự kiện trên máy chủ: Giờ đây, một sự kiện BidiGenerateContentServerContent có thể chứa nhiều phần nội dung cùng lúc (ví dụ: các đoạn âm thanh và bản chép lời). Cập nhật mã để xử lý tất cả các phần trong mỗi sự kiện nhằm tránh bỏ lỡ nội dung.
  • Nội dung của ứng dụng: send_client_content chỉ được hỗ trợ để gieo hạt nhật ký ngữ cảnh ban đầu (yêu cầu đặt initial_history_in_client_content trong history_config). Sử dụng send_realtime_input để gửi nội dung cập nhật văn bản trong cuộc trò chuyện. Xem Bản cập nhật nội dung gia tăng.
  • Phạm vi phủ sóng: Mặc định là TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO thay vì TURN_INCLUDES_ONLY_ACTIVITY. Lượt phản hồi của mô hình hiện bao gồm hoạt động âm thanh được phát hiện và tất cả các khung hình video. Nếu ứng dụng của bạn hiện đang gửi một luồng khung hình video liên tục, bạn có thể muốn cập nhật ứng dụng để chỉ gửi khung hình video khi có hoạt động âm thanh nhằm tránh phát sinh thêm chi phí.
  • Gọi hàm không đồng bộ: Chưa được hỗ trợ. Tính năng gọi hàm chỉ đồng bộ. Mô hình sẽ không bắt đầu phản hồi cho đến khi bạn gửi phản hồi của công cụ. Xem phần Gọi hàm không đồng bộ.
  • Âm thanh chủ động và đối thoại cảm xúc: Các tính năng này chưa được hỗ trợ trong Gemini 3.1 Flash Live. Xoá mọi cấu hình cho các tính năng này khỏi mã của bạn. Xem Âm thanh chủ độngĐoạn hội thoại cảm xúc.

Để biết thông tin so sánh chi tiết về các tính năng, hãy xem bảng So sánh mô hình trong hướng dẫn về các chức năng.