Tối ưu hoá và suy luận Gemini API

Gemini API cung cấp nhiều cơ chế tối ưu hoá để giúp bạn cân bằng tốc độ, chi phí và độ tin cậy dựa trên nhu cầu cụ thể về khối lượng công việc. Cho dù bạn đang xây dựng bot trò chuyện theo thời gian thực hay chạy các pipeline xử lý dữ liệu ngoại tuyến nặng, việc chọn mô hình phù hợp có thể giúp giảm đáng kể chi phí hoặc tăng hiệu suất.

Tính năng Tiêu chuẩn Linh hoạt Mức độ ưu tiên Theo nhóm Lưu vào bộ nhớ đệm
Định giá Giá đầy đủ Chiết khấu 50% Cao hơn 75% đến 100% so với mức tiêu chuẩn Chiết khấu 50% Chiết khấu 90% + Dung lượng lưu trữ mã thông báo được tính theo tỷ lệ
Độ trễ Giây đến phút Phút (mục tiêu 1–15 phút) Giây Tối đa 24 giờ Thời gian hiển thị mã thông báo đầu tiên nhanh hơn
Độ tin cậy Cao / Trung bình cao Trong khả năng tốt nhất có thể (Có thể loại bỏ) Cao (Không thể loại bỏ) Cao (đối với thông lượng) Không áp dụng
Giao diện Đồng bộ Đồng bộ Đồng bộ Không đồng bộ Trạng thái đã lưu
Trường hợp sử dụng phù hợp nhất Quy trình công việc của ứng dụng chung Các chuỗi tuần tự không khẩn cấp Ứng dụng dành cho người dùng, sản xuất Tập dữ liệu khổng lồ, đánh giá ngoại tuyến Truy vấn định kỳ trên cùng một tệp

Cấp dịch vụ suy luận (Đồng bộ)

Bạn có thể chuyển đổi giữa lưu lượng truy cập đồng bộ được tối ưu hoá về độ tin cậy và lưu lượng truy cập đồng bộ được tối ưu hoá về chi phí bằng cách truyền tham số service_tier trong các lệnh gọi tạo tiêu chuẩn.

Suy luận tiêu chuẩn (Mặc định)

Cấp tiêu chuẩn là lựa chọn mặc định để tạo nội dung tuần tự. Cấp này cung cấp thời gian phản hồi bình thường mà không có phí bảo hiểm bổ sung hoặc hàng đợi nặng.

  • Độ tin cậy: Mức độ quan trọng tiêu chuẩn
  • Giá: Định giá tiêu chuẩn.
  • Phù hợp nhất với: Hầu hết các ứng dụng tương tác hằng ngày.

Suy luận ưu tiên (Được tối ưu hoá về độ trễ)

Tính năng xử lýưu tiên định tuyến các yêu cầu của bạn đến các hàng đợi điện toán có mức độ quan trọng cao. Lưu lượng truy cập này hoàn toàn không thể loại bỏ (không bao giờ bị các cấp khác ưu tiên) và mang lại độ tin cậy cao nhất. Nếu bạn vượt quá giới hạn Ưu tiên động, hệ thống sẽ tự động hạ cấp yêu cầu xuống mức Xử lý tiêu chuẩn thay vì báo lỗi.

  • Độ tin cậy: Mức độ quan trọng cao nhất
  • Giá: Cao hơn 75% đến 100% so với mức Tiêu chuẩn.
  • Phù hợp nhất với: Chatbot dành cho khách hàng, phát hiện gian lận theo thời gian thực và trợ lý ảo quan trọng đối với doanh nghiệp.

Suy luận linh hoạt (Được tối ưu hoá về chi phí)

Suy luận linh hoạt chiết khấu 50% so với mức tiêu chuẩn bằng cách tận dụng dung lượng điện toán cơ hội ngoài giờ cao điểm. Các yêu cầu được xử lý đồng bộ, nghĩa là bạn không cần viết lại mã để quản lý các đối tượng theo nhóm. Vì đây là lưu lượng truy cập "có thể loại bỏ", nên các yêu cầu có thể bị ưu tiên nếu hệ thống gặp phải tình trạng tăng đột biến lưu lượng truy cập tiêu chuẩn.

  • Độ tin cậy: Mức độ quan trọng không được đảm bảo, có thể loại bỏ
  • Giá: 50% giá tiêu chuẩn (tính phí theo mã thông báo).
  • Phù hợp nhất với: Quy trình công việc nhiều bước của tác nhân trong đó lệnh gọi N+1 phụ thuộc vào kết quả của lệnh gọi N, cập nhật CRM ở chế độ nền và đánh giá ngoại tuyến.

Batch API (Hàng loạt, không đồng bộ)

Batch API được thiết kế để xử lý số lượng lớn yêu cầu không đồng bộ với chi phí bằng 50% chi phí tiêu chuẩn. Bạn có thể gửi yêu cầu dưới dạng từ điển nội tuyến hoặc sử dụng tệp đầu vào JSONL (tối đa 2 GB). API này xử lý các yêu cầu bằng cách sử dụng hàng đợi thông lượng ở chế độ nền với thời gian hoàn thành mục tiêu là 24 giờ.

  • Độ tin cậy: Có thể loại bỏ nhưng có hệ thống hàng đợi và thử lại tự động trong 24 giờ
  • Giá: 50% giá tiêu chuẩn.
  • Phù hợp nhất với: Xử lý trước các tập dữ liệu khổng lồ, chạy các bộ kiểm thử hồi quy định kỳ và tạo hình ảnh hoặc tạo vectơ nhúng với số lượng lớn.

Lưu vào bộ nhớ đệm theo ngữ cảnh (Tiết kiệm đầu vào)

Tính năng lưu vào bộ nhớ đệm theo ngữ cảnh được sử dụng khi một ngữ cảnh ban đầu đáng kể được các yêu cầu ngắn hơn tham chiếu nhiều lần.

  • Lưu vào bộ nhớ đệm ngầm ẩn: Tự động bật trên Gemini 2.5 và các mô hình mới hơn. Hệ thống chuyển khoản tiết kiệm chi phí nếu yêu cầu của bạn khớp với bộ nhớ đệm hiện có dựa trên các tiền tố lời nhắc phổ biến.
  • Lưu vào bộ nhớ đệm rõ ràng: Bạn có thể tạo đối tượng bộ nhớ đệm theo cách thủ công với Thời gian tồn tại (TTL) cụ thể. Sau khi tạo, bạn tham chiếu đến các mã thông báo được lưu vào bộ nhớ đệm cho các yêu cầu tiếp theo để tránh truyền tải trọng corpus giống nhau nhiều lần.
  • Giá: Tính phí dựa trên số lượng mã thông báo trong bộ nhớ đệm và thời gian lưu trữ (TTL).
  • Phù hợp nhất với: Chatbot có hướng dẫn hệ thống mở rộng, phân tích lặp đi lặp lại các tệp video dài hoặc truy vấn đối với các tập tài liệu lớn.