Tối ưu hoá và suy luận Gemini API

Gemini API cung cấp nhiều cơ chế tối ưu hoá để giúp bạn cân bằng tốc độ, chi phí và độ tin cậy dựa trên nhu cầu cụ thể về khối lượng công việc. Cho dù bạn đang xây dựng các bot đàm thoại theo thời gian thực hay chạy các quy trình xử lý dữ liệu ngoại tuyến nặng, việc chọn đúng mô hình có thể giảm đáng kể chi phí hoặc tăng hiệu suất.

Tính năng Tiêu chuẩn Gập Mức độ ưu tiên Theo nhóm Lưu vào bộ nhớ đệm
Định giá Giá đầy đủ Giảm giá 50% Cao hơn từ 75% đến 100% so với mức tiêu chuẩn Giảm giá 50% Bộ nhớ mã thông báo được tính theo tỷ lệ
Độ trễ Giây sang phút Phút (mục tiêu 1 – 15 phút) Thấp (Giây) Tối đa 24 giờ Thời gian cho mã thông báo đầu tiên nhanh hơn
Độ tin cậy Cao / Trung bình cao Nỗ lực tối đa (Có thể loại bỏ) Cao (Không rụng lông) Cao (đối với thông lượng) Không áp dụng
Giao diện Đồng bộ Đồng bộ Đồng bộ Không đồng bộ Trạng thái đã lưu
Trường hợp sử dụng phù hợp nhất Quy trình công việc chung của ứng dụng Các chuỗi tuần tự không khẩn cấp Ứng dụng phát hành công khai dành cho người dùng Tập dữ liệu khổng lồ, đánh giá ngoại tuyến Các truy vấn lặp lại trên cùng một tệp

Cấp dịch vụ suy luận (Đồng bộ)

Bạn có thể chuyển đổi giữa lưu lượng truy cập đồng bộ hoá được tối ưu hoá độ trễ và lưu lượng truy cập đồng bộ hoá được tối ưu hoá chi phí bằng cách truyền tham số service_tier trong các lệnh gọi tạo tiêu chuẩn.

Suy luận chuẩn (Mặc định)

Cấp tiêu chuẩn là lựa chọn mặc định để tạo nội dung tuần tự. Dịch vụ này cung cấp thời gian phản hồi bình thường mà không cần trả thêm phí hoặc xếp hàng quá lâu.

  • Độ trễ: Từ vài giây đến vài phút.
  • Giá: Giá tiêu chuẩn.
  • Phù hợp nhất với: Hầu hết các ứng dụng tương tác hằng ngày.

Suy luận ưu tiên (Tối ưu hoá độ trễ)

Mức độ ưu tiên sẽ định tuyến các yêu cầu của bạn đến các hàng đợi tính toán có mức độ quan trọng cao. Lưu lượng truy cập này hoàn toàn không thể loại bỏ (không bao giờ bị các cấp khác chiếm quyền) và mang lại độ tin cậy cao nhất. Nếu bạn vượt quá giới hạn Ưu tiên linh động, hệ thống sẽ giảm cấp yêu cầu xuống mức xử lý Tiêu chuẩn thay vì báo lỗi.

  • Độ trễ: Siêu thấp (từ mili giây đến giây).
  • Giá: Cao hơn 75% đến 100% so với mức giá tiêu chuẩn.
  • Phù hợp nhất với: Chatbot trực tiếp cho khách hàng, tính năng phát hiện hành vi gian lận theo thời gian thực và trợ lý ảo quan trọng đối với doanh nghiệp.

Suy luận linh hoạt (Tối ưu hoá chi phí)

Suy luận linh hoạt giảm giá 50% so với mức giá tiêu chuẩn bằng cách tận dụng năng lực điện toán không cao điểm, có cơ hội. Các yêu cầu được xử lý đồng bộ, tức là bạn không cần viết lại mã để quản lý các đối tượng hàng loạt. Vì đây là lưu lượng truy cập "có thể loại bỏ", nên các yêu cầu có thể bị giành quyền nếu hệ thống gặp phải tình trạng lưu lượng truy cập tăng đột biến thông thường.

  • Độ trễ: Không được đảm bảo, mục tiêu từ 1 đến 15 phút.
  • Giá: 50% Giá tiêu chuẩn (tính phí theo mã thông báo).
  • Phù hợp nhất với: Quy trình làm việc có nhiều bước của tác nhân, trong đó lệnh gọi N+1 phụ thuộc vào đầu ra của lệnh gọi N, các bản cập nhật CRM trong nền và các hoạt động đánh giá ngoại tuyến.

Batch API (Hàng loạt, không đồng bộ)

Batch API được thiết kế để xử lý một lượng lớn yêu cầu không đồng bộ với 50% chi phí tiêu chuẩn. Bạn có thể gửi yêu cầu dưới dạng từ điển nội tuyến hoặc sử dụng tệp đầu vào JSONL (tối đa 2 GB). Hệ thống xử lý các yêu cầu bằng cách sử dụng hàng đợi công suất trong nền với thời gian xử lý mục tiêu là 24 giờ.

  • Độ trễ: Cao (tối đa 24 giờ).
  • Giá: Bằng 50% giá tiêu chuẩn.
  • Phù hợp nhất cho: Xử lý trước các tập dữ liệu lớn, chạy các bộ kiểm thử hồi quy định kỳ và tạo hình ảnh hoặc embeddings với số lượng lớn.

Lưu vào bộ nhớ đệm theo ngữ cảnh (Tiết kiệm dữ liệu đầu vào)

Lưu ngữ cảnh vào bộ nhớ đệm được dùng khi một ngữ cảnh ban đầu đáng kể được các yêu cầu ngắn hơn tham chiếu nhiều lần.

  • Bộ nhớ đệm ngầm: Tự động bật trên Gemini 2.5 và các mô hình mới hơn. Hệ thống sẽ chuyển cho bạn khoản tiết kiệm chi phí nếu yêu cầu của bạn trùng khớp với các cụm từ tìm kiếm trong bộ nhớ đệm hiện có dựa trên các tiền tố câu lệnh phổ biến.
  • Lưu vào bộ nhớ đệm tường minh: Bạn có thể tạo đối tượng bộ nhớ đệm theo cách thủ công với một Thời gian tồn tại (TTL) cụ thể. Sau khi tạo, bạn có thể tham chiếu đến các mã thông báo được lưu vào bộ nhớ đệm cho các yêu cầu tiếp theo để tránh truyền cùng một tải trọng văn bản nhiều lần.
  • Giá: Tính phí dựa trên số lượng mã thông báo trong bộ nhớ đệm và thời gian lưu trữ (TTL).
  • Phù hợp nhất với: Chatbot có nhiều chỉ dẫn hệ thống, phân tích lặp đi lặp lại các tệp video dài hoặc truy vấn đối với các tập tài liệu lớn.