Gemini Interactions API là một API thử nghiệm cho phép nhà phát triển tạo các ứng dụng AI tạo sinh bằng mô hình Gemini. Gemini là mô hình mạnh nhất của chúng tôi, được xây dựng từ đầu theo hướng đa phương thức. Mô hình này có thể tổng quát hoá và hiểu một cách liền mạch, vận hành và kết hợp nhiều loại thông tin, bao gồm cả ngôn ngữ, hình ảnh, âm thanh, video và mã. Bạn có thể sử dụng Gemini API cho các trường hợp sử dụng như suy luận trên văn bản và hình ảnh, tạo nội dung, tác nhân đối thoại, hệ thống tóm tắt và phân loại, v.v.
Tạo một hoạt động tương tác
Tạo một lượt tương tác mới.
Nội dung yêu cầu
Nội dung yêu cầu chứa dữ liệu với cấu trúc sau:
model ModelOption (không bắt buộc)
Tên của "Mô hình" dùng để tạo lượt tương tác.
Bắt buộc nếu bạn không cung cấp "nhân viên hỗ trợ".
Các giá trị có thể có:
-
gemini-2.5-computer-use-preview-10-2025Một mô hình có khả năng thực hiện hành động được thiết kế để tương tác trực tiếp với giao diện, cho phép Gemini nhận biết và điều hướng các môi trường kỹ thuật số.
-
gemini-2.5-flashMô hình suy luận kết hợp đầu tiên của chúng tôi hỗ trợ cửa sổ ngữ cảnh 1 triệu token và có ngân sách tư duy.
-
gemini-2.5-flash-imageMô hình tạo hình ảnh gốc của chúng tôi, được tối ưu hoá về tốc độ, tính linh hoạt và khả năng hiểu ngữ cảnh. Giá của văn bản đầu vào và đầu ra giống như giá của 2,5 Flash.
-
gemini-2.5-flash-liteĐây là mô hình nhỏ nhất và tiết kiệm chi phí nhất của chúng tôi, được xây dựng để sử dụng ở quy mô lớn.
-
gemini-2.5-flash-lite-preview-09-2025Mô hình mới nhất dựa trên Gemini 2.5 Flash lite, được tối ưu hoá để tiết kiệm chi phí, có thông lượng cao và chất lượng cao.
-
gemini-2.5-flash-native-audio-preview-12-2025Các mô hình âm thanh gốc của chúng tôi được tối ưu hoá để mang đến đầu ra âm thanh chất lượng cao hơn với nhịp điệu, giọng nói tự nhiên, mức độ chi tiết và tâm trạng tốt hơn.
-
gemini-2.5-flash-preview-09-2025Mô hình mới nhất dựa trên mô hình 2.5 Flash. 2.5 Flash Preview phù hợp nhất với các tác vụ xử lý quy mô lớn, độ trễ thấp, khối lượng lớn đòi hỏi khả năng tư duy và các trường hợp sử dụng có tác nhân.
-
gemini-2.5-flash-preview-ttsMô hình chuyển văn bản sang lời nói 2.5 Flash được tối ưu hoá để tạo lời nói mạnh mẽ, có độ trễ thấp và có thể kiểm soát.
-
gemini-2.5-proMô hình đa năng tiên tiến của chúng tôi, có khả năng vượt trội trong việc lập trình và xử lý các nhiệm vụ suy luận phức tạp.
-
gemini-2.5-pro-preview-ttsMô hình âm thanh chuyển văn bản sang lời nói 2.5 Pro của chúng tôi được tối ưu hoá để tạo lời nói mạnh mẽ với độ trễ thấp, giúp tạo ra kết quả tự nhiên hơn và dễ dàng điều hướng các câu lệnh.
-
gemini-3-flash-previewMô hình thông minh nhất của chúng tôi được tối ưu hoá về tốc độ, kết hợp trí thông minh đột phá với khả năng tìm kiếm và liên kết thực tế vượt trội.
-
gemini-3-pro-image-previewMô hình tạo và chỉnh sửa hình ảnh tiên tiến.
-
gemini-3-pro-previewMô hình thông minh nhất của chúng tôi với khả năng suy luận và hiểu đa phương thức tiên tiến, cùng các tính năng tác nhân và lập trình theo cảm hứng mạnh mẽ.
-
gemini-3.1-pro-previewMô hình suy luận SOTA mới nhất của chúng tôi với độ sâu và sắc thái chưa từng có, cùng khả năng hiểu đa phương thức và lập trình mạnh mẽ.
-
gemini-3.1-flash-image-previewTrí tuệ thị giác cấp chuyên nghiệp với hiệu suất tốc độ cao và khả năng tạo nội dung dựa trên thực tế.
-
gemini-3.1-flash-lite-previewMô hình tiết kiệm chi phí nhất của chúng tôi, được tối ưu hoá cho các tác vụ có số lượng lớn, bản dịch và xử lý dữ liệu đơn giản.
-
gemini-3.1-flash-tts-previewTTS Gemini 3.1 Flash: Tạo lời nói mạnh mẽ với độ trễ thấp. Tận hưởng đầu ra tự nhiên, câu lệnh có thể điều hướng và thẻ âm thanh biểu cảm mới để kiểm soát chính xác lời tường thuật.
-
lyria-3-clip-previewMô hình tạo nhạc có độ trễ thấp, được tối ưu hoá cho các đoạn âm thanh có độ trung thực cao và khả năng kiểm soát nhịp điệu chính xác.
-
lyria-3-pro-previewMô hình tạo sinh tiên tiến, tạo toàn bộ bài hát của chúng tôi có khả năng hiểu biết sâu sắc về bố cục, được tối ưu hoá để kiểm soát cấu trúc chính xác và chuyển đổi phức tạp giữa nhiều phong cách âm nhạc.
agent AgentOption (không bắt buộc)
Tên của "Nhân viên hỗ trợ" được dùng để tạo lượt tương tác.
Bắt buộc nếu bạn không cung cấp "model".
Các giá trị có thể có:
-
deep-research-pro-preview-12-2025Tác nhân Deep Research của Gemini
-
deep-research-preview-04-2026Tác nhân Deep Research của Gemini
-
deep-research-max-preview-04-2026Tác nhân Deep Research Max của Gemini
Đầu vào cho hoạt động tương tác (áp dụng chung cho cả Mô hình và Agent).
Hướng dẫn của hệ thống cho lượt tương tác.
Danh sách các khai báo công cụ mà mô hình có thể gọi trong quá trình tương tác.
Thực thi để phản hồi được tạo là một đối tượng JSON tuân thủ giản đồ JSON được chỉ định trong trường này.
Loại MIME của phản hồi. Bạn phải cung cấp thông tin này nếu đã đặt response_format.
Chỉ có đầu vào. Liệu tương tác có được phát trực tuyến hay không.
Chỉ có đầu vào. Có lưu trữ phản hồi và yêu cầu để truy xuất sau này hay không.
Chỉ có đầu vào. Có chạy hoạt động tương tác mô hình ở chế độ nền hay không.
generation_config GenerationConfig (không bắt buộc)
Cấu hình mô hình
Các thông số cấu hình cho hoạt động tương tác của mô hình.
Phương án thay thế cho "agent_config". Chỉ áp dụng khi bạn đặt "model".
Trường
Kiểm soát tính ngẫu nhiên của đầu ra.
Xác suất tích luỹ tối đa của các mã thông báo cần xem xét khi lấy mẫu.
Dữ liệu gốc được dùng trong quá trình giải mã để có thể tái tạo.
Danh sách các chuỗi ký tự sẽ dừng hoạt động tương tác đầu ra.
thinking_level ThinkingLevel (không bắt buộc)
Mức độ của các mã thông báo suy nghĩ mà mô hình sẽ tạo.
Các giá trị có thể có:
-
minimal -
low -
medium -
high
thinking_summaries ThinkingSummaries (không bắt buộc)
Có nên đưa bản tóm tắt suy nghĩ vào câu trả lời hay không.
Các giá trị có thể có:
-
auto -
none
Số lượng mã thông báo tối đa cần đưa vào phản hồi.
speech_config SpeechConfig (không bắt buộc)
Cấu hình cho hoạt động tương tác bằng lời nói.
Trường
Giọng nói của người nói.
Ngôn ngữ của lời nói.
Tên của người nói, tên này phải khớp với tên người nói trong câu lệnh.
image_config ImageConfig (không bắt buộc)
Cấu hình cho hoạt động tương tác với hình ảnh.
Trường
Không có mô tả nào được cung cấp.
Các giá trị có thể có:
-
1:1 -
2:3 -
3:2 -
3:4 -
4:3 -
4:5 -
5:4 -
9:16 -
16:9 -
21:9 -
1:8 -
8:1 -
1:4 -
4:1
Không có mô tả nào được cung cấp.
Các giá trị có thể có:
-
1K -
2K -
4K -
512
Cấu hình lựa chọn công cụ.
agent_config object (không bắt buộc)
Cấu hình tác nhân
Cấu hình cho tác nhân.
Phương án thay thế cho "generation_config". Chỉ áp dụng khi bạn đặt "agent".
Các loại có thể có
Thuộc tính phân biệt đa hình: type
DynamicAgentConfig
Cấu hình cho các tác nhân động.
Không có mô tả nào được cung cấp.
Luôn đặt thành "dynamic".
DeepResearchAgentConfig
Cấu hình cho tác nhân Deep Research.
Không có mô tả nào được cung cấp.
Luôn đặt thành "deep-research".
thinking_summaries ThinkingSummaries (không bắt buộc)
Có nên đưa bản tóm tắt suy nghĩ vào câu trả lời hay không.
Các giá trị có thể có:
-
auto -
none
Có nên đưa hình ảnh trực quan vào câu trả lời hay không.
Các giá trị có thể có:
-
off -
auto
Cho phép lập kế hoạch có sự tham gia của con người cho tác nhân Deep Research. Nếu được đặt thành true, tác nhân Deep Research sẽ cung cấp một kế hoạch nghiên cứu trong phản hồi của mình. Sau đó, trợ lý ảo sẽ chỉ tiếp tục nếu người dùng xác nhận kế hoạch ở lượt tiếp theo.
Mã của lượt tương tác trước đó (nếu có).
response_modalities ResponseModality (không bắt buộc)
Các phương thức phản hồi được yêu cầu (VĂN BẢN, HÌNH ẢNH, ÂM THANH).
Các giá trị có thể có:
-
text -
image -
audio -
video -
document
Cấp dịch vụ cho lượt tương tác.
Các giá trị có thể có:
-
flex -
standard -
priority
Phản hồi
Trả về tài nguyên Tương tác.
Simple Request
Ví dụ về phản hồi
{ "created": "2025-11-26T12:25:15Z", "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "object": "interaction", "outputs": [ { "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-11-26T12:25:15Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 20, "total_thought_tokens": 22, "total_tokens": 49, "total_tool_use_tokens": 0 } }
Nhiều lượt
Ví dụ về phản hồi
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "The capital of France is Paris." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 50 } ], "total_cached_tokens": 0, "total_input_tokens": 50, "total_output_tokens": 10, "total_thought_tokens": 0, "total_tokens": 60, "total_tool_use_tokens": 0 } }
Đầu vào hình ảnh
Ví dụ về phản hồi
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 10 }, { "modality": "image", "tokens": 258 } ], "total_cached_tokens": 0, "total_input_tokens": 268, "total_output_tokens": 20, "total_thought_tokens": 0, "total_tokens": 288, "total_tool_use_tokens": 0 } }
Gọi hàm
Ví dụ về phản hồi
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "requires_action", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "function_call", "id": "gth23981", "name": "get_weather", "arguments": { "location": "Boston, MA" } } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 100 } ], "total_cached_tokens": 0, "total_input_tokens": 100, "total_output_tokens": 25, "total_thought_tokens": 0, "total_tokens": 125, "total_tool_use_tokens": 50 } }
Deep Research
Ví dụ về phản hồi
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "agent", "outputs": [ { "type": "text", "text": "Here is a comprehensive research report on the current state of cancer research..." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 20 } ], "total_cached_tokens": 0, "total_input_tokens": 20, "total_output_tokens": 1000, "total_thought_tokens": 500, "total_tokens": 1520, "total_tool_use_tokens": 0 } }
Truy xuất một lượt tương tác
Truy xuất thông tin chi tiết đầy đủ về một lượt tương tác dựa trên `Interaction.id`.
Tham số đường dẫn / truy vấn
Giá trị nhận dạng duy nhất của lượt tương tác cần truy xuất.
Nếu bạn đặt chính sách này thành true, thì nội dung được tạo sẽ được truyền trực tuyến theo gia số.
Mặc định là: False
Không bắt buộc. Nếu được đặt, sẽ tiếp tục luồng tương tác từ đoạn tiếp theo sau sự kiện được đánh dấu bằng mã sự kiện. Chỉ có thể dùng nếu `stream` là true.
Nếu được đặt thành true, thì sẽ thêm dữ liệu đầu vào vào phản hồi.
Mặc định là: False
Nên dùng phiên bản API nào.
Phản hồi
Trả về tài nguyên Tương tác.
Nhận lượt tương tác
Ví dụ về phản hồi
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model", "outputs": [ { "type": "text", "text": "I'm doing great, thank you for asking! How can I help you today?" } ] }
Xoá một lượt tương tác
Xoá lượt tương tác theo mã nhận dạng.
Tham số đường dẫn / truy vấn
Giá trị nhận dạng riêng biệt của lượt tương tác cần xoá.
Nên dùng phiên bản API nào.
Phản hồi
Nếu thành công, phản hồi sẽ trống.
Xoá lượt tương tác
Huỷ một lượt tương tác
Huỷ một lượt tương tác theo mã nhận dạng. Điều này chỉ áp dụng cho những hoạt động tương tác ở chế độ nền vẫn đang chạy.
Tham số đường dẫn / truy vấn
Giá trị nhận dạng riêng biệt của thao tác cần huỷ.
Nên dùng phiên bản API nào.
Phản hồi
Trả về tài nguyên Tương tác.
Huỷ lượt tương tác
Ví dụ về phản hồi
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "cancelled", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "agent" }
Tài nguyên
Tương tác
Tài nguyên Interaction.
Trường
model ModelOption (không bắt buộc)
Tên của "Mô hình" dùng để tạo lượt tương tác.
Các giá trị có thể có:
-
gemini-2.5-computer-use-preview-10-2025Một mô hình có khả năng thực hiện hành động được thiết kế để tương tác trực tiếp với giao diện, cho phép Gemini nhận biết và điều hướng các môi trường kỹ thuật số.
-
gemini-2.5-flashMô hình suy luận kết hợp đầu tiên của chúng tôi hỗ trợ cửa sổ ngữ cảnh 1 triệu token và có ngân sách tư duy.
-
gemini-2.5-flash-imageMô hình tạo hình ảnh gốc của chúng tôi, được tối ưu hoá về tốc độ, tính linh hoạt và khả năng hiểu ngữ cảnh. Giá của văn bản đầu vào và đầu ra giống như giá của 2,5 Flash.
-
gemini-2.5-flash-liteĐây là mô hình nhỏ nhất và tiết kiệm chi phí nhất của chúng tôi, được xây dựng để sử dụng ở quy mô lớn.
-
gemini-2.5-flash-lite-preview-09-2025Mô hình mới nhất dựa trên Gemini 2.5 Flash lite, được tối ưu hoá để tiết kiệm chi phí, có thông lượng cao và chất lượng cao.
-
gemini-2.5-flash-native-audio-preview-12-2025Các mô hình âm thanh gốc của chúng tôi được tối ưu hoá để mang đến đầu ra âm thanh chất lượng cao hơn với nhịp điệu, giọng nói tự nhiên, mức độ chi tiết và tâm trạng tốt hơn.
-
gemini-2.5-flash-preview-09-2025Mô hình mới nhất dựa trên mô hình 2.5 Flash. 2.5 Flash Preview phù hợp nhất với các tác vụ xử lý quy mô lớn, độ trễ thấp, khối lượng lớn đòi hỏi khả năng tư duy và các trường hợp sử dụng có tác nhân.
-
gemini-2.5-flash-preview-ttsMô hình chuyển văn bản sang lời nói 2.5 Flash được tối ưu hoá để tạo lời nói mạnh mẽ, có độ trễ thấp và có thể kiểm soát.
-
gemini-2.5-proMô hình đa năng tiên tiến của chúng tôi, có khả năng vượt trội trong việc lập trình và xử lý các nhiệm vụ suy luận phức tạp.
-
gemini-2.5-pro-preview-ttsMô hình âm thanh chuyển văn bản sang lời nói 2.5 Pro của chúng tôi được tối ưu hoá để tạo lời nói mạnh mẽ với độ trễ thấp, giúp tạo ra kết quả tự nhiên hơn và dễ dàng điều hướng các câu lệnh.
-
gemini-3-flash-previewMô hình thông minh nhất của chúng tôi được tối ưu hoá về tốc độ, kết hợp trí thông minh đột phá với khả năng tìm kiếm và liên kết thực tế vượt trội.
-
gemini-3-pro-image-previewMô hình tạo và chỉnh sửa hình ảnh tiên tiến.
-
gemini-3-pro-previewMô hình thông minh nhất của chúng tôi với khả năng suy luận và hiểu đa phương thức tiên tiến, cùng các tính năng tác nhân và lập trình theo cảm hứng mạnh mẽ.
-
gemini-3.1-pro-previewMô hình suy luận SOTA mới nhất của chúng tôi với độ sâu và sắc thái chưa từng có, cùng khả năng hiểu đa phương thức và lập trình mạnh mẽ.
-
gemini-3.1-flash-image-previewTrí tuệ thị giác cấp chuyên nghiệp với hiệu suất tốc độ cao và khả năng tạo nội dung dựa trên thực tế.
-
gemini-3.1-flash-lite-previewMô hình tiết kiệm chi phí nhất của chúng tôi, được tối ưu hoá cho các tác vụ có số lượng lớn, bản dịch và xử lý dữ liệu đơn giản.
-
gemini-3.1-flash-tts-previewTTS Gemini 3.1 Flash: Tạo lời nói mạnh mẽ với độ trễ thấp. Tận hưởng đầu ra tự nhiên, câu lệnh có thể điều hướng và thẻ âm thanh biểu cảm mới để kiểm soát chính xác lời tường thuật.
-
lyria-3-clip-previewMô hình tạo nhạc có độ trễ thấp, được tối ưu hoá cho các đoạn âm thanh có độ trung thực cao và khả năng kiểm soát nhịp điệu chính xác.
-
lyria-3-pro-previewMô hình tạo sinh tiên tiến, tạo toàn bộ bài hát của chúng tôi có khả năng hiểu biết sâu sắc về bố cục, được tối ưu hoá để kiểm soát cấu trúc chính xác và chuyển đổi phức tạp giữa nhiều phong cách âm nhạc.
agent AgentOption (không bắt buộc)
Tên của "Nhân viên hỗ trợ" được dùng để tạo lượt tương tác.
Các giá trị có thể có:
-
deep-research-pro-preview-12-2025Tác nhân Deep Research của Gemini
-
deep-research-preview-04-2026Tác nhân Deep Research của Gemini
-
deep-research-max-preview-04-2026Tác nhân Deep Research Max của Gemini
Bắt buộc. Chỉ có đầu ra. Giá trị nhận dạng riêng biệt cho lượt hoàn tất tương tác.
Bắt buộc. Chỉ có đầu ra. Trạng thái của lượt tương tác.
Các giá trị có thể có:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
Bắt buộc. Chỉ có đầu ra. Thời gian tạo phản hồi ở định dạng ISO 8601 (YYYY-MM-DDThh:mm:ssZ).
Bắt buộc. Chỉ có đầu ra. Thời gian cập nhật phản hồi gần đây nhất ở định dạng ISO 8601 (YYYY-MM-DDThh:mm:ssZ).
Chỉ có đầu ra. Vai trò của lượt tương tác.
Chỉ có đầu ra. Câu trả lời của mô hình.
Hướng dẫn của hệ thống cho lượt tương tác.
Danh sách các khai báo công cụ mà mô hình có thể gọi trong quá trình tương tác.
usage Usage (không bắt buộc)
Chỉ có đầu ra. Số liệu thống kê về việc sử dụng mã thông báo của yêu cầu tương tác.
Trường
Số lượng mã thông báo trong câu lệnh (ngữ cảnh).
input_tokens_by_modality ModalityTokens (không bắt buộc)
Thông tin chi tiết về mức sử dụng mã thông báo đầu vào theo phương thức.
Trường
phương thức ResponseModality (không bắt buộc)
Phương thức liên kết với số lượng mã thông báo.
Các giá trị có thể có:
-
text -
image -
audio -
video -
document
Số lượng mã thông báo cho phương thức.
Số lượng mã thông báo trong phần được lưu vào bộ nhớ đệm của câu lệnh (nội dung được lưu vào bộ nhớ đệm).
cached_tokens_by_modality ModalityTokens (không bắt buộc)
Bảng chi tiết về việc sử dụng mã thông báo được lưu vào bộ nhớ đệm theo phương thức.
Trường
phương thức ResponseModality (không bắt buộc)
Phương thức liên kết với số lượng mã thông báo.
Các giá trị có thể có:
-
text -
image -
audio -
video -
document
Số lượng mã thông báo cho phương thức.
Tổng số mã thông báo trong tất cả các câu trả lời được tạo.
output_tokens_by_modality ModalityTokens (không bắt buộc)
Thông tin chi tiết về việc sử dụng mã thông báo đầu ra theo phương thức.
Trường
phương thức ResponseModality (không bắt buộc)
Phương thức liên kết với số lượng mã thông báo.
Các giá trị có thể có:
-
text -
image -
audio -
video -
document
Số lượng mã thông báo cho phương thức.
Số lượng mã thông báo có trong(các) câu lệnh sử dụng công cụ.
tool_use_tokens_by_modality ModalityTokens (không bắt buộc)
Bảng chi tiết về việc sử dụng mã thông báo sử dụng công cụ theo phương thức.
Trường
phương thức ResponseModality (không bắt buộc)
Phương thức liên kết với số lượng mã thông báo.
Các giá trị có thể có:
-
text -
image -
audio -
video -
document
Số lượng mã thông báo cho phương thức.
Số lượng mã thông báo về suy nghĩ đối với mô hình tư duy.
Tổng số mã thông báo cho yêu cầu tương tác (lời nhắc + câu trả lời + các mã thông báo nội bộ khác).
response_modalities ResponseModality (không bắt buộc)
Các phương thức phản hồi được yêu cầu (VĂN BẢN, HÌNH ẢNH, ÂM THANH).
Các giá trị có thể có:
-
text -
image -
audio -
video -
document
Thực thi để phản hồi được tạo là một đối tượng JSON tuân thủ giản đồ JSON được chỉ định trong trường này.
Loại MIME của phản hồi. Bạn phải cung cấp thông tin này nếu đã đặt response_format.
Mã của lượt tương tác trước đó (nếu có).
Cấp dịch vụ cho lượt tương tác.
Các giá trị có thể có:
-
flex -
standard -
priority
Đầu vào cho lượt tương tác.
agent_config object (không bắt buộc)
Thông số cấu hình cho hoạt động tương tác của nhân viên hỗ trợ.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
DynamicAgentConfig
Cấu hình cho các tác nhân động.
Không có mô tả nào được cung cấp.
Luôn đặt thành "dynamic".
DeepResearchAgentConfig
Cấu hình cho tác nhân Deep Research.
Không có mô tả nào được cung cấp.
Luôn đặt thành "deep-research".
thinking_summaries ThinkingSummaries (không bắt buộc)
Có nên đưa bản tóm tắt suy nghĩ vào câu trả lời hay không.
Các giá trị có thể có:
-
auto -
none
Có nên đưa hình ảnh trực quan vào câu trả lời hay không.
Các giá trị có thể có:
-
off -
auto
Cho phép lập kế hoạch có sự tham gia của con người cho tác nhân Deep Research. Nếu được đặt thành true, tác nhân Deep Research sẽ cung cấp một kế hoạch nghiên cứu trong phản hồi của mình. Sau đó, trợ lý ảo sẽ chỉ tiếp tục nếu người dùng xác nhận kế hoạch ở lượt tiếp theo.
Ví dụ
Ví dụ:
{ "created": "2025-12-04T15:01:45Z", "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-3-flash-preview", "object": "interaction", "outputs": [ { "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-04T15:01:45Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 23, "total_thought_tokens": 49, "total_tokens": 79, "total_tool_use_tokens": 0 } }
Mô hình dữ liệu
Nội dung
Nội dung của câu trả lời.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
TextContent
Một khối nội dung văn bản.
Không có mô tả nào được cung cấp.
Luôn đặt thành "text".
Bắt buộc. Nội dung văn bản.
annotations Chú thích (không bắt buộc)
Thông tin trích dẫn cho nội dung do mô hình tạo.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
UrlCitation
Chú thích trích dẫn URL.
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_citation".
URL.
Tiêu đề của URL.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
FileCitation
Chú thích trích dẫn tệp.
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_citation".
URI của tệp.
Tên của tệp.
Nguồn được ghi công cho một phần văn bản.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
PlaceCitation
Chú giải trích dẫn địa điểm.
Không có mô tả nào được cung cấp.
Luôn đặt thành "place_citation".
Mã nhận dạng của địa điểm, ở định dạng "places/{place_id}".
Tên của địa điểm.
URI tham chiếu của địa điểm.
review_snippets ReviewSnippet (không bắt buộc)
Đoạn trích trong bài đánh giá được dùng để tạo câu trả lời về các tính năng của một địa điểm cụ thể trên Google Maps.
Trường
Tiêu đề của bài đánh giá.
Đường liên kết tương ứng với bài đánh giá của người dùng trên Google Maps.
Mã của đoạn trích thông tin đánh giá.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
ImageContent
Một khối nội dung hình ảnh.
Không có mô tả nào được cung cấp.
Luôn đặt thành "image".
Nội dung hình ảnh.
URI của hình ảnh.
Loại MIME của hình ảnh.
Các giá trị có thể có:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (không bắt buộc)
Độ phân giải của nội dung nghe nhìn.
Các giá trị có thể có:
-
low -
medium -
high -
ultra_high
AudioContent
Một khối nội dung âm thanh.
Không có mô tả nào được cung cấp.
Luôn đặt thành "audio".
Nội dung âm thanh.
URI của âm thanh.
Loại MIME của âm thanh.
Các giá trị có thể có:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
Tốc độ lấy mẫu của âm thanh.
Số lượng kênh âm thanh.
DocumentContent
Một khối nội dung tài liệu.
Không có mô tả nào được cung cấp.
Luôn đặt thành "document".
Nội dung tài liệu.
URI của tài liệu.
Loại MIME của tài liệu.
Các giá trị có thể có:
-
application/pdf
VideoContent
Một khối nội dung video.
Không có mô tả nào được cung cấp.
Luôn đặt thành "video".
Nội dung video.
URI của video.
Loại MIME của video.
Các giá trị có thể có:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
resolution MediaResolution (không bắt buộc)
Độ phân giải của nội dung nghe nhìn.
Các giá trị có thể có:
-
low -
medium -
high -
ultra_high
ThoughtContent
Một khối nội dung về suy nghĩ.
Không có mô tả nào được cung cấp.
Luôn đặt thành "thought".
Chữ ký khớp với nguồn phụ trợ sẽ là một phần của quá trình tạo.
summary ThoughtSummaryContent (không bắt buộc)
Tóm tắt suy nghĩ.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
TextContent
Một khối nội dung văn bản.
Không có mô tả nào được cung cấp.
Luôn đặt thành "text".
Bắt buộc. Nội dung văn bản.
annotations Chú thích (không bắt buộc)
Thông tin trích dẫn cho nội dung do mô hình tạo.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
UrlCitation
Chú thích trích dẫn URL.
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_citation".
URL.
Tiêu đề của URL.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
FileCitation
Chú thích trích dẫn tệp.
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_citation".
URI của tệp.
Tên của tệp.
Nguồn được ghi công cho một phần văn bản.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
PlaceCitation
Chú giải trích dẫn địa điểm.
Không có mô tả nào được cung cấp.
Luôn đặt thành "place_citation".
Mã nhận dạng của địa điểm, ở định dạng "places/{place_id}".
Tên của địa điểm.
URI tham chiếu của địa điểm.
review_snippets ReviewSnippet (không bắt buộc)
Đoạn trích trong bài đánh giá được dùng để tạo câu trả lời về các tính năng của một địa điểm cụ thể trên Google Maps.
Trường
Tiêu đề của bài đánh giá.
Đường liên kết tương ứng với bài đánh giá của người dùng trên Google Maps.
Mã của đoạn trích thông tin đánh giá.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
ImageContent
Một khối nội dung hình ảnh.
Không có mô tả nào được cung cấp.
Luôn đặt thành "image".
Nội dung hình ảnh.
URI của hình ảnh.
Loại MIME của hình ảnh.
Các giá trị có thể có:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (không bắt buộc)
Độ phân giải của nội dung nghe nhìn.
Các giá trị có thể có:
-
low -
medium -
high -
ultra_high
FunctionCallContent
Một khối nội dung lệnh gọi công cụ hàm.
Không có mô tả nào được cung cấp.
Luôn đặt thành "function_call".
Bắt buộc. Tên của công cụ cần gọi.
Bắt buộc. Các đối số cần truyền vào hàm.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
CodeExecutionCallContent
Nội dung thực thi mã.
Không có mô tả nào được cung cấp.
Luôn đặt thành "code_execution_call".
arguments CodeExecutionCallArguments (bắt buộc)
Bắt buộc. Các đối số cần truyền đến quá trình thực thi mã.
Trường
Ngôn ngữ lập trình của "code".
Các giá trị có thể có:
-
python
Mã cần thực thi.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
UrlContextCallContent
Nội dung theo bối cảnh của URL.
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_context_call".
arguments UrlContextCallArguments (bắt buộc)
Bắt buộc. Các đối số cần chuyển đến ngữ cảnh URL.
Trường
Các URL cần tìm nạp.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
McpServerToolCallContent
Nội dung lệnh gọi công cụ MCPServer.
Không có mô tả nào được cung cấp.
Luôn đặt thành "mcp_server_tool_call".
Bắt buộc. Tên của công cụ đã được gọi.
Bắt buộc. Tên của máy chủ MCP được dùng.
Bắt buộc. Đối tượng JSON của các đối số cho hàm.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
GoogleSearchCallContent
Nội dung trên Google Tìm kiếm.
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_search_call".
arguments GoogleSearchCallArguments (bắt buộc)
Bắt buộc. Các đối số cần chuyển đến Google Tìm kiếm.
Trường
Cụm từ tìm kiếm trên web để tìm kiếm trên web sau đó.
Loại thông tin liên kết thực tế được bật cho hoạt động tìm kiếm.
Các giá trị có thể có:
-
web_search -
image_search -
enterprise_web_search
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
FileSearchCallContent
Nội dung tìm kiếm tệp.
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_search_call".
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
GoogleMapsCallContent
Nội dung trên Google Maps.
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_maps_call".
arguments GoogleMapsCallArguments (không bắt buộc)
Các đối số cần truyền đến công cụ Google Maps.
Trường
Các truy vấn sẽ được thực thi.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
FunctionResultContent
Một khối nội dung kết quả của công cụ hàm.
Không có mô tả nào được cung cấp.
Luôn đặt thành "function_result".
Tên của công cụ đã được gọi.
Liệu lệnh gọi công cụ có dẫn đến lỗi hay không.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
Kết quả của lệnh gọi công cụ.
CodeExecutionResultContent
Nội dung kết quả thực thi mã.
Không có mô tả nào được cung cấp.
Luôn đặt thành "code_execution_result".
Bắt buộc. Kết quả của quá trình thực thi mã.
Liệu quá trình thực thi mã có dẫn đến lỗi hay không.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
UrlContextResultContent
Nội dung kết quả theo bối cảnh URL.
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_context_result".
result UrlContextResult (bắt buộc)
Bắt buộc. Kết quả của bối cảnh URL.
Trường
URL đã được tìm nạp.
Trạng thái truy xuất URL.
Các giá trị có thể có:
-
success -
error -
paywall -
unsafe
Liệu bối cảnh URL có gây ra lỗi hay không.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
GoogleSearchResultContent
Nội dung trong kết quả tìm kiếm trên Google.
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_search_result".
result GoogleSearchResult (bắt buộc)
Bắt buộc. Kết quả của Google Tìm kiếm.
Trường
Đoạn nội dung web có thể được nhúng vào một trang web hoặc webview của ứng dụng.
Liệu Google Tìm kiếm có xảy ra lỗi hay không.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
McpServerToolResultContent
Nội dung kết quả của công cụ MCPServer.
Không có mô tả nào được cung cấp.
Luôn đặt thành "mcp_server_tool_result".
Tên của công cụ được gọi cho lệnh gọi công cụ cụ thể này.
Tên của máy chủ MCP được dùng.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
Đầu ra từ lệnh gọi máy chủ MCP. Có thể là văn bản đơn giản hoặc nội dung đa dạng thức.
FileSearchResultContent
Nội dung kết quả tìm kiếm tệp.
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_search_result".
result FileSearchResult (bắt buộc)
Bắt buộc. Kết quả của tính năng Tìm kiếm tệp.
Trường
Siêu dữ liệu do người dùng cung cấp về FileSearchResult.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
GoogleMapsResultContent
Nội dung kết quả trên Google Maps.
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_maps_result".
result GoogleMapsResult (bắt buộc)
Bắt buộc. Kết quả của Google Maps.
Trường
địa điểm Địa điểm (không bắt buộc)
Những địa điểm được tìm thấy.
Trường
Mã nhận dạng của địa điểm, ở định dạng "places/{place_id}".
Tên của địa điểm.
URI tham chiếu của địa điểm.
review_snippets ReviewSnippet (không bắt buộc)
Đoạn trích trong bài đánh giá được dùng để tạo câu trả lời về các tính năng của một địa điểm cụ thể trên Google Maps.
Trường
Tiêu đề của bài đánh giá.
Đường liên kết tương ứng với bài đánh giá của người dùng trên Google Maps.
Mã của đoạn trích thông tin đánh giá.
Tên tài nguyên của mã thông báo bối cảnh tiện ích Google Maps.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
Ví dụ
Văn bản
{ "type": "text", "text": "Hello, how are you?" }
Hình ảnh
{ "type": "image", "data": "BASE64_ENCODED_IMAGE", "mime_type": "image/png" }
Âm thanh
{ "type": "audio", "data": "BASE64_ENCODED_AUDIO", "mime_type": "audio/wav" }
Tài liệu
{ "type": "document", "data": "BASE64_ENCODED_DOCUMENT", "mime_type": "application/pdf" }
Video
{ "type": "video", "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg" }
Suy nghĩ
{ "type": "thought", "summary": [ { "type": "text", "text": "The user is asking about the weather. I should use the get_weather tool." } ], "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh" }
Lệnh gọi hàm
{ "type": "function_call", "name": "get_weather", "id": "gth23981", "arguments": { "location": "Boston, MA" } }
Lệnh gọi thực thi mã
{ "type": "code_execution_call", "id": "call_123456", "arguments": { "language": "python", "code": "print('hello world')" } }
Url Context Call
{ "type": "url_context_call", "id": "call_123456", "arguments": { "urls": [ "https://www.example.com" ] } }
Lệnh gọi công cụ máy chủ Mcp
{ "type": "mcp_server_tool_call", "id": "call_123456", "name": "get_forecast", "server_name": "weather_server", "arguments": { "city": "London" } }
Cuộc gọi qua Google Tìm kiếm
{ "type": "google_search_call", "id": "call_123456", "arguments": { "queries": [ "weather in Boston" ] } }
Cuộc gọi tìm kiếm tệp
{ "type": "file_search_call", "id": "call_123456" }
Cuộc gọi qua Google Maps
{ "type": "google_maps_call", "id": "call_123456", "arguments": { "query": "best food near me" } }
Kết quả của hàm
{ "type": "function_result", "name": "get_weather", "call_id": "gth23981", "result": [ { "type": "text", "text": "{\"weather\":\"sunny\"}" } ] }
Kết quả thực thi mã
{ "type": "code_execution_result", "call_id": "call_123456", "result": "hello world" }
Kết quả theo bối cảnh URL
{ "type": "url_context_result", "call_id": "call_123456", "result": [ { "url": "https://www.example.com", "status": "SUCCESS" } ] }
Kết quả tìm kiếm trên Google
{ "type": "google_search_result", "call_id": "call_123456", "result": [ { "url": "https://www.google.com/search?q=weather+in+Boston", "title": "Weather in Boston" } ] }
Kết quả công cụ máy chủ Mcp
{ "type": "mcp_server_tool_result", "name": "get_forecast", "server_name": "weather_server", "call_id": "call_123456", "result": "sunny" }
Kết quả tìm kiếm tệp
{ "type": "file_search_result", "call_id": "call_123456", "result": [ { "text": "search result chunk", "file_search_store": "file_search_store" } ] }
Kết quả trên Google Maps
{ "type": "google_maps_result", "call_id": "call_123456", "result": [ { "places": [ { "url": "https://www.google.com/maps/search/best+food+near+me", "name": "Tasty Restaurant" } ] } ] }
Công cụ
Một công cụ mà mô hình có thể sử dụng.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
Hàm
Một công cụ mà mô hình có thể sử dụng.
Không có mô tả nào được cung cấp.
Luôn đặt thành "function".
Tên của hàm.
Nội dung mô tả về hàm.
Giản đồ JSON cho các tham số của hàm.
CodeExecution
Một công cụ mà mô hình có thể dùng để thực thi mã.
Không có mô tả nào được cung cấp.
Luôn đặt thành "code_execution".
UrlContext
Một công cụ mà mô hình có thể dùng để tìm nạp ngữ cảnh URL.
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_context".
ComputerUse
Một công cụ mà mô hình có thể dùng để tương tác với máy tính.
Không có mô tả nào được cung cấp.
Luôn đặt thành "computer_use".
Môi trường đang hoạt động.
Các giá trị có thể có:
-
browser
Danh sách các hàm được xác định trước bị loại trừ khỏi lệnh gọi mô hình.
McpServer
MCPServer là một máy chủ mà mô hình có thể gọi để thực hiện các hành động.
Không có mô tả nào được cung cấp.
Luôn đặt thành "mcp_server".
Tên của MCPServer.
URL đầy đủ cho điểm cuối MCPServer. Ví dụ: "https://api.example.com/mcp"
Không bắt buộc: Các trường cho tiêu đề xác thực, thời gian chờ, v.v. (nếu cần).
allowed_tools AllowedTools (không bắt buộc)
Các công cụ được phép.
Trường
mode ToolChoiceType (không bắt buộc)
Chế độ lựa chọn công cụ.
Các giá trị có thể có:
-
auto -
any -
none -
validated
Tên của các công cụ được phép.
GoogleSearch
Một công cụ mà mô hình có thể dùng để tìm kiếm trên Google.
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_search".
Các loại liên kết thực tế để tìm kiếm cần bật.
Các giá trị có thể có:
-
web_search -
image_search -
enterprise_web_search
FileSearch
Một công cụ mà mô hình có thể dùng để tìm kiếm tệp.
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_search".
Tên cửa hàng tìm kiếm tệp để tìm kiếm.
Số lượng đoạn truy xuất ngữ nghĩa cần truy xuất.
Bộ lọc siêu dữ liệu để áp dụng cho các tài liệu và khối truy xuất ngữ nghĩa.
GoogleMaps
Một công cụ mà mô hình có thể dùng để gọi Google Maps.
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_maps".
Có trả về mã thông báo ngữ cảnh tiện ích trong kết quả lệnh gọi công cụ của phản hồi hay không.
Vĩ độ của vị trí người dùng.
Kinh độ của vị trí người dùng.
Truy xuất
Một công cụ mà mô hình có thể dùng để truy xuất tệp.
Không có mô tả nào được cung cấp.
Luôn đặt thành "retrieval".
Các loại truy xuất tệp cần bật.
Các giá trị có thể có:
-
vertex_ai_search
vertex_ai_search_config VertexAISearchConfig (không bắt buộc)
Dùng để chỉ định cấu hình cho VertexAISearch.
Trường
Không bắt buộc. Dùng để chỉ định Vertex AI Search.
Không bắt buộc. Dùng để chỉ định các kho dữ liệu của Vertex AI Search.
Ví dụ
Chức năng
CodeExecution
UrlContext
ComputerUse
McpServer
GoogleSearch
FileSearch
GoogleMaps
Truy xuất
Không có ví dụ nào cho loại này.
Bật/Tắt
Trường
Người khởi tạo lượt này. Phải là người dùng cho dữ liệu đầu vào hoặc mô hình cho đầu ra của mô hình.
Không có mô tả nào được cung cấp.
Ví dụ
Lượt người dùng
{ "role": "user", "content": [ { "type": "text", "text": "user turn" } ] }
Lượt của mô hình
{ "role": "model", "content": [ { "type": "text", "text": "model turn" } ] }
InteractionSseEvent
Các loại có thể có
Thuộc tính phân biệt đa hình: event_type
InteractionStartEvent
Không có mô tả nào được cung cấp.
Luôn đặt thành "interaction.start".
Không có mô tả nào được cung cấp.
Mã thông báo event_id sẽ được dùng để tiếp tục luồng tương tác, bắt đầu từ sự kiện này.
InteractionCompleteEvent
Không có mô tả nào được cung cấp.
Luôn đặt thành "interaction.complete".
Bắt buộc. Tương tác đã hoàn tất mà không có thông tin xuất ra để giảm kích thước tải trọng. Sử dụng các sự kiện ContentDelta trước đó cho đầu ra thực tế.
Mã thông báo event_id sẽ được dùng để tiếp tục luồng tương tác, bắt đầu từ sự kiện này.
InteractionStatusUpdate
Không có mô tả nào được cung cấp.
Luôn đặt thành "interaction.status_update".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Các giá trị có thể có:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
Mã thông báo event_id sẽ được dùng để tiếp tục luồng tương tác, bắt đầu từ sự kiện này.
ContentStart
Không có mô tả nào được cung cấp.
Luôn đặt thành "content.start".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Mã thông báo event_id sẽ được dùng để tiếp tục luồng tương tác, bắt đầu từ sự kiện này.
ContentDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "content.delta".
Không có mô tả nào được cung cấp.
delta ContentDeltaData (bắt buộc)
Không có mô tả nào được cung cấp.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
TextDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "text".
Không có mô tả nào được cung cấp.
ImageDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "image".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Các giá trị có thể có:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (không bắt buộc)
Độ phân giải của nội dung nghe nhìn.
Các giá trị có thể có:
-
low -
medium -
high -
ultra_high
AudioDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "audio".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Các giá trị có thể có:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
Tốc độ lấy mẫu của âm thanh.
Số lượng kênh âm thanh.
DocumentDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "document".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Các giá trị có thể có:
-
application/pdf
VideoDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "video".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Các giá trị có thể có:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
resolution MediaResolution (không bắt buộc)
Độ phân giải của nội dung nghe nhìn.
Các giá trị có thể có:
-
low -
medium -
high -
ultra_high
ThoughtSummaryDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "thought_summary".
content ThoughtSummaryContent (không bắt buộc)
Một mục tóm tắt mới sẽ được thêm vào suy nghĩ.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
TextContent
Một khối nội dung văn bản.
Không có mô tả nào được cung cấp.
Luôn đặt thành "text".
Bắt buộc. Nội dung văn bản.
annotations Chú thích (không bắt buộc)
Thông tin trích dẫn cho nội dung do mô hình tạo.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
UrlCitation
Chú thích trích dẫn URL.
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_citation".
URL.
Tiêu đề của URL.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
FileCitation
Chú thích trích dẫn tệp.
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_citation".
URI của tệp.
Tên của tệp.
Nguồn được ghi công cho một phần văn bản.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
PlaceCitation
Chú giải trích dẫn địa điểm.
Không có mô tả nào được cung cấp.
Luôn đặt thành "place_citation".
Mã nhận dạng của địa điểm, ở định dạng "places/{place_id}".
Tên của địa điểm.
URI tham chiếu của địa điểm.
review_snippets ReviewSnippet (không bắt buộc)
Đoạn trích trong bài đánh giá được dùng để tạo câu trả lời về các tính năng của một địa điểm cụ thể trên Google Maps.
Trường
Tiêu đề của bài đánh giá.
Đường liên kết tương ứng với bài đánh giá của người dùng trên Google Maps.
Mã của đoạn trích thông tin đánh giá.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
ImageContent
Một khối nội dung hình ảnh.
Không có mô tả nào được cung cấp.
Luôn đặt thành "image".
Nội dung hình ảnh.
URI của hình ảnh.
Loại MIME của hình ảnh.
Các giá trị có thể có:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (không bắt buộc)
Độ phân giải của nội dung nghe nhìn.
Các giá trị có thể có:
-
low -
medium -
high -
ultra_high
ThoughtSignatureDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "thought_signature".
Chữ ký khớp với nguồn phụ trợ sẽ là một phần của quá trình tạo.
FunctionCallDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "function_call".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
CodeExecutionCallDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "code_execution_call".
arguments CodeExecutionCallArguments (bắt buộc)
Không có mô tả nào được cung cấp.
Trường
Ngôn ngữ lập trình của "code".
Các giá trị có thể có:
-
python
Mã cần thực thi.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
UrlContextCallDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_context_call".
arguments UrlContextCallArguments (bắt buộc)
Không có mô tả nào được cung cấp.
Trường
Các URL cần tìm nạp.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
GoogleSearchCallDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_search_call".
arguments GoogleSearchCallArguments (bắt buộc)
Không có mô tả nào được cung cấp.
Trường
Cụm từ tìm kiếm trên web để tìm kiếm trên web sau đó.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
McpServerToolCallDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "mcp_server_tool_call".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
FileSearchCallDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_search_call".
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
GoogleMapsCallDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_maps_call".
arguments GoogleMapsCallArguments (không bắt buộc)
Các đối số cần truyền đến công cụ Google Maps.
Trường
Các truy vấn sẽ được thực thi.
Bắt buộc. Mã nhận dạng duy nhất cho lệnh gọi công cụ cụ thể này.
Một hàm băm chữ ký để xác thực phụ trợ.
FunctionResultDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "function_result".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
Không có mô tả nào được cung cấp.
CodeExecutionResultDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "code_execution_result".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
UrlContextResultDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_context_result".
result UrlContextResult (bắt buộc)
Không có mô tả nào được cung cấp.
Trường
URL đã được tìm nạp.
Trạng thái truy xuất URL.
Các giá trị có thể có:
-
success -
error -
paywall -
unsafe
Không có mô tả nào được cung cấp.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
GoogleSearchResultDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_search_result".
result GoogleSearchResult (bắt buộc)
Không có mô tả nào được cung cấp.
Trường
Đoạn nội dung web có thể được nhúng vào một trang web hoặc webview của ứng dụng.
Không có mô tả nào được cung cấp.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
McpServerToolResultDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "mcp_server_tool_result".
Không có mô tả nào được cung cấp.
Không có mô tả nào được cung cấp.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
Không có mô tả nào được cung cấp.
FileSearchResultDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_search_result".
result FileSearchResult (bắt buộc)
Không có mô tả nào được cung cấp.
Trường
Siêu dữ liệu do người dùng cung cấp về FileSearchResult.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
GoogleMapsResultDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "google_maps_result".
result GoogleMapsResult (không bắt buộc)
Kết quả của Google Maps.
Trường
địa điểm Địa điểm (không bắt buộc)
Những địa điểm được tìm thấy.
Trường
Mã nhận dạng của địa điểm, ở định dạng "places/{place_id}".
Tên của địa điểm.
URI tham chiếu của địa điểm.
review_snippets ReviewSnippet (không bắt buộc)
Đoạn trích trong bài đánh giá được dùng để tạo câu trả lời về các tính năng của một địa điểm cụ thể trên Google Maps.
Trường
Tiêu đề của bài đánh giá.
Đường liên kết tương ứng với bài đánh giá của người dùng trên Google Maps.
Mã của đoạn trích thông tin đánh giá.
Tên tài nguyên của mã thông báo bối cảnh tiện ích Google Maps.
Bắt buộc. Mã nhận dạng khớp với mã nhận dạng trong khối lệnh gọi hàm.
Một hàm băm chữ ký để xác thực phụ trợ.
TextAnnotationDelta
Không có mô tả nào được cung cấp.
Luôn đặt thành "text_annotation".
annotations Chú thích (không bắt buộc)
Thông tin trích dẫn cho nội dung do mô hình tạo.
Các loại có thể có
Thuộc tính phân biệt đa hình: type
UrlCitation
Chú thích trích dẫn URL.
Không có mô tả nào được cung cấp.
Luôn đặt thành "url_citation".
URL.
Tiêu đề của URL.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
FileCitation
Chú thích trích dẫn tệp.
Không có mô tả nào được cung cấp.
Luôn đặt thành "file_citation".
URI của tệp.
Tên của tệp.
Nguồn được ghi công cho một phần văn bản.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
PlaceCitation
Chú giải trích dẫn địa điểm.
Không có mô tả nào được cung cấp.
Luôn đặt thành "place_citation".
Mã nhận dạng của địa điểm, ở định dạng "places/{place_id}".
Tên của địa điểm.
URI tham chiếu của địa điểm.
review_snippets ReviewSnippet (không bắt buộc)
Đoạn trích trong bài đánh giá được dùng để tạo câu trả lời về các tính năng của một địa điểm cụ thể trên Google Maps.
Trường
Tiêu đề của bài đánh giá.
Đường liên kết tương ứng với bài đánh giá của người dùng trên Google Maps.
Mã của đoạn trích thông tin đánh giá.
Điểm bắt đầu của đoạn phản hồi được phân bổ cho nguồn này. Chỉ mục cho biết điểm bắt đầu của phân đoạn, được đo bằng byte.
Kết thúc phân đoạn được phân bổ, không bao gồm.
Mã thông báo event_id sẽ được dùng để tiếp tục luồng tương tác, bắt đầu từ sự kiện này.
ContentStop
Không có mô tả nào được cung cấp.
Luôn đặt thành "content.stop".
Không có mô tả nào được cung cấp.
Mã thông báo event_id sẽ được dùng để tiếp tục luồng tương tác, bắt đầu từ sự kiện này.
ErrorEvent
Không có mô tả nào được cung cấp.
Luôn đặt thành "error".
error Error (không bắt buộc)
Không có mô tả nào được cung cấp.
Trường
Một URI xác định loại lỗi.
Thông báo lỗi mà con người có thể đọc được.
Mã thông báo event_id sẽ được dùng để tiếp tục luồng tương tác, bắt đầu từ sự kiện này.
Ví dụ
Bắt đầu tương tác
{ "event_type": "interaction.start", "interaction": { "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-3-flash-preview", "object": "interaction", "status": "in_progress" } }
Đã hoàn tất tương tác
{ "event_type": "interaction.complete", "interaction": { "created": "2025-12-09T18:45:40Z", "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-3-flash-preview", "object": "interaction", "role": "model", "status": "completed", "updated": "2025-12-09T18:45:40Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 11 } ], "total_cached_tokens": 0, "total_input_tokens": 11, "total_output_tokens": 364, "total_thought_tokens": 1120, "total_tokens": 1495, "total_tool_use_tokens": 0 } } }
Thông tin cập nhật về trạng thái tương tác
{ "event_type": "interaction.status_update", "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "status": "in_progress" }
Bắt đầu nội dung
{ "event_type": "content.start", "content": { "type": "text" }, "index": 1 }
Chênh lệch nội dung
{ "event_type": "content.delta", "delta": { "type": "text", "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save" }, "index": 1 }
Dừng nội dung
{ "event_type": "content.stop", "index": 1 }
Sự kiện lỗi
{ "event_type": "error", "error": { "message": "Failed to get completed interaction: Result not found.", "code": "not_found" } }