Gemini Interactions API to eksperymentalny interfejs API, który umożliwia programistom tworzenie aplikacji generatywnej AI z użyciem modeli Gemini. Gemini to nasz najbardziej zaawansowany model, który od podstaw został zaprojektowany jako multimodalny. Potrafi uogólniać i z łatwością rozumieć, przetwarzać i łączyć różne typy informacji, w tym język, obrazy, dźwięki, filmy i kod. Interfejsu Gemini API możesz używać w przypadku takich zastosowań jak wnioskowanie na podstawie tekstu i obrazów, generowanie treści, agenty dialogowe, systemy podsumowywania i klasyfikacji oraz wiele innych.
Tworzenie interakcji
Tworzy nową interakcję.
Treść żądania
Treść żądania zawiera dane o następującej strukturze:
model ModelOption (opcjonalnie)
Nazwa modelu użytego do wygenerowania interakcji.
Wymagane, jeśli nie podano parametru „agent”.
Możliwe wartości:
-
gemini-2.5-computer-use-preview-10-2025Model funkcji agentowych zaprojektowany do bezpośredniej interakcji z interfejsem, który umożliwia Gemini postrzeganie środowisk cyfrowych i poruszanie się po nich.
-
gemini-2.5-flashNasz pierwszy model rozumowania hybrydowego, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.
-
gemini-2.5-flash-imageNasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Cena za wprowadzanie i wyświetlanie tekstu jest taka sama jak w przypadku 2,5 Flasha.
-
gemini-2.5-flash-liteNasz najmniejszy i najbardziej ekonomiczny model, stworzony do użytku na dużą skalę.
-
gemini-2.5-flash-lite-preview-09-2025Najnowszy model oparty na Gemini 2.5 Flash lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i wysokiej jakości.
-
gemini-2.5-flash-native-audio-preview-12-2025Nasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.
-
gemini-2.5-flash-preview-09-2025Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku agentowych przypadków użycia.
-
gemini-2.5-flash-preview-ttsNasz model zamiany tekstu na mowę 2.5 Flash zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania.
-
gemini-2.5-proNasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.
-
gemini-2.5-pro-preview-ttsNasz model audio 2.5 Pro do zamiany tekstu na mowę zoptymalizowany pod kątem wydajnego generowania mowy o niskim opóźnieniu, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.
-
gemini-3-flash-previewNasz najbardziej inteligentny model stworzony z myślą o szybkości działania, który łączy pionierską inteligencję z doskonałym wyszukiwaniem i uzasadnianiem.
-
gemini-3-pro-image-previewNajnowocześniejszy model do generowania i edytowania obrazów.
-
gemini-3-pro-previewNasz najinteligentniejszy model z najnowocześniejszym rozumowaniem i rozpoznawaniem multimodalnym oraz zaawansowanymi funkcjami agentowymi i vibe codingu.
-
gemini-3.1-pro-previewNasz najnowszy model rozumowania SOTA o niespotykanej głębi i niuansach oraz zaawansowanych funkcjach rozpoznawania multimodalnego i kodowania.
-
gemini-3.1-flash-image-previewProfesjonalna inteligencja wizualna z błyskawiczną wydajnością i możliwością generowania realistycznych treści.
-
gemini-3.1-flash-lite-previewNasz najbardziej opłacalny model zoptymalizowany pod kątem zadań agentowych o dużej liczbie żądań, tłumaczenia i prostego przetwarzania danych.
-
gemini-3.1-flash-tts-previewGemini 3.1 Flash TTS: wydajne generowanie mowy z krótkim czasem oczekiwania. Korzystaj z naturalnych wyników, sterowanych promptów i nowych tagów audio, które pozwalają precyzyjnie kontrolować narrację.
-
lyria-3-clip-previewNasz model generowania muzyki z niskim czasem oczekiwania, zoptymalizowany pod kątem klipów audio o wysokiej jakości i precyzyjnej kontroli rytmu.
-
lyria-3-pro-previewNasz zaawansowany model generatywny pełnych utworów z dogłębnym zrozumieniem kompozycji, zoptymalizowany pod kątem precyzyjnej kontroli strukturalnej i złożonych przejść w różnych stylach muzycznych.
agent AgentOption (opcjonalnie)
Nazwa agenta użytego do wygenerowania interakcji.
Wymagany, jeśli nie podano wartości „model”.
Możliwe wartości:
-
deep-research-pro-preview-12-2025Agent Deep Research w Gemini
-
deep-research-preview-04-2026Agent Deep Research w Gemini
-
deep-research-max-preview-04-2026Agent Gemini Deep Research Max
Dane wejściowe interakcji (wspólne dla modelu i agenta).
Instrukcja systemowa dotycząca interakcji.
Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.
Wymusza, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.
Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.
Tylko dane wejściowe. Czy interakcja będzie transmitowana strumieniowo.
Tylko dane wejściowe. Określa, czy odpowiedź i żądanie mają być przechowywane do późniejszego pobrania.
Tylko dane wejściowe. Określa, czy interakcja z modelem ma być przeprowadzana w tle.
generation_config GenerationConfig (opcjonalnie)
Konfiguracja modelu
Parametry konfiguracji interakcji z modelem.
Alternatywa dla parametru `agent_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest parametr `model`.
Pola
Określa losowość danych wyjściowych.
Maksymalne skumulowane prawdopodobieństwo tokenów do uwzględnienia podczas próbkowania.
Wartość początkowa używana podczas dekodowania w celu zapewnienia powtarzalności.
Lista ciągów znaków, które zatrzymają interakcję z danymi wyjściowymi.
thinking_level ThinkingLevel (opcjonalnie)
Poziom tokenów myśli, które model powinien wygenerować.
Możliwe wartości:
-
minimal -
low -
medium -
high
thinking_summaries ThinkingSummaries (opcjonalnie)
Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.
Możliwe wartości:
-
auto -
none
Maksymalna liczba tokenów, które mają być uwzględnione w odpowiedzi.
speech_config SpeechConfig (optional)
Konfiguracja interakcji głosowej.
Pola
Głos rozmówcy.
Język mowy.
Imię i nazwisko osoby mówiącej, które powinno być zgodne z imieniem i nazwiskiem podanym w promcie.
image_config ImageConfig (opcjonalnie)
Konfiguracja interakcji z obrazem.
Pola
Brak opisu
Możliwe wartości:
-
1:1 -
2:3 -
3:2 -
3:4 -
4:3 -
4:5 -
5:4 -
9:16 -
16:9 -
21:9 -
1:8 -
8:1 -
1:4 -
4:1
Brak opisu
Możliwe wartości:
-
1K -
2K -
4K -
512
Konfiguracja wyboru narzędzia.
agent_config object (opcjonalnie)
Konfiguracja agenta
Konfiguracja agenta.
Alternatywa dla atrybutu `generation_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest atrybut `agent`.
Możliwe typy
Dyskryminator polimorficzny: type
DynamicAgentConfig
Konfiguracja agentów dynamicznych.
Brak opisu
Zawsze ustawiona na "dynamic".
DeepResearchAgentConfig
Konfiguracja agenta Deep Research.
Brak opisu
Zawsze ustawiona na "deep-research".
thinking_summaries ThinkingSummaries (opcjonalnie)
Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.
Możliwe wartości:
-
auto -
none
Określa, czy w odpowiedzi mają być uwzględnione wizualizacje.
Możliwe wartości:
-
off -
auto
Umożliwia planowanie z udziałem człowieka dla agenta Deep Research. Jeśli wartość to „true”, agent Deep Research w odpowiedzi przedstawi plan badań. Agent będzie kontynuować tylko wtedy, gdy użytkownik potwierdzi plan w kolejnej turze.
Identyfikator poprzedniej interakcji (jeśli wystąpiła).
response_modalities ResponseModality (opcjonalnie)
Żądane rodzaje odpowiedzi (TEXT, IMAGE, AUDIO).
Możliwe wartości:
-
text -
image -
audio -
video -
document
service_tier ServiceTier (opcjonalny)
Poziom usług interakcji.
Możliwe wartości:
-
flex -
standard -
priority
webhook_config WebhookConfig (opcjonalnie)
Opcjonalnie. Konfiguracja webhooka do otrzymywania powiadomień o zakończeniu interakcji.
Pola
Opcjonalnie. Jeśli ta opcja jest ustawiona, te identyfikatory URI webhooka będą używane w przypadku zdarzeń webhooka zamiast zarejestrowanych webhooków.
Opcjonalnie. Metadane użytkownika, które będą zwracane przy każdej emisji zdarzenia do webhooków.
Odpowiedź
Zwraca zasób Interaction.
Proste żądanie
Przykładowa odpowiedź
{ "created": "2025-11-26T12:25:15Z", "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "object": "interaction", "steps": [ { "type": "model_output", "content": [ { "type": "text", "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?" } ] } ], "status": "completed", "updated": "2025-11-26T12:25:15Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 20, "total_thought_tokens": 22, "total_tokens": 49, "total_tool_use_tokens": 0 } }
Wieloetapowe
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "steps": [ { "type": "model_output", "content": [ { "type": "text", "text": "The capital of France is Paris." } ] } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 50 } ], "total_cached_tokens": 0, "total_input_tokens": 50, "total_output_tokens": 10, "total_thought_tokens": 0, "total_tokens": 60, "total_tool_use_tokens": 0 } }
Wprowadzanie obrazu
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "steps": [ { "type": "model_output", "content": [ { "type": "text", "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard." } ] } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 10 }, { "modality": "image", "tokens": 258 } ], "total_cached_tokens": 0, "total_input_tokens": 268, "total_output_tokens": 20, "total_thought_tokens": 0, "total_tokens": 288, "total_tool_use_tokens": 0 } }
Wywoływanie funkcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "requires_action", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "steps": [ { "type": "function_call", "id": "gth23981", "name": "get_weather", "arguments": { "location": "Boston, MA" } } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 100 } ], "total_cached_tokens": 0, "total_input_tokens": 100, "total_output_tokens": 25, "total_thought_tokens": 0, "total_tokens": 125, "total_tool_use_tokens": 50 } }
Deep Research
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "steps": [ { "type": "model_output", "content": [ { "type": "text", "text": "Here is a comprehensive research report on the current state of cancer research..." } ] } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 20 } ], "total_cached_tokens": 0, "total_input_tokens": 20, "total_output_tokens": 1000, "total_thought_tokens": 500, "total_tokens": 1520, "total_tool_use_tokens": 0 } }
Pobieranie interakcji
Pobiera pełne szczegóły pojedynczej interakcji na podstawie jej identyfikatora `Interaction.id`.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do pobrania.
Jeśli ma wartość Prawda, wygenerowana treść będzie przesyłana strumieniowo przyrostowo.
Domyślna wartość: False
Opcjonalnie. Jeśli jest ustawiony, wznawia strumień interakcji od następnego fragmentu po zdarzeniu oznaczonym identyfikatorem zdarzenia. Można jej używać tylko wtedy, gdy wartość parametru „stream” to „true”.
Jeśli ma wartość „true”, w odpowiedzi uwzględniane są dane wejściowe.
Domyślna wartość: False
której wersji interfejsu API używać;
Odpowiedź
Zwraca zasób Interaction.
Pobieranie interakcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "steps": [ { "type": "model_output", "content": [ { "type": "text", "text": "I'm doing great, thank you for asking! How can I help you today?" } ] } ] }
Usuwanie interakcji
Usuwa interakcję według identyfikatora.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do usunięcia.
której wersji interfejsu API używać;
Odpowiedź
Jeśli operacja się uda, odpowiedź będzie pusta.
Usuwanie interakcji
Anulowanie interakcji
Anuluje interakcję według identyfikatora. Dotyczy to tylko interakcji w tle, które są nadal aktywne.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do anulowania.
której wersji interfejsu API używać;
Odpowiedź
Zwraca zasób Interaction.
Anulowanie interakcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "cancelled", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z" }
Zasoby
Interakcja
Zasób Interaction.
Pola
model ModelOption (opcjonalnie)
Nazwa modelu użytego do wygenerowania interakcji.
Możliwe wartości:
-
gemini-2.5-computer-use-preview-10-2025Model funkcji agentowych zaprojektowany do bezpośredniej interakcji z interfejsem, który umożliwia Gemini postrzeganie środowisk cyfrowych i poruszanie się po nich.
-
gemini-2.5-flashNasz pierwszy model rozumowania hybrydowego, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.
-
gemini-2.5-flash-imageNasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Cena za wprowadzanie i wyświetlanie tekstu jest taka sama jak w przypadku 2,5 Flasha.
-
gemini-2.5-flash-liteNasz najmniejszy i najbardziej ekonomiczny model, stworzony do użytku na dużą skalę.
-
gemini-2.5-flash-lite-preview-09-2025Najnowszy model oparty na Gemini 2.5 Flash lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i wysokiej jakości.
-
gemini-2.5-flash-native-audio-preview-12-2025Nasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.
-
gemini-2.5-flash-preview-09-2025Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku agentowych przypadków użycia.
-
gemini-2.5-flash-preview-ttsNasz model zamiany tekstu na mowę 2.5 Flash zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania.
-
gemini-2.5-proNasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.
-
gemini-2.5-pro-preview-ttsNasz model audio 2.5 Pro do zamiany tekstu na mowę zoptymalizowany pod kątem wydajnego generowania mowy o niskim opóźnieniu, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.
-
gemini-3-flash-previewNasz najbardziej inteligentny model stworzony z myślą o szybkości działania, który łączy pionierską inteligencję z doskonałym wyszukiwaniem i uzasadnianiem.
-
gemini-3-pro-image-previewNajnowocześniejszy model do generowania i edytowania obrazów.
-
gemini-3-pro-previewNasz najinteligentniejszy model z najnowocześniejszym rozumowaniem i rozpoznawaniem multimodalnym oraz zaawansowanymi funkcjami agentowymi i vibe codingu.
-
gemini-3.1-pro-previewNasz najnowszy model rozumowania SOTA o niespotykanej głębi i niuansach oraz zaawansowanych funkcjach rozpoznawania multimodalnego i kodowania.
-
gemini-3.1-flash-image-previewProfesjonalna inteligencja wizualna z błyskawiczną wydajnością i możliwością generowania realistycznych treści.
-
gemini-3.1-flash-lite-previewNasz najbardziej opłacalny model zoptymalizowany pod kątem zadań agentowych o dużej liczbie żądań, tłumaczenia i prostego przetwarzania danych.
-
gemini-3.1-flash-tts-previewGemini 3.1 Flash TTS: wydajne generowanie mowy z krótkim czasem oczekiwania. Korzystaj z naturalnych wyników, sterowanych promptów i nowych tagów audio, które pozwalają precyzyjnie kontrolować narrację.
-
lyria-3-clip-previewNasz model generowania muzyki z niskim czasem oczekiwania, zoptymalizowany pod kątem klipów audio o wysokiej jakości i precyzyjnej kontroli rytmu.
-
lyria-3-pro-previewNasz zaawansowany model generatywny pełnych utworów z dogłębnym zrozumieniem kompozycji, zoptymalizowany pod kątem precyzyjnej kontroli strukturalnej i złożonych przejść w różnych stylach muzycznych.
agent AgentOption (opcjonalnie)
Nazwa agenta użytego do wygenerowania interakcji.
Możliwe wartości:
-
deep-research-pro-preview-12-2025Agent Deep Research w Gemini
-
deep-research-preview-04-2026Agent Deep Research w Gemini
-
deep-research-max-preview-04-2026Agent Gemini Deep Research Max
Wymagane. Tylko dane wyjściowe. Unikalny identyfikator zakończenia interakcji.
Wymagane. Tylko dane wyjściowe. Stan interakcji.
Możliwe wartości:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
Wymagane. Tylko dane wyjściowe. Czas utworzenia odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).
Wymagane. Tylko dane wyjściowe. Czas ostatniej aktualizacji odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).
Tylko dane wyjściowe. Rola interakcji.
Instrukcja systemowa dotycząca interakcji.
Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.
usage Usage (opcjonalnie)
Tylko dane wyjściowe. Statystyki wykorzystania tokenów w żądaniu interakcji.
Pola
Liczba tokenów w prompcie (kontekście).
input_tokens_by_modality ModalityTokens (opcjonalnie)
Szczegółowe informacje o wykorzystaniu tokenów wejściowych według rodzaju danych.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio -
video -
document
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów w części promptu zapisanej w pamięci podręcznej (treści w pamięci podręcznej).
cached_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów w pamięci podręcznej według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio -
video -
document
Liczba tokenów dla danego rodzaju danych.
Łączna liczba tokenów we wszystkich wygenerowanych odpowiedziach.
output_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów wyjściowych według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio -
video -
document
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów w promptach dotyczących korzystania z narzędzi.
tool_use_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów narzędzi według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio -
video -
document
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów myśli w przypadku modeli myślących.
Łączna liczba tokenów w żądaniu interakcji (prompt + odpowiedzi + inne tokeny wewnętrzne).
grounding_tool_count GroundingToolCount (opcjonalnie)
Liczba narzędzi uziemiających.
Pola
Typ narzędzia do uziemienia powiązany z liczbą.
Możliwe wartości:
-
google_search -
google_maps -
retrieval
Liczba narzędzi uziemiających.
response_modalities ResponseModality (opcjonalnie)
Żądane rodzaje odpowiedzi (TEXT, IMAGE, AUDIO).
Możliwe wartości:
-
text -
image -
audio -
video -
document
Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.
Identyfikator poprzedniej interakcji (jeśli wystąpiła).
service_tier ServiceTier (opcjonalny)
Poziom usług interakcji.
Możliwe wartości:
-
flex -
standard -
priority
webhook_config WebhookConfig (opcjonalnie)
Opcjonalnie. Konfiguracja webhooka do otrzymywania powiadomień o zakończeniu interakcji.
Pola
Opcjonalnie. Jeśli ta opcja jest ustawiona, te identyfikatory URI webhooka będą używane w przypadku zdarzeń webhooka zamiast zarejestrowanych webhooków.
Opcjonalnie. Metadane użytkownika, które będą zwracane przy każdej emisji zdarzenia do webhooków.
steps Step (opcjonalnie)
Tylko dane wyjściowe. Czynności, z których składa się interakcja.
Możliwe typy
Dyskryminator polimorficzny: type
UserInputStep
Dane wejściowe podane przez użytkownika.
Brak opisu
Zawsze ustawiona na "user_input".
Brak opisu
ModelOutputStep
Dane wyjściowe wygenerowane przez model.
Brak opisu
Zawsze ustawiona na "model_output".
Brak opisu
ThoughtStep
Etap myślenia.
Brak opisu
Zawsze ustawiona na "thought".
Hash podpisu do weryfikacji na backendzie.
summary ThoughtSummaryContent (opcjonalnie)
podsumowanie myśli,
Możliwe typy
Dyskryminator polimorficzny: type
TextContent
Blok treści tekstowych.
Brak opisu
Zawsze ustawiona na "text".
Wymagane. Zawartość tekstowa.
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Dyskryminator polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.
Numer strony cytowanego dokumentu (w stosownych przypadkach).
Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
ImageContent
Blok treści z obrazem.
Brak opisu
Zawsze ustawiona na "image".
treść obrazu;
Identyfikator URI obrazu.
Typ MIME obrazu.
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
FunctionCallStep
Krok wywołania narzędzia funkcji.
Brak opisu
Zawsze ustawiona na "function_call".
Wymagane. Nazwa narzędzia do wywołania.
Wymagane. Argumenty, które mają zostać przekazane do funkcji.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
CodeExecutionCallStep
Krok wywołania wykonania kodu.
Brak opisu
Zawsze ustawiona na "code_execution_call".
arguments CodeExecutionCallStepArguments (wymagany)
Wymagane. Argumenty przekazywane do wykonania kodu.
Pola
Język programowania kodu.
Możliwe wartości:
-
python
Kod do wykonania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
UrlContextCallStep
Krok wywołania kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context_call".
arguments UrlContextCallStepArguments (wymagany)
Wymagane. Argumenty do przekazania do kontekstu adresu URL.
Pola
Adresy URL do pobrania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
McpServerToolCallStep
Krok wywołania narzędzia MCPServer.
Brak opisu
Zawsze ustawiona na "mcp_server_tool_call".
Wymagane. Nazwa wywołanego narzędzia.
Wymagane. Nazwa używanego serwera MCP.
Wymagane. Obiekt JSON z argumentami funkcji.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
GoogleSearchCallStep
Krok połączenia z wyszukiwarką Google.
Brak opisu
Zawsze ustawiona na "google_search_call".
arguments GoogleSearchCallStepArguments (wymagany)
Wymagane. Argumenty do przekazania do wyszukiwarki Google.
Pola
Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.
Rodzaj włączonego groundingu z użyciem wyszukiwarki.
Możliwe wartości:
-
web_search -
image_search -
enterprise_web_search
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
FileSearchCallStep
Krok połączenia Wyszukiwanie plików.
Brak opisu
Zawsze ustawiona na "file_search_call".
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
GoogleMapsCallStep
Krok połączenia z Mapami Google.
Brak opisu
Zawsze ustawiona na "google_maps_call".
arguments GoogleMapsCallStepArguments (opcjonalnie)
Argumenty do przekazania do narzędzia Mapy Google.
Pola
Zapytania do wykonania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
FunctionResultStep
Wynik wywołania narzędzia funkcji.
Brak opisu
Zawsze ustawiona na "function_result".
Nazwa wywołanego narzędzia.
Informuje, czy wywołanie narzędzia spowodowało błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Wynik wywołania narzędzia.
CodeExecutionResultStep
Krok wyniku wykonania kodu.
Brak opisu
Zawsze ustawiona na "code_execution_result".
Wymagane. wynik wykonania kodu.
Czy podczas wykonywania kodu wystąpił błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
UrlContextResultStep
Krok wyniku kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context_result".
result UrlContextResultItem (wymagany)
Wymagane. wyniki kontekstu adresu URL;
Pola
Pobrany adres URL.
Stan pobierania adresu URL.
Możliwe wartości:
-
success -
error -
paywall -
unsafe
Określa, czy kontekst adresu URL spowodował błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
GoogleSearchResultStep
Krok wyniku wyszukiwania Google.
Brak opisu
Zawsze ustawiona na "google_search_result".
result GoogleSearchResultItem (wymagany)
Wymagane. wyniki wyszukiwania w Google.
Pola
Fragment treści internetowych, który można umieścić na stronie internetowej lub w komponencie WebView aplikacji.
Czy wyszukiwanie w Google zakończyło się błędem.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
McpServerToolResultStep
Krok wyniku narzędzia MCPServer.
Brak opisu
Zawsze ustawiona na "mcp_server_tool_result".
Nazwa narzędzia, które jest wywoływane w ramach tego konkretnego wywołania narzędzia.
Nazwa używanego serwera MCP.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Dane wyjściowe wywołania serwera MCP. Może to być zwykły tekst lub szczegółowe treści.
FileSearchResultStep
Krok wyniku wyszukiwania plików.
Brak opisu
Zawsze ustawiona na "file_search_result".
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
GoogleMapsResultStep
Krok wyniku Map Google.
Brak opisu
Zawsze ustawiona na "google_maps_result".
result GoogleMapsResultItem (wymagany)
Brak opisu
Pola
places GoogleMapsResultPlaces (opcjonalnie)
Brak opisu
Pola
Brak opisu
Brak opisu
Brak opisu
review_snippets ReviewSnippet (opcjonalnie)
Brak opisu
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Brak opisu
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Dane wejściowe interakcji.
Wymusza, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.
agent_config object (opcjonalnie)
Parametry konfiguracji interakcji z agentem.
Możliwe typy
Dyskryminator polimorficzny: type
DynamicAgentConfig
Konfiguracja agentów dynamicznych.
Brak opisu
Zawsze ustawiona na "dynamic".
DeepResearchAgentConfig
Konfiguracja agenta Deep Research.
Brak opisu
Zawsze ustawiona na "deep-research".
thinking_summaries ThinkingSummaries (opcjonalnie)
Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.
Możliwe wartości:
-
auto -
none
Określa, czy w odpowiedzi mają być uwzględnione wizualizacje.
Możliwe wartości:
-
off -
auto
Umożliwia planowanie z udziałem człowieka dla agenta Deep Research. Jeśli wartość to „true”, agent Deep Research w odpowiedzi przedstawi plan badań. Agent będzie kontynuować tylko wtedy, gdy użytkownik potwierdzi plan w kolejnej turze.
Przykłady
Przykład
{ "created": "2025-12-04T15:01:45Z", "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-3-flash-preview", "object": "interaction", "steps": [ { "type": "model_output", "content": [ { "type": "text", "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?" } ] } ], "status": "completed", "updated": "2025-12-04T15:01:45Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 23, "total_thought_tokens": 49, "total_tokens": 79, "total_tool_use_tokens": 0 } }
Modele danych
Treść
Treść odpowiedzi.
Możliwe typy
Dyskryminator polimorficzny: type
TextContent
Blok treści tekstowych.
Brak opisu
Zawsze ustawiona na "text".
Wymagane. Zawartość tekstowa.
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Dyskryminator polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.
Numer strony cytowanego dokumentu (w stosownych przypadkach).
Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
ImageContent
Blok treści z obrazem.
Brak opisu
Zawsze ustawiona na "image".
treść obrazu;
Identyfikator URI obrazu.
Typ MIME obrazu.
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
AudioContent
blok treści audio,
Brak opisu
Zawsze ustawiona na "audio".
treści audio,
Identyfikator URI dźwięku.
Typ MIME dźwięku.
Możliwe wartości:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
Liczba kanałów audio.
Częstotliwość próbkowania dźwięku.
DocumentContent
Blok treści dokumentu.
Brak opisu
Zawsze ustawiona na "document".
Treść dokumentu.
Identyfikator URI dokumentu.
Typ MIME dokumentu.
Możliwe wartości:
-
application/pdf
VideoContent
Blok treści wideo.
Brak opisu
Zawsze ustawiona na "video".
treści wideo,
Identyfikator URI filmu.
Typ MIME filmu.
Możliwe wartości:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
Przykłady
Tekst
{ "type": "text", "text": "Hello, how are you?" }
Obraz
{ "type": "image", "data": "BASE64_ENCODED_IMAGE", "mime_type": "image/png" }
Audio
{ "type": "audio", "data": "BASE64_ENCODED_AUDIO", "mime_type": "audio/wav" }
Dokument
{ "type": "document", "data": "BASE64_ENCODED_DOCUMENT", "mime_type": "application/pdf" }
Wideo
{ "type": "video", "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg" }
Narzędzie
Narzędzie, z którego może korzystać model.
Możliwe typy
Dyskryminator polimorficzny: type
Funkcja
Narzędzie, z którego może korzystać model.
Brak opisu
Zawsze ustawiona na "function".
Nazwa funkcji.
Opis funkcji.
Schemat JSON parametrów funkcji.
CodeExecution
Narzędzie, którego model może używać do wykonywania kodu.
Brak opisu
Zawsze ustawiona na "code_execution".
UrlContext
Narzędzie, którego model może używać do pobierania kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context".
ComputerUse
Narzędzie, którego model może używać do interakcji z komputerem.
Brak opisu
Zawsze ustawiona na "computer_use".
środowisko, w którym działa usługa;
Możliwe wartości:
-
browser
Lista wstępnie zdefiniowanych funkcji, które są wykluczone z wywołania modelu.
McpServer
Serwer MCP to serwer, który może być wywoływany przez model w celu wykonywania działań.
Brak opisu
Zawsze ustawiona na "mcp_server".
Nazwa serwera MCP.
Pełny adres URL punktu końcowego MCPServer. Przykład: „https://api.example.com/mcp”
Opcjonalnie: pola nagłówków uwierzytelniania, limitów czasu itp. (w razie potrzeby).
allowed_tools AllowedTools (opcjonalnie)
dozwolone narzędzia;
Pola
mode ToolChoiceType (opcjonalnie)
Tryb wyboru narzędzia.
Możliwe wartości:
-
auto -
any -
none -
validated
Nazwy dozwolonych narzędzi.
GoogleSearch
Narzędzie, którego model może używać do wyszukiwania w Google.
Brak opisu
Zawsze ustawiona na "google_search".
Rodzaje groundingu z użyciem wyszukiwarki, które chcesz włączyć.
Możliwe wartości:
-
web_search -
image_search -
enterprise_web_search
FileSearch
Narzędzie, którego model może używać do wyszukiwania plików.
Brak opisu
Zawsze ustawiona na "file_search".
Plik wyszukuje nazwy sklepów.
Liczba fragmentów do pobrania w ramach wyszukiwania semantycznego.
Filtr metadanych, który ma być stosowany do dokumentów i fragmentów pobranych semantycznie.
GoogleMaps
Narzędzie, którego model może używać do wywoływania Map Google.
Brak opisu
Zawsze ustawiona na "google_maps".
Określa, czy w wyniku wywołania narzędzia w odpowiedzi ma zostać zwrócony token kontekstu widżetu.
Szerokość geograficzna lokalizacji użytkownika.
Długość geograficzna lokalizacji użytkownika.
Pobieranie
Narzędzie, którego model może używać do pobierania plików.
Brak opisu
Zawsze ustawiona na "retrieval".
Typy pobierania plików do włączenia.
Możliwe wartości:
-
vertex_ai_search
vertex_ai_search_config VertexAISearchConfig (opcjonalnie)
Służy do określania konfiguracji VertexAISearch.
Pola
Opcjonalnie. Służy do określania wyszukiwarki Vertex AI Search.
Opcjonalnie. Służy do określania repozytoriów danych Vertex AI Search.
Przykłady
Funkcja
CodeExecution
UrlContext
ComputerUse
McpServer
GoogleSearch
FileSearch
GoogleMaps
Pobieranie
Brak przykładów tego typu.
InteractionSseEvent
Możliwe typy
Dyskryminator polimorficzny: event_type
InteractionCreatedEvent
Brak opisu
Zawsze ustawiona na "interaction.created".
Brak opisu
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
InteractionCompletedEvent
Brak opisu
Zawsze ustawiona na "interaction.completed".
Wymagane. Zakończona interakcja z pustymi danymi wyjściowymi w celu zmniejszenia rozmiaru ładunku. Użyj poprzednich zdarzeń ContentDelta, aby uzyskać rzeczywiste dane wyjściowe.
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
InteractionStatusUpdate
Brak opisu
Zawsze ustawiona na "interaction.status_update".
Brak opisu
Brak opisu
Możliwe wartości:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
ErrorEvent
Brak opisu
Zawsze ustawiona na "error".
error Error (opcjonalnie)
Brak opisu
Pola
Identyfikator URI określający typ błędu.
Komunikat o błędzie zrozumiały dla człowieka.
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
StepStart
Brak opisu
Zawsze ustawiona na "step.start".
Brak opisu
step Step (wymagany)
Brak opisu
Możliwe typy
Dyskryminator polimorficzny: type
UserInputStep
Dane wejściowe podane przez użytkownika.
Brak opisu
Zawsze ustawiona na "user_input".
Brak opisu
ModelOutputStep
Dane wyjściowe wygenerowane przez model.
Brak opisu
Zawsze ustawiona na "model_output".
Brak opisu
ThoughtStep
Etap myślenia.
Brak opisu
Zawsze ustawiona na "thought".
Hash podpisu do weryfikacji na backendzie.
summary ThoughtSummaryContent (opcjonalnie)
podsumowanie myśli,
Możliwe typy
Dyskryminator polimorficzny: type
TextContent
Blok treści tekstowych.
Brak opisu
Zawsze ustawiona na "text".
Wymagane. Zawartość tekstowa.
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Dyskryminator polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.
Numer strony cytowanego dokumentu (w stosownych przypadkach).
Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
ImageContent
Blok treści z obrazem.
Brak opisu
Zawsze ustawiona na "image".
treść obrazu;
Identyfikator URI obrazu.
Typ MIME obrazu.
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
FunctionCallStep
Krok wywołania narzędzia funkcji.
Brak opisu
Zawsze ustawiona na "function_call".
Wymagane. Nazwa narzędzia do wywołania.
Wymagane. Argumenty, które mają zostać przekazane do funkcji.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
CodeExecutionCallStep
Krok wywołania wykonania kodu.
Brak opisu
Zawsze ustawiona na "code_execution_call".
arguments CodeExecutionCallStepArguments (wymagany)
Wymagane. Argumenty przekazywane do wykonania kodu.
Pola
Język programowania kodu.
Możliwe wartości:
-
python
Kod do wykonania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
UrlContextCallStep
Krok wywołania kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context_call".
arguments UrlContextCallStepArguments (wymagany)
Wymagane. Argumenty do przekazania do kontekstu adresu URL.
Pola
Adresy URL do pobrania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
McpServerToolCallStep
Krok wywołania narzędzia MCPServer.
Brak opisu
Zawsze ustawiona na "mcp_server_tool_call".
Wymagane. Nazwa wywołanego narzędzia.
Wymagane. Nazwa używanego serwera MCP.
Wymagane. Obiekt JSON z argumentami funkcji.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
GoogleSearchCallStep
Krok połączenia z wyszukiwarką Google.
Brak opisu
Zawsze ustawiona na "google_search_call".
arguments GoogleSearchCallStepArguments (wymagany)
Wymagane. Argumenty do przekazania do wyszukiwarki Google.
Pola
Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.
Rodzaj włączonego groundingu z użyciem wyszukiwarki.
Możliwe wartości:
-
web_search -
image_search -
enterprise_web_search
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
FileSearchCallStep
Krok połączenia Wyszukiwanie plików.
Brak opisu
Zawsze ustawiona na "file_search_call".
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
GoogleMapsCallStep
Krok połączenia z Mapami Google.
Brak opisu
Zawsze ustawiona na "google_maps_call".
arguments GoogleMapsCallStepArguments (opcjonalnie)
Argumenty do przekazania do narzędzia Mapy Google.
Pola
Zapytania do wykonania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
FunctionResultStep
Wynik wywołania narzędzia funkcji.
Brak opisu
Zawsze ustawiona na "function_result".
Nazwa wywołanego narzędzia.
Informuje, czy wywołanie narzędzia spowodowało błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Wynik wywołania narzędzia.
CodeExecutionResultStep
Krok wyniku wykonania kodu.
Brak opisu
Zawsze ustawiona na "code_execution_result".
Wymagane. wynik wykonania kodu.
Czy podczas wykonywania kodu wystąpił błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
UrlContextResultStep
Krok wyniku kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context_result".
result UrlContextResultItem (wymagany)
Wymagane. wyniki kontekstu adresu URL;
Pola
Pobrany adres URL.
Stan pobierania adresu URL.
Możliwe wartości:
-
success -
error -
paywall -
unsafe
Określa, czy kontekst adresu URL spowodował błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
GoogleSearchResultStep
Krok wyniku wyszukiwania Google.
Brak opisu
Zawsze ustawiona na "google_search_result".
result GoogleSearchResultItem (wymagany)
Wymagane. wyniki wyszukiwania w Google.
Pola
Fragment treści internetowych, który można umieścić na stronie internetowej lub w komponencie WebView aplikacji.
Czy wyszukiwanie w Google zakończyło się błędem.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
McpServerToolResultStep
Krok wyniku narzędzia MCPServer.
Brak opisu
Zawsze ustawiona na "mcp_server_tool_result".
Nazwa narzędzia, które jest wywoływane w ramach tego konkretnego wywołania narzędzia.
Nazwa używanego serwera MCP.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Dane wyjściowe wywołania serwera MCP. Może to być zwykły tekst lub szczegółowe treści.
FileSearchResultStep
Krok wyniku wyszukiwania plików.
Brak opisu
Zawsze ustawiona na "file_search_result".
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
GoogleMapsResultStep
Krok wyniku Map Google.
Brak opisu
Zawsze ustawiona na "google_maps_result".
result GoogleMapsResultItem (wymagany)
Brak opisu
Pola
places GoogleMapsResultPlaces (opcjonalnie)
Brak opisu
Pola
Brak opisu
Brak opisu
Brak opisu
review_snippets ReviewSnippet (opcjonalnie)
Brak opisu
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Brak opisu
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
StepDelta
Brak opisu
Zawsze ustawiona na "step.delta".
Brak opisu
delta StepDeltaData (wymagane)
Brak opisu
Możliwe typy
Dyskryminator polimorficzny: type
TextDelta
Brak opisu
Zawsze ustawiona na "text".
Brak opisu
ImageDelta
Brak opisu
Zawsze ustawiona na "image".
Brak opisu
Brak opisu
Brak opisu
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
AudioDelta
Brak opisu
Zawsze ustawiona na "audio".
Brak opisu
Brak opisu
Brak opisu
Możliwe wartości:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
Rola wycofana. Zamiast tego użyj parametru sample_rate. Wartość jest ignorowana.
Częstotliwość próbkowania dźwięku.
Liczba kanałów audio.
DocumentDelta
Brak opisu
Zawsze ustawiona na "document".
Brak opisu
Brak opisu
Brak opisu
Możliwe wartości:
-
application/pdf
VideoDelta
Brak opisu
Zawsze ustawiona na "video".
Brak opisu
Brak opisu
Brak opisu
Możliwe wartości:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
ThoughtSummaryDelta
Brak opisu
Zawsze ustawiona na "thought_summary".
content ThoughtSummaryContent (opcjonalnie)
Nowy element podsumowania do dodania do przemyślenia.
Możliwe typy
Dyskryminator polimorficzny: type
TextContent
Blok treści tekstowych.
Brak opisu
Zawsze ustawiona na "text".
Wymagane. Zawartość tekstowa.
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Dyskryminator polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.
Numer strony cytowanego dokumentu (w stosownych przypadkach).
Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
ImageContent
Blok treści z obrazem.
Brak opisu
Zawsze ustawiona na "image".
treść obrazu;
Identyfikator URI obrazu.
Typ MIME obrazu.
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
ThoughtSignatureDelta
Brak opisu
Zawsze ustawiona na "thought_signature".
Sygnatura dopasowująca źródło backendu, które ma być częścią generowania.
TextAnnotationDelta
Brak opisu
Zawsze ustawiona na "text_annotation_delta".
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Dyskryminator polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.
Numer strony cytowanego dokumentu (w stosownych przypadkach).
Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
ArgumentsDelta
Brak opisu
Zawsze ustawiona na "arguments_delta".
Brak opisu
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
StepStop
Brak opisu
Zawsze ustawiona na "step.stop".
Brak opisu
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
Przykłady
Utworzono interakcję
{ "event_type": "interaction.created", "interaction": { "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-3-flash-preview", "status": "in_progress", "created": "2025-12-04T15:01:45Z", "updated": "2025-12-04T15:01:45Z" }, "event_id": "evt_123" }
Interakcja zakończona
{ "event_type": "interaction.completed", "interaction": { "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-3-flash-preview", "status": "completed", "created": "2025-12-04T15:01:45Z", "updated": "2025-12-04T15:01:45Z" }, "event_id": "evt_123" }
Aktualizacja stanu interakcji
{ "event_type": "interaction.status_update", "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "status": "in_progress" }
Zdarzenie błędu
{ "event_type": "error", "error": { "message": "Failed to get completed interaction: Result not found.", "code": "not_found" } }
Krok początkowy
{ "event_type": "step.start", "index": 0, "step": { "type": "model_output" } }
Delta kroków
{ "event_type": "step.delta", "index": 0, "delta": { "type": "text", "text": "Hello" } }
Zatrzymaj krok
{ "event_type": "step.stop", "index": 0 }