Gemini Interactions API to eksperymentalny interfejs API, który umożliwia programistom tworzenie aplikacji generatywnej AI z użyciem modeli Gemini. Gemini to nasz najbardziej zaawansowany model, który od podstaw został zaprojektowany jako multimodalny. Potrafi uogólniać i z łatwością rozumieć, przetwarzać i łączyć różne typy informacji, w tym język, obrazy, dźwięki, filmy i kod. Interfejsu Gemini API możesz używać w przypadku takich zastosowań jak wnioskowanie na podstawie tekstu i obrazów, generowanie treści, agenty dialogowe, systemy podsumowywania i klasyfikacji oraz wiele innych.
Tworzenie interakcji
Tworzy nową interakcję.
Treść żądania
Treść żądania zawiera dane o następującej strukturze:
model ModelOption (opcjonalnie)
Nazwa modelu użytego do wygenerowania interakcji.
Wymagane, jeśli nie podano parametru „agent”.
Możliwe wartości:
-
gemini-2.5-computer-use-preview-10-2025Model oparty na możliwościach agenta, zaprojektowany do bezpośredniej interakcji z interfejsem, umożliwiający Gemini postrzeganie środowisk cyfrowych i poruszanie się po nich.
-
gemini-2.5-flashNasz pierwszy hybrydowy model rozumowania, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.
-
gemini-2.5-flash-imageNasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Cena za wprowadzanie i wyświetlanie tekstu jest taka sama jak w przypadku 2,5 Flasha.
-
gemini-2.5-flash-liteNasz najmniejszy i najbardziej ekonomiczny model stworzony do użytku na dużą skalę.
-
gemini-2.5-flash-lite-preview-09-2025Najnowszy model oparty na Gemini 2.5 Flash Lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i wysokiej jakości.
-
gemini-2.5-flash-native-audio-preview-12-2025Nasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.
-
gemini-2.5-flash-preview-09-2025Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku agentowych przypadków użycia.
-
gemini-2.5-flash-preview-ttsNasz model zamiany tekstu na mowę 2.5 Flash zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania.
-
gemini-2.5-proNasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.
-
gemini-2.5-pro-preview-ttsNasz model audio 2.5 Pro do zamiany tekstu na mowę zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.
-
gemini-3-flash-previewNasz najbardziej inteligentny model opracowany z myślą o szybkości działania, który łączy pionierską inteligencję z doskonałym wyszukiwaniem i uzasadnianiem.
-
gemini-3-pro-image-previewNajnowocześniejszy model do generowania i edytowania obrazów.
-
gemini-3-pro-previewNasz najbardziej inteligentny model z najnowocześniejszymi funkcjami rozumowania i rozpoznawania multimodalnego oraz zaawansowanymi funkcjami agentowymi i vibe codingu.
-
gemini-3.1-pro-previewNasz najnowszy model rozumowania SOTA o niespotykanej głębi i niuansach oraz zaawansowanych funkcjach rozpoznawania multimodalnego i kodowania.
-
gemini-3.1-flash-image-previewProfesjonalna inteligencja wizualna z błyskawiczną wydajnością i możliwością generowania realistycznych treści.
-
gemini-3.1-flash-lite-previewNasz najbardziej opłacalny model zoptymalizowany pod kątem zadań agentowych o dużej liczbie żądań, tłumaczenia i prostego przetwarzania danych.
-
gemini-3.1-flash-tts-previewGemini 3.1 Flash TTS: wydajne generowanie mowy o krótkim czasie oczekiwania. Korzystaj z naturalnych wyników, sterowanych promptów i nowych tagów audio, które pozwalają precyzyjnie kontrolować narrację.
-
lyria-3-clip-previewNasz model generowania muzyki o krótkim czasie oczekiwania, zoptymalizowany pod kątem klipów audio o wysokiej jakości i precyzyjnej kontroli rytmu.
-
lyria-3-pro-previewNasz zaawansowany model generatywny pełnych utworów z dogłębnym zrozumieniem kompozycji, zoptymalizowany pod kątem precyzyjnej kontroli strukturalnej i złożonych przejść w różnych stylach muzycznych.
agent AgentOption (opcjonalnie)
Nazwa agenta użytego do wygenerowania interakcji.
Wymagany, jeśli nie podano wartości „model”.
Możliwe wartości:
-
deep-research-pro-preview-12-2025Agent Deep Research w Gemini
-
deep-research-preview-04-2026Agent Deep Research w Gemini
-
deep-research-max-preview-04-2026Agent Gemini Deep Research Max
Dane wejściowe interakcji (wspólne dla modelu i agenta).
Instrukcja systemowa dotycząca interakcji.
Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.
Wymaga, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.
Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.
Tylko dane wejściowe. Czy interakcja będzie transmitowana strumieniowo.
Tylko dane wejściowe. Określa, czy odpowiedź i żądanie mają być przechowywane do późniejszego pobrania.
Tylko dane wejściowe. Określa, czy interakcja z modelem ma być przeprowadzana w tle.
generation_config GenerationConfig (opcjonalnie)
Konfiguracja modelu
Parametry konfiguracji interakcji z modelem.
Alternatywa dla parametru `agent_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest parametr `model`.
Pola
Określa losowość danych wyjściowych.
Maksymalne skumulowane prawdopodobieństwo tokenów, które należy wziąć pod uwagę podczas próbkowania.
Wartość początkowa używana podczas dekodowania w celu zapewnienia powtarzalności.
Lista ciągów znaków, które zatrzymają interakcję z danymi wyjściowymi.
thinking_level ThinkingLevel (opcjonalnie)
Poziom tokenów myśli, które ma wygenerować model.
Możliwe wartości:
-
minimal -
low -
medium -
high
thinking_summaries ThinkingSummaries (opcjonalnie)
Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.
Możliwe wartości:
-
auto -
none
Maksymalna liczba tokenów, które mają być uwzględnione w odpowiedzi.
speech_config SpeechConfig (optional)
Konfiguracja interakcji głosowej.
Pola
Głos rozmówcy.
Język mowy.
Imię i nazwisko osoby mówiącej, które powinno być zgodne z imieniem i nazwiskiem podanym w promcie.
image_config ImageConfig (opcjonalnie)
Konfiguracja interakcji z obrazem.
Pola
Brak opisu
Możliwe wartości:
-
1:1 -
2:3 -
3:2 -
3:4 -
4:3 -
4:5 -
5:4 -
9:16 -
16:9 -
21:9 -
1:8 -
8:1 -
1:4 -
4:1
Brak opisu
Możliwe wartości:
-
1K -
2K -
4K -
512
Konfiguracja wyboru narzędzia.
agent_config object (opcjonalnie)
Konfiguracja agenta
Konfiguracja agenta.
Alternatywa dla atrybutu `generation_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest atrybut `agent`.
Możliwe typy
Wyróżnik polimorficzny: type
DynamicAgentConfig
Konfiguracja agentów dynamicznych.
Brak opisu
Zawsze ustawiona na "dynamic".
DeepResearchAgentConfig
Konfiguracja agenta Deep Research.
Brak opisu
Zawsze ustawiona na "deep-research".
thinking_summaries ThinkingSummaries (opcjonalnie)
Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.
Możliwe wartości:
-
auto -
none
Określa, czy w odpowiedzi mają być uwzględnione wizualizacje.
Możliwe wartości:
-
off -
auto
Umożliwia planowanie z udziałem człowieka w przypadku agenta Deep Research. Jeśli wartość to „true”, agent Deep Research w odpowiedzi przedstawi plan badań. Agent będzie kontynuować tylko wtedy, gdy użytkownik potwierdzi plan w kolejnej turze.
Identyfikator poprzedniej interakcji (jeśli wystąpiła).
response_modalities ResponseModality (opcjonalnie)
Żądane tryby odpowiedzi (TEXT, IMAGE, AUDIO).
Możliwe wartości:
-
text -
image -
audio -
video -
document
Poziom usług interakcji.
Możliwe wartości:
-
flex -
standard -
priority
Odpowiedź
Zwraca zasób Interaction.
Proste żądanie
Przykładowa odpowiedź
{ "created": "2025-11-26T12:25:15Z", "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "object": "interaction", "outputs": [ { "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-11-26T12:25:15Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 20, "total_thought_tokens": 22, "total_tokens": 49, "total_tool_use_tokens": 0 } }
Wieloetapowe
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "The capital of France is Paris." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 50 } ], "total_cached_tokens": 0, "total_input_tokens": 50, "total_output_tokens": 10, "total_thought_tokens": 0, "total_tokens": 60, "total_tool_use_tokens": 0 } }
Wprowadzanie obrazu
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 10 }, { "modality": "image", "tokens": 258 } ], "total_cached_tokens": 0, "total_input_tokens": 268, "total_output_tokens": 20, "total_thought_tokens": 0, "total_tokens": 288, "total_tool_use_tokens": 0 } }
Wywoływanie funkcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "requires_action", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "function_call", "id": "gth23981", "name": "get_weather", "arguments": { "location": "Boston, MA" } } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 100 } ], "total_cached_tokens": 0, "total_input_tokens": 100, "total_output_tokens": 25, "total_thought_tokens": 0, "total_tokens": 125, "total_tool_use_tokens": 50 } }
Deep Research
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "agent", "outputs": [ { "type": "text", "text": "Here is a comprehensive research report on the current state of cancer research..." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 20 } ], "total_cached_tokens": 0, "total_input_tokens": 20, "total_output_tokens": 1000, "total_thought_tokens": 500, "total_tokens": 1520, "total_tool_use_tokens": 0 } }
Pobieranie interakcji
Pobiera pełne szczegóły pojedynczej interakcji na podstawie jej identyfikatora `Interaction.id`.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do pobrania.
Jeśli ma wartość Prawda, wygenerowana treść będzie przesyłana strumieniowo przyrostowo.
Domyślna wartość: False
Opcjonalnie. Jeśli ta opcja jest ustawiona, wznawia strumień interakcji od następnego fragmentu po zdarzeniu oznaczonym identyfikatorem zdarzenia. Można jej używać tylko wtedy, gdy wartość parametru „stream” to „true”.
Jeśli ma wartość „true”, w odpowiedzi uwzględniane są dane wejściowe.
Domyślna wartość: False
której wersji interfejsu API używać;
Odpowiedź
Zwraca zasób Interaction.
Pobieranie interakcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-3-flash-preview", "status": "completed", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model", "outputs": [ { "type": "text", "text": "I'm doing great, thank you for asking! How can I help you today?" } ] }
Usuwanie interakcji
Usuwa interakcję według identyfikatora.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do usunięcia.
której wersji interfejsu API używać;
Odpowiedź
Jeśli operacja się uda, odpowiedź będzie pusta.
Usuwanie interakcji
Anulowanie interakcji
Anuluje interakcję według identyfikatora. Dotyczy to tylko interakcji w tle, które są nadal aktywne.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do anulowania.
której wersji interfejsu API używać;
Odpowiedź
Zwraca zasób Interaction.
Anulowanie interakcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "cancelled", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "agent" }
Zasoby
Interakcja
Zasób Interaction.
Pola
model ModelOption (opcjonalnie)
Nazwa modelu użytego do wygenerowania interakcji.
Możliwe wartości:
-
gemini-2.5-computer-use-preview-10-2025Model oparty na możliwościach agenta, zaprojektowany do bezpośredniej interakcji z interfejsem, umożliwiający Gemini postrzeganie środowisk cyfrowych i poruszanie się po nich.
-
gemini-2.5-flashNasz pierwszy hybrydowy model rozumowania, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.
-
gemini-2.5-flash-imageNasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Cena za wprowadzanie i wyświetlanie tekstu jest taka sama jak w przypadku 2,5 Flasha.
-
gemini-2.5-flash-liteNasz najmniejszy i najbardziej ekonomiczny model stworzony do użytku na dużą skalę.
-
gemini-2.5-flash-lite-preview-09-2025Najnowszy model oparty na Gemini 2.5 Flash Lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i wysokiej jakości.
-
gemini-2.5-flash-native-audio-preview-12-2025Nasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.
-
gemini-2.5-flash-preview-09-2025Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku agentowych przypadków użycia.
-
gemini-2.5-flash-preview-ttsNasz model zamiany tekstu na mowę 2.5 Flash zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania.
-
gemini-2.5-proNasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.
-
gemini-2.5-pro-preview-ttsNasz model audio 2.5 Pro do zamiany tekstu na mowę zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.
-
gemini-3-flash-previewNasz najbardziej inteligentny model opracowany z myślą o szybkości działania, który łączy pionierską inteligencję z doskonałym wyszukiwaniem i uzasadnianiem.
-
gemini-3-pro-image-previewNajnowocześniejszy model do generowania i edytowania obrazów.
-
gemini-3-pro-previewNasz najbardziej inteligentny model z najnowocześniejszymi funkcjami rozumowania i rozpoznawania multimodalnego oraz zaawansowanymi funkcjami agentowymi i vibe codingu.
-
gemini-3.1-pro-previewNasz najnowszy model rozumowania SOTA o niespotykanej głębi i niuansach oraz zaawansowanych funkcjach rozpoznawania multimodalnego i kodowania.
-
gemini-3.1-flash-image-previewProfesjonalna inteligencja wizualna z błyskawiczną wydajnością i możliwością generowania realistycznych treści.
-
gemini-3.1-flash-lite-previewNasz najbardziej opłacalny model zoptymalizowany pod kątem zadań agentowych o dużej liczbie żądań, tłumaczenia i prostego przetwarzania danych.
-
gemini-3.1-flash-tts-previewGemini 3.1 Flash TTS: wydajne generowanie mowy o krótkim czasie oczekiwania. Korzystaj z naturalnych wyników, sterowanych promptów i nowych tagów audio, które pozwalają precyzyjnie kontrolować narrację.
-
lyria-3-clip-previewNasz model generowania muzyki o krótkim czasie oczekiwania, zoptymalizowany pod kątem klipów audio o wysokiej jakości i precyzyjnej kontroli rytmu.
-
lyria-3-pro-previewNasz zaawansowany model generatywny pełnych utworów z dogłębnym zrozumieniem kompozycji, zoptymalizowany pod kątem precyzyjnej kontroli strukturalnej i złożonych przejść w różnych stylach muzycznych.
agent AgentOption (opcjonalnie)
Nazwa agenta użytego do wygenerowania interakcji.
Możliwe wartości:
-
deep-research-pro-preview-12-2025Agent Deep Research w Gemini
-
deep-research-preview-04-2026Agent Deep Research w Gemini
-
deep-research-max-preview-04-2026Agent Gemini Deep Research Max
Wymagane. Tylko dane wyjściowe. Unikalny identyfikator zakończenia interakcji.
Wymagane. Tylko dane wyjściowe. Stan interakcji.
Możliwe wartości:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
Wymagane. Tylko dane wyjściowe. Czas utworzenia odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).
Wymagane. Tylko dane wyjściowe. Czas ostatniej aktualizacji odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).
Tylko dane wyjściowe. Rola interakcji.
Tylko dane wyjściowe. Odpowiedzi modelu.
Instrukcja systemowa dotycząca interakcji.
Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.
usage Usage (opcjonalnie)
Tylko dane wyjściowe. Statystyki wykorzystania tokenów w żądaniu interakcji.
Pola
Liczba tokenów w prompcie (kontekście).
input_tokens_by_modality ModalityTokens (opcjonalnie)
Szczegółowe informacje o wykorzystaniu tokenów wejściowych według rodzaju danych.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio -
video -
document
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów w części promptu zapisanej w pamięci podręcznej (treści w pamięci podręcznej).
cached_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów w pamięci podręcznej według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio -
video -
document
Liczba tokenów dla danego rodzaju danych.
Łączna liczba tokenów we wszystkich wygenerowanych odpowiedziach.
output_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów wyjściowych według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio -
video -
document
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów w promptach dotyczących korzystania z narzędzi.
tool_use_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów narzędzi według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio -
video -
document
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów myśli w przypadku modeli myślących.
Łączna liczba tokenów w żądaniu interakcji (prompt + odpowiedzi + inne tokeny wewnętrzne).
response_modalities ResponseModality (opcjonalnie)
Żądane tryby odpowiedzi (TEXT, IMAGE, AUDIO).
Możliwe wartości:
-
text -
image -
audio -
video -
document
Wymaga, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.
Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.
Identyfikator poprzedniej interakcji (jeśli wystąpiła).
Poziom usług interakcji.
Możliwe wartości:
-
flex -
standard -
priority
Dane wejściowe interakcji.
agent_config object (opcjonalnie)
Parametry konfiguracji interakcji z agentem.
Możliwe typy
Wyróżnik polimorficzny: type
DynamicAgentConfig
Konfiguracja agentów dynamicznych.
Brak opisu
Zawsze ustawiona na "dynamic".
DeepResearchAgentConfig
Konfiguracja agenta Deep Research.
Brak opisu
Zawsze ustawiona na "deep-research".
thinking_summaries ThinkingSummaries (opcjonalnie)
Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.
Możliwe wartości:
-
auto -
none
Określa, czy w odpowiedzi mają być uwzględnione wizualizacje.
Możliwe wartości:
-
off -
auto
Umożliwia planowanie z udziałem człowieka w przypadku agenta Deep Research. Jeśli wartość to „true”, agent Deep Research w odpowiedzi przedstawi plan badań. Agent będzie kontynuować tylko wtedy, gdy użytkownik potwierdzi plan w kolejnej turze.
Przykłady
Przykład
{ "created": "2025-12-04T15:01:45Z", "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-3-flash-preview", "object": "interaction", "outputs": [ { "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-04T15:01:45Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 23, "total_thought_tokens": 49, "total_tokens": 79, "total_tool_use_tokens": 0 } }
Modele danych
Treść
Treść odpowiedzi.
Możliwe typy
Wyróżnik polimorficzny: type
TextContent
Blok treści tekstowych.
Brak opisu
Zawsze ustawiona na "text".
Wymagane. Zawartość tekstowa.
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Wyróżnik polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
ImageContent
Blok treści z obrazem.
Brak opisu
Zawsze ustawiona na "image".
treść obrazu;
Identyfikator URI obrazu.
Typ MIME obrazu.
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
AudioContent
blok treści audio,
Brak opisu
Zawsze ustawiona na "audio".
treści audio,
Identyfikator URI dźwięku.
Typ MIME dźwięku.
Możliwe wartości:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
Częstotliwość próbkowania dźwięku.
Liczba kanałów audio.
DocumentContent
Blok treści dokumentu.
Brak opisu
Zawsze ustawiona na "document".
Treść dokumentu.
Identyfikator URI dokumentu.
Typ MIME dokumentu.
Możliwe wartości:
-
application/pdf
VideoContent
Blok treści wideo.
Brak opisu
Zawsze ustawiona na "video".
treści wideo,
Identyfikator URI filmu.
Typ MIME filmu.
Możliwe wartości:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
ThoughtContent
Blok treści z przemyśleniami.
Brak opisu
Zawsze ustawiona na "thought".
Sygnatura dopasowująca źródło backendu, które ma być częścią generowania.
summary ThoughtSummaryContent (opcjonalnie)
Podsumowanie myśli.
Możliwe typy
Wyróżnik polimorficzny: type
TextContent
Blok treści tekstowych.
Brak opisu
Zawsze ustawiona na "text".
Wymagane. Zawartość tekstowa.
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Wyróżnik polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
ImageContent
Blok treści z obrazem.
Brak opisu
Zawsze ustawiona na "image".
treść obrazu;
Identyfikator URI obrazu.
Typ MIME obrazu.
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
FunctionCallContent
Blok treści wywołania narzędzia funkcji.
Brak opisu
Zawsze ustawiona na "function_call".
Wymagane. Nazwa narzędzia do wywołania.
Wymagane. Argumenty, które mają zostać przekazane do funkcji.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
CodeExecutionCallContent
treści związane z wykonywaniem kodu;
Brak opisu
Zawsze ustawiona na "code_execution_call".
argumenty CodeExecutionCallArguments (wymagane)
Wymagane. Argumenty przekazywane do wykonania kodu.
Pola
Język programowania w przypadku elementu „code”.
Możliwe wartości:
-
python
Kod do wykonania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
UrlContextCallContent
Zawartość kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context_call".
arguments UrlContextCallArguments (wymagany)
Wymagane. Argumenty do przekazania do kontekstu adresu URL.
Pola
Adresy URL do pobrania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
McpServerToolCallContent
Treść wywołania narzędzia MCPServer.
Brak opisu
Zawsze ustawiona na "mcp_server_tool_call".
Wymagane. Nazwa wywołanego narzędzia.
Wymagane. Nazwa używanego serwera MCP.
Wymagane. Obiekt JSON z argumentami funkcji.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
GoogleSearchCallContent
treści w wyszukiwarce Google,
Brak opisu
Zawsze ustawiona na "google_search_call".
arguments GoogleSearchCallArguments (wymagany)
Wymagane. Argumenty do przekazania do wyszukiwarki Google.
Pola
Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.
Rodzaj włączonego groundingu z użyciem wyszukiwarki.
Możliwe wartości:
-
web_search -
image_search -
enterprise_web_search
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
FileSearchCallContent
Zawartość wyszukiwania plików.
Brak opisu
Zawsze ustawiona na "file_search_call".
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
GoogleMapsCallContent
treści w Mapach Google;
Brak opisu
Zawsze ustawiona na "google_maps_call".
arguments GoogleMapsCallArguments (opcjonalnie)
Argumenty do przekazania do narzędzia Mapy Google.
Pola
Zapytania do wykonania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
FunctionResultContent
Blok treści z wynikami narzędzia funkcji.
Brak opisu
Zawsze ustawiona na "function_result".
Nazwa wywołanego narzędzia.
Informuje, czy wywołanie narzędzia spowodowało błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Wynik wywołania narzędzia.
CodeExecutionResultContent
Treść wyniku wykonania kodu.
Brak opisu
Zawsze ustawiona na "code_execution_result".
Wymagane. wynik wykonania kodu.
Czy podczas wykonywania kodu wystąpił błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
UrlContextResultContent
Treść wyniku kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context_result".
result UrlContextResult (wymagany)
Wymagane. wyniki kontekstu adresu URL;
Pola
Pobrany adres URL.
Stan pobierania adresu URL.
Możliwe wartości:
-
success -
error -
paywall -
unsafe
Czy kontekst URL spowodował błąd.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
GoogleSearchResultContent
treści wyników wyszukiwania Google;
Brak opisu
Zawsze ustawiona na "google_search_result".
result GoogleSearchResult (wymagane)
Wymagane. wyniki wyszukiwania w Google.
Pola
Fragment treści internetowych, który można umieścić na stronie internetowej lub w komponencie WebView aplikacji.
Czy wyszukiwanie w Google zakończyło się błędem.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
McpServerToolResultContent
Treść wyniku narzędzia MCPServer.
Brak opisu
Zawsze ustawiona na "mcp_server_tool_result".
Nazwa narzędzia, które jest wywoływane w przypadku tego konkretnego wywołania narzędzia.
Nazwa używanego serwera MCP.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Dane wyjściowe wywołania serwera MCP. Może to być zwykły tekst lub szczegółowe treści.
FileSearchResultContent
Zawartość wyniku wyszukiwania plików.
Brak opisu
Zawsze ustawiona na "file_search_result".
result FileSearchResult (wymagany)
Wymagane. wyniki wyszukiwania plików,
Pola
Metadane podane przez użytkownika dotyczące FileSearchResult.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
GoogleMapsResultContent
treści wyników w Mapach Google;
Brak opisu
Zawsze ustawiona na "google_maps_result".
result GoogleMapsResult (wymagany)
Wymagane. Wyniki z Map Google.
Pola
places Places (opcjonalnie)
znalezione miejsca;
Pola
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Nazwa zasobu tokena kontekstu widżetu Map Google.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Przykłady
Tekst
{ "type": "text", "text": "Hello, how are you?" }
Obraz
{ "type": "image", "data": "BASE64_ENCODED_IMAGE", "mime_type": "image/png" }
Audio
{ "type": "audio", "data": "BASE64_ENCODED_AUDIO", "mime_type": "audio/wav" }
Dokument
{ "type": "document", "data": "BASE64_ENCODED_DOCUMENT", "mime_type": "application/pdf" }
Wideo
{ "type": "video", "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg" }
Myślenie
{ "type": "thought", "summary": [ { "type": "text", "text": "The user is asking about the weather. I should use the get_weather tool." } ], "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh" }
Połączenie z funkcją
{ "type": "function_call", "name": "get_weather", "id": "gth23981", "arguments": { "location": "Boston, MA" } }
Wywołanie wykonania kodu
{ "type": "code_execution_call", "id": "call_123456", "arguments": { "language": "python", "code": "print('hello world')" } }
Wywołanie kontekstu adresu URL
{ "type": "url_context_call", "id": "call_123456", "arguments": { "urls": [ "https://www.example.com" ] } }
Wywołanie narzędzia serwera MCP
{ "type": "mcp_server_tool_call", "id": "call_123456", "name": "get_forecast", "server_name": "weather_server", "arguments": { "city": "London" } }
Połączenie z wyszukiwarki Google
{ "type": "google_search_call", "id": "call_123456", "arguments": { "queries": [ "weather in Boston" ] } }
Wywołanie wyszukiwania plików
{ "type": "file_search_call", "id": "call_123456" }
Połączenie z Map Google
{ "type": "google_maps_call", "id": "call_123456", "arguments": { "query": "best food near me" } }
Wynik funkcji
{ "type": "function_result", "name": "get_weather", "call_id": "gth23981", "result": [ { "type": "text", "text": "{\"weather\":\"sunny\"}" } ] }
Wynik wykonania kodu
{ "type": "code_execution_result", "call_id": "call_123456", "result": "hello world" }
Wynik kontekstu adresu URL
{ "type": "url_context_result", "call_id": "call_123456", "result": [ { "url": "https://www.example.com", "status": "SUCCESS" } ] }
Wynik wyszukiwania Google
{ "type": "google_search_result", "call_id": "call_123456", "result": [ { "url": "https://www.google.com/search?q=weather+in+Boston", "title": "Weather in Boston" } ] }
Wynik narzędzia serwera MCP
{ "type": "mcp_server_tool_result", "name": "get_forecast", "server_name": "weather_server", "call_id": "call_123456", "result": "sunny" }
Wynik wyszukiwania pliku
{ "type": "file_search_result", "call_id": "call_123456", "result": [ { "text": "search result chunk", "file_search_store": "file_search_store" } ] }
Wynik z Map Google
{ "type": "google_maps_result", "call_id": "call_123456", "result": [ { "places": [ { "url": "https://www.google.com/maps/search/best+food+near+me", "name": "Tasty Restaurant" } ] } ] }
Narzędzie
Narzędzie, z którego może korzystać model.
Możliwe typy
Wyróżnik polimorficzny: type
Funkcja
Narzędzie, z którego może korzystać model.
Brak opisu
Zawsze ustawiona na "function".
Nazwa funkcji.
Opis funkcji.
Schemat JSON parametrów funkcji.
CodeExecution
Narzędzie, którego model może używać do wykonywania kodu.
Brak opisu
Zawsze ustawiona na "code_execution".
UrlContext
Narzędzie, którego model może używać do pobierania kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context".
ComputerUse
Narzędzie, którego model może używać do interakcji z komputerem.
Brak opisu
Zawsze ustawiona na "computer_use".
Środowisko, w którym wykonywana jest operacja.
Możliwe wartości:
-
browser
Lista wstępnie zdefiniowanych funkcji, które są wykluczone z wywołania modelu.
McpServer
MCPServer to serwer, który może być wywoływany przez model w celu wykonywania działań.
Brak opisu
Zawsze ustawiona na "mcp_server".
Nazwa serwera MCP.
Pełny adres URL punktu końcowego MCPServer. Przykład: „https://api.example.com/mcp”
Opcjonalnie: pola nagłówków uwierzytelniania, limitów czasu itp. (w razie potrzeby).
allowed_tools AllowedTools (opcjonalnie)
dozwolone narzędzia;
Pola
mode ToolChoiceType (opcjonalnie)
Tryb wyboru narzędzia.
Możliwe wartości:
-
auto -
any -
none -
validated
Nazwy dozwolonych narzędzi.
GoogleSearch
Narzędzie, którego model może używać do wyszukiwania w Google.
Brak opisu
Zawsze ustawiona na "google_search".
Rodzaje groundingu z użyciem wyszukiwarki, które chcesz włączyć.
Możliwe wartości:
-
web_search -
image_search -
enterprise_web_search
FileSearch
Narzędzie, którego model może używać do wyszukiwania plików.
Brak opisu
Zawsze ustawiona na "file_search".
Plik wyszukuje nazwy sklepów.
Liczba fragmentów do pobrania w ramach wyszukiwania semantycznego.
Filtr metadanych, który ma być stosowany do dokumentów i fragmentów pobranych semantycznie.
GoogleMaps
Narzędzie, którego model może używać do wywoływania Map Google.
Brak opisu
Zawsze ustawiona na "google_maps".
Określa, czy w wyniku wywołania narzędzia w odpowiedzi ma zostać zwrócony token kontekstu widżetu.
Szerokość geograficzna lokalizacji użytkownika.
Długość geograficzna lokalizacji użytkownika.
Pobieranie
Narzędzie, którego model może używać do pobierania plików.
Brak opisu
Zawsze ustawiona na "retrieval".
Typy pobierania plików do włączenia.
Możliwe wartości:
-
vertex_ai_search
vertex_ai_search_config VertexAISearchConfig (opcjonalnie)
Służy do określania konfiguracji VertexAISearch.
Pola
Opcjonalnie. Służy do określania wyszukiwarki Vertex AI Search.
Opcjonalnie. Służy do określania repozytoriów danych Vertex AI Search.
Przykłady
Funkcja
CodeExecution
UrlContext
ComputerUse
McpServer
GoogleSearch
FileSearch
GoogleMaps
Pobieranie
Brak przykładów tego typu.
Włącz lub wyłącz
Pola
Osoba, która rozpoczęła tę turę. Musi być użytkownikiem w przypadku danych wejściowych lub modelem w przypadku danych wyjściowych modelu.
Brak opisu
Przykłady
Tura użytkownika
{ "role": "user", "content": [ { "type": "text", "text": "user turn" } ] }
Model Turn
{ "role": "model", "content": [ { "type": "text", "text": "model turn" } ] }
InteractionSseEvent
Możliwe typy
Wyróżnik polimorficzny: event_type
InteractionStartEvent
Brak opisu
Zawsze ustawiona na "interaction.start".
Brak opisu
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
InteractionCompleteEvent
Brak opisu
Zawsze ustawiona na "interaction.complete".
Wymagane. Zakończona interakcja z pustymi danymi wyjściowymi w celu zmniejszenia rozmiaru ładunku. Użyj poprzednich zdarzeń ContentDelta, aby uzyskać rzeczywiste dane wyjściowe.
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
InteractionStatusUpdate
Brak opisu
Zawsze ustawiona na "interaction.status_update".
Brak opisu
Brak opisu
Możliwe wartości:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
ContentStart
Brak opisu
Zawsze ustawiona na "content.start".
Brak opisu
Brak opisu
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
ContentDelta
Brak opisu
Zawsze ustawiona na "content.delta".
Brak opisu
delta ContentDeltaData (wymagane)
Brak opisu
Możliwe typy
Wyróżnik polimorficzny: type
TextDelta
Brak opisu
Zawsze ustawiona na "text".
Brak opisu
ImageDelta
Brak opisu
Zawsze ustawiona na "image".
Brak opisu
Brak opisu
Brak opisu
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
AudioDelta
Brak opisu
Zawsze ustawiona na "audio".
Brak opisu
Brak opisu
Brak opisu
Możliwe wartości:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
Częstotliwość próbkowania dźwięku.
Liczba kanałów audio.
DocumentDelta
Brak opisu
Zawsze ustawiona na "document".
Brak opisu
Brak opisu
Brak opisu
Możliwe wartości:
-
application/pdf
VideoDelta
Brak opisu
Zawsze ustawiona na "video".
Brak opisu
Brak opisu
Brak opisu
Możliwe wartości:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
ThoughtSummaryDelta
Brak opisu
Zawsze ustawiona na "thought_summary".
content ThoughtSummaryContent (opcjonalnie)
Nowy element podsumowania do dodania do przemyślenia.
Możliwe typy
Wyróżnik polimorficzny: type
TextContent
Blok treści tekstowych.
Brak opisu
Zawsze ustawiona na "text".
Wymagane. Zawartość tekstowa.
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Wyróżnik polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
ImageContent
Blok treści z obrazem.
Brak opisu
Zawsze ustawiona na "image".
treść obrazu;
Identyfikator URI obrazu.
Typ MIME obrazu.
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high -
ultra_high
ThoughtSignatureDelta
Brak opisu
Zawsze ustawiona na "thought_signature".
Sygnatura dopasowująca źródło backendu, które ma być częścią generowania.
FunctionCallDelta
Brak opisu
Zawsze ustawiona na "function_call".
Brak opisu
Brak opisu
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
CodeExecutionCallDelta
Brak opisu
Zawsze ustawiona na "code_execution_call".
argumenty CodeExecutionCallArguments (wymagane)
Brak opisu
Pola
Język programowania w przypadku elementu „code”.
Możliwe wartości:
-
python
Kod do wykonania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
UrlContextCallDelta
Brak opisu
Zawsze ustawiona na "url_context_call".
arguments UrlContextCallArguments (wymagany)
Brak opisu
Pola
Adresy URL do pobrania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
GoogleSearchCallDelta
Brak opisu
Zawsze ustawiona na "google_search_call".
arguments GoogleSearchCallArguments (wymagany)
Brak opisu
Pola
Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
McpServerToolCallDelta
Brak opisu
Zawsze ustawiona na "mcp_server_tool_call".
Brak opisu
Brak opisu
Brak opisu
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
FileSearchCallDelta
Brak opisu
Zawsze ustawiona na "file_search_call".
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
GoogleMapsCallDelta
Brak opisu
Zawsze ustawiona na "google_maps_call".
arguments GoogleMapsCallArguments (opcjonalnie)
Argumenty do przekazania do narzędzia Mapy Google.
Pola
Zapytania do wykonania.
Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.
Hash podpisu do weryfikacji na backendzie.
FunctionResultDelta
Brak opisu
Zawsze ustawiona na "function_result".
Brak opisu
Brak opisu
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Brak opisu
CodeExecutionResultDelta
Brak opisu
Zawsze ustawiona na "code_execution_result".
Brak opisu
Brak opisu
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
UrlContextResultDelta
Brak opisu
Zawsze ustawiona na "url_context_result".
result UrlContextResult (wymagany)
Brak opisu
Pola
Pobrany adres URL.
Stan pobierania adresu URL.
Możliwe wartości:
-
success -
error -
paywall -
unsafe
Brak opisu
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
GoogleSearchResultDelta
Brak opisu
Zawsze ustawiona na "google_search_result".
result GoogleSearchResult (wymagane)
Brak opisu
Pola
Fragment treści internetowych, który można umieścić na stronie internetowej lub w komponencie WebView aplikacji.
Brak opisu
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
McpServerToolResultDelta
Brak opisu
Zawsze ustawiona na "mcp_server_tool_result".
Brak opisu
Brak opisu
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
Brak opisu
FileSearchResultDelta
Brak opisu
Zawsze ustawiona na "file_search_result".
result FileSearchResult (wymagany)
Brak opisu
Pola
Metadane podane przez użytkownika dotyczące FileSearchResult.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
GoogleMapsResultDelta
Brak opisu
Zawsze ustawiona na "google_maps_result".
result GoogleMapsResult (opcjonalnie)
Wyniki z Map Google.
Pola
places Places (opcjonalnie)
znalezione miejsca;
Pola
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Nazwa zasobu tokena kontekstu widżetu Map Google.
Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.
Hash podpisu do weryfikacji na backendzie.
TextAnnotationDelta
Brak opisu
Zawsze ustawiona na "text_annotation".
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Możliwe typy
Wyróżnik polimorficzny: type
UrlCitation
Adnotacja z cytatem adresu URL.
Brak opisu
Zawsze ustawiona na "url_citation".
Adres URL.
Tytuł adresu URL.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
FileCitation
Adnotacja z cytatem z pliku.
Brak opisu
Zawsze ustawiona na "file_citation".
Identyfikator URI pliku.
Nazwa pliku.
Źródło przypisane do fragmentu tekstu.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
PlaceCitation
Adnotacja cytatu miejsca.
Brak opisu
Zawsze ustawiona na "place_citation".
Identyfikator miejsca w formacie `places/{place_id}`.
Nazwa miejsca.
Odwołanie do identyfikatora URI miejsca.
review_snippets ReviewSnippet (opcjonalnie)
fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;
Pola
Tytuł opinii.
Link do opinii użytkownika w Mapach Google.
Identyfikator fragmentu opinii.
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
ContentStop
Brak opisu
Zawsze ustawiona na "content.stop".
Brak opisu
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
ErrorEvent
Brak opisu
Zawsze ustawiona na "error".
error Error (opcjonalnie)
Brak opisu
Pola
Identyfikator URI określający typ błędu.
Zrozumiały dla człowieka komunikat o błędzie.
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
Przykłady
Początek interakcji
{ "event_type": "interaction.start", "interaction": { "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-3-flash-preview", "object": "interaction", "status": "in_progress" } }
Zakończono interakcję
{ "event_type": "interaction.complete", "interaction": { "created": "2025-12-09T18:45:40Z", "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-3-flash-preview", "object": "interaction", "role": "model", "status": "completed", "updated": "2025-12-09T18:45:40Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 11 } ], "total_cached_tokens": 0, "total_input_tokens": 11, "total_output_tokens": 364, "total_thought_tokens": 1120, "total_tokens": 1495, "total_tool_use_tokens": 0 } } }
Aktualizacja stanu interakcji
{ "event_type": "interaction.status_update", "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "status": "in_progress" }
Początek treści
{ "event_type": "content.start", "content": { "type": "text" }, "index": 1 }
Delta treści
{ "event_type": "content.delta", "delta": { "type": "text", "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save" }, "index": 1 }
Zatrzymanie treści
{ "event_type": "content.stop", "index": 1 }
Zdarzenie błędu
{ "event_type": "error", "error": { "message": "Failed to get completed interaction: Result not found.", "code": "not_found" } }