Gemini Interactions API to eksperymentalny interfejs API, który umożliwia programistom tworzenie aplikacji generatywnej AI z użyciem modeli Gemini. Gemini to nasz najbardziej zaawansowany model, który od podstaw został zaprojektowany jako multimodalny. Potrafi uogólniać i z łatwością rozumieć, przetwarzać i łączyć różne typy informacji, w tym język, obrazy, dźwięki, filmy i kod. Interfejsu Gemini API możesz używać w przypadku takich zastosowań jak wnioskowanie na podstawie tekstu i obrazów, generowanie treści, agenty dialogowe, systemy podsumowywania i klasyfikacji oraz wiele innych.
Tworzenie interakcji
Tworzy nową interakcję.
Treść żądania
Treść żądania zawiera dane o następującej strukturze:
model ModelOption (opcjonalnie)
Nazwa modelu użytego do wygenerowania interakcji.
Wymagany, jeśli nie podano parametru „agent”.
Możliwe wartości:
-
gemini-2.5-proNasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.
-
gemini-2.5-flashNasz pierwszy hybrydowy model rozumujący, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.
-
gemini-2.5-flash-preview-09-2025Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku zastosowań związanych z agentami.
-
gemini-2.5-flash-liteNasz najmniejszy i najbardziej ekonomiczny model stworzony do użytku na dużą skalę.
-
gemini-2.5-flash-lite-preview-09-2025Najnowszy model oparty na Gemini 2.5 Flash lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i jakości.
-
gemini-2.5-flash-preview-native-audio-dialogNasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.
-
gemini-2.5-flash-image-previewNasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Ceny za wprowadzanie i wyświetlanie tekstu są takie same jak w przypadku 2,5 flopa.
-
gemini-2.5-pro-preview-ttsNasz model audio 2.5 Pro do zamiany tekstu na mowę jest zoptymalizowany pod kątem generowania mowy o dużej mocy i krótkim czasie oczekiwania, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.
-
gemini-3-pro-previewNasz najbardziej inteligentny model z najnowocześniejszymi funkcjami w zakresie rozumowania i rozpoznawania multimodalnego oraz zaawansowanymi funkcjami agentowymi i vibe codingu.
agent AgentOption (opcjonalnie)
Nazwa „agenta” użytego do wygenerowania interakcji.
Wymagany, jeśli nie podano wartości „model”.
Możliwe wartości:
-
deep-research-pro-preview-12-2025Agent Deep Research w Gemini
Dane wejściowe interakcji (wspólne dla modelu i agenta).
Instrukcja systemowa dotycząca interakcji.
Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.
Wymaga, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.
Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.
Tylko dane wejściowe. Czy interakcja będzie przesyłana strumieniowo.
Tylko dane wejściowe. Określa, czy odpowiedź i żądanie mają być przechowywane do późniejszego pobrania.
Określa, czy interakcja z modelem ma być przeprowadzana w tle.
generation_config GenerationConfig (opcjonalnie)
Konfiguracja modelu
Parametry konfiguracji interakcji z modelem.
Alternatywa dla parametru `agent_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest parametr `model`.
Pola
Określa losowość danych wyjściowych.
Maksymalne skumulowane prawdopodobieństwo tokenów, które należy wziąć pod uwagę podczas próbkowania.
Wartość początkowa używana podczas dekodowania w celu zapewnienia powtarzalności.
Lista ciągów znaków, które zatrzymają interakcję z wyjściem.
tool_choice ToolChoice (opcjonalnie)
Narzędzie wybrane do interakcji.
Możliwe typy
ToolChoiceType
Ten typ nie ma żadnych konkretnych pól.
ToolChoiceConfig
allowed_tools AllowedTools (opcjonalnie)
Brak opisu
Pola
mode ToolChoiceType (opcjonalnie)
Tryb wyboru narzędzia.
Możliwe wartości:
-
auto -
any -
none -
validated
Nazwy dozwolonych narzędzi.
thinking_level ThinkingLevel (opcjonalnie)
Poziom tokenów myśli, które ma wygenerować model.
Możliwe wartości:
-
low -
high
thinking_summaries ThinkingSummaries (opcjonalnie)
Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.
Możliwe wartości:
-
auto -
none
Maksymalna liczba tokenów do uwzględnienia w odpowiedzi.
speech_config SpeechConfig (opcjonalnie)
Konfiguracja interakcji głosowej.
Pola
głos rozmówcy,
Język mowy.
Imię i nazwisko osoby mówiącej, które powinno być zgodne z imieniem i nazwiskiem podanym w promcie.
agent_config object (opcjonalnie)
Konfiguracja agenta
Konfiguracja agenta.
Alternatywa dla atrybutu `generation_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest atrybut `agent`.
Możliwe typy
Dyskryminator polimorficzny: type
DynamicAgentConfig
Konfiguracja agentów dynamicznych.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "dynamic".
DeepResearchAgentConfig
Konfiguracja agenta Deep Research.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "deep-research".
thinking_summaries ThinkingSummaries (opcjonalnie)
Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.
Możliwe wartości:
-
auto -
none
Identyfikator poprzedniej interakcji (jeśli wystąpiła).
response_modalities ResponseModality (opcjonalnie)
Rodzaje odpowiedzi (TEXT, IMAGE, AUDIO).
Możliwe wartości:
-
text -
image -
audio
Odpowiedź
Zwraca zasób Interaction.
Proste żądanie
Przykładowa odpowiedź
{ "created": "2025-11-26T12:25:15Z", "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-11-26T12:25:15Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 20, "total_reasoning_tokens": 22, "total_tokens": 49, "total_tool_use_tokens": 0 } }
Wieloetapowe
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "The capital of France is Paris." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 50 } ], "total_cached_tokens": 0, "total_input_tokens": 50, "total_output_tokens": 10, "total_reasoning_tokens": 0, "total_tokens": 60, "total_tool_use_tokens": 0 } }
Wprowadzanie obrazu
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 10 }, { "modality": "image", "tokens": 258 } ], "total_cached_tokens": 0, "total_input_tokens": 268, "total_output_tokens": 20, "total_reasoning_tokens": 0, "total_tokens": 288, "total_tool_use_tokens": 0 } }
Wywoływanie funkcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "requires_action", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "function_call", "function_call": { "name": "get_weather", "arguments": { "location": "Boston, MA" } } } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 100 } ], "total_cached_tokens": 0, "total_input_tokens": 100, "total_output_tokens": 25, "total_reasoning_tokens": 0, "total_tokens": 125, "total_tool_use_tokens": 50 } }
Deep Research
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "completed", "object": "interaction", "created": "2025-11-26T12:22:47Z", "updated": "2025-11-26T12:22:47Z", "role": "model", "outputs": [ { "type": "text", "text": "Here is a comprehensive research report on the current state of cancer research..." } ], "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 20 } ], "total_cached_tokens": 0, "total_input_tokens": 20, "total_output_tokens": 1000, "total_reasoning_tokens": 500, "total_tokens": 1520, "total_tool_use_tokens": 0 } }
Pobieranie interakcji
Pobiera pełne szczegóły pojedynczej interakcji na podstawie jej identyfikatora `Interaction.id`.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do pobrania.
Jeśli ma wartość Prawda, wygenerowana treść będzie przesyłana strumieniowo przyrostowo.
Domyślna wartość: False
Opcjonalnie: Jeśli ta opcja jest ustawiona, strumień interakcji jest wznawiany od następnego fragmentu po zdarzeniu oznaczonym identyfikatorem zdarzenia. Można jej używać tylko wtedy, gdy wartość parametru „stream” to „true”.
Której wersji interfejsu API używać.
Odpowiedź
Zwraca zasób Interaction.
Pobieranie interakcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "model": "gemini-2.5-flash", "status": "completed", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model", "outputs": [ { "type": "text", "text": "I'm doing great, thank you for asking! How can I help you today?" } ] }
Usuwanie interakcji
Usuwa interakcję według identyfikatora.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do usunięcia.
Której wersji interfejsu API używać.
Odpowiedź
Jeśli operacja się uda, odpowiedź będzie pusta.
Usuwanie interakcji
Anulowanie interakcji
Anuluje interakcję według identyfikatora. Dotyczy to tylko interakcji w tle, które są nadal aktywne.
Parametry ścieżki lub zapytania
Unikalny identyfikator interakcji do pobrania.
Której wersji interfejsu API używać.
Odpowiedź
Zwraca zasób Interaction.
Anulowanie interakcji
Przykładowa odpowiedź
{ "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg", "agent": "deep-research-pro-preview-12-2025", "status": "cancelled", "object": "interaction", "created": "2025-11-26T12:25:15Z", "updated": "2025-11-26T12:25:15Z", "role": "model" }
Zasoby
Interakcja
Zasób Interaction.
Pola
model ModelOption (opcjonalnie)
Nazwa modelu użytego do wygenerowania interakcji.
Możliwe wartości:
-
gemini-2.5-proNasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.
-
gemini-2.5-flashNasz pierwszy hybrydowy model rozumujący, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.
-
gemini-2.5-flash-preview-09-2025Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku zastosowań związanych z agentami.
-
gemini-2.5-flash-liteNasz najmniejszy i najbardziej ekonomiczny model stworzony do użytku na dużą skalę.
-
gemini-2.5-flash-lite-preview-09-2025Najnowszy model oparty na Gemini 2.5 Flash lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i jakości.
-
gemini-2.5-flash-preview-native-audio-dialogNasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.
-
gemini-2.5-flash-image-previewNasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Ceny za wprowadzanie i wyświetlanie tekstu są takie same jak w przypadku 2,5 flopa.
-
gemini-2.5-pro-preview-ttsNasz model audio 2.5 Pro do zamiany tekstu na mowę jest zoptymalizowany pod kątem generowania mowy o dużej mocy i krótkim czasie oczekiwania, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.
-
gemini-3-pro-previewNasz najbardziej inteligentny model z najnowocześniejszymi funkcjami w zakresie rozumowania i rozpoznawania multimodalnego oraz zaawansowanymi funkcjami agentowymi i vibe codingu.
agent AgentOption (opcjonalnie)
Nazwa „agenta” użytego do wygenerowania interakcji.
Możliwe wartości:
-
deep-research-pro-preview-12-2025Agent Deep Research w Gemini
Tylko dane wyjściowe. Unikalny identyfikator zakończenia interakcji.
Tylko dane wyjściowe. Stan interakcji.
Możliwe wartości:
-
in_progress -
requires_action -
completed -
failed -
cancelled
Tylko dane wyjściowe. Czas utworzenia odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).
Tylko dane wyjściowe. Czas ostatniej aktualizacji odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).
Tylko dane wyjściowe. Rola interakcji.
Tylko dane wyjściowe. Odpowiedzi modelu.
Tylko dane wyjściowe. Typ obiektu interakcji. Zawsze ustawiona na wartość „interaction”.
Zawsze ustawiona na "interaction".
usage Usage (opcjonalnie)
Tylko dane wyjściowe. Statystyki wykorzystania tokenów w żądaniu interakcji.
Pola
Liczba tokenów w prompcie (kontekście).
input_tokens_by_modality ModalityTokens (opcjonalnie)
Szczegółowe informacje o wykorzystaniu tokenów wejściowych według rodzaju danych.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów w części promptu zapisanej w pamięci podręcznej (treści w pamięci podręcznej).
cached_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów w pamięci podręcznej według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio
Liczba tokenów dla danego rodzaju danych.
Łączna liczba tokenów we wszystkich wygenerowanych odpowiedziach.
output_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów wyjściowych według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów w promptach dotyczących korzystania z narzędzi.
tool_use_tokens_by_modality ModalityTokens (opcjonalnie)
Zestawienie wykorzystania tokenów narzędzi według rodzaju.
Pola
modality ResponseModality (opcjonalnie)
Rodzaj powiązany z liczbą tokenów.
Możliwe wartości:
-
text -
image -
audio
Liczba tokenów dla danego rodzaju danych.
Liczba tokenów myśli w przypadku modeli myślenia.
Łączna liczba tokenów w żądaniu interakcji (prompt + odpowiedzi + inne tokeny wewnętrzne).
Identyfikator poprzedniej interakcji (jeśli wystąpiła).
Przykłady
Przykład
{ "created": "2025-12-04T15:01:45Z", "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-04T15:01:45Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 7 } ], "total_cached_tokens": 0, "total_input_tokens": 7, "total_output_tokens": 23, "total_reasoning_tokens": 49, "total_tokens": 79, "total_tool_use_tokens": 0 } }
Modele danych
Treść
Treść odpowiedzi.
Możliwe typy
Dyskryminator polimorficzny: type
TextContent
Blok treści tekstowych.
Zawartość tekstowa.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "text".
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Pola
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
Źródło przypisane do fragmentu tekstu. Może to być adres URL, tytuł lub inny identyfikator.
ImageContent
Blok treści z obrazem.
Brak opisu
Brak opisu
mime_type ImageMimeTypeOption (opcjonalny)
Brak opisu
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "image".
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high
AudioContent
Blok treści audio.
Brak opisu
Brak opisu
mime_type AudioMimeTypeOption (opcjonalnie)
Brak opisu
Możliwe wartości:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "audio".
DocumentContent
Blok treści dokumentu.
Brak opisu
Brak opisu
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "document".
VideoContent
Blok treści wideo.
Brak opisu
Brak opisu
mime_type VideoMimeTypeOption (opcjonalnie)
Brak opisu
Możliwe wartości:
-
video/mp4 -
video/mpeg -
video/mov -
video/avi -
video/x-flv -
video/mpg -
video/webm -
video/wmv -
video/3gpp
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "video".
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high
ThoughtContent
Blok treści z przemyśleniami.
Sygnatura dopasowująca źródło backendu, które ma być częścią generowania.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "thought".
summary ThoughtSummary (opcjonalny)
podsumowanie myśli,
FunctionCallContent
Blok treści wywołania narzędzia funkcji.
Nazwa narzędzia do wywołania.
Argumenty, które mają zostać przekazane do funkcji.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "function_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
FunctionResultContent
Blok treści z wynikiem narzędzia funkcji.
Nazwa wywołanego narzędzia.
Informacja, czy wywołanie narzędzia spowodowało błąd.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "function_result".
Wynik wywołania narzędzia.
Identyfikator, który ma być zgodny z identyfikatorem z bloku wywołania funkcji.
CodeExecutionCallContent
Treści dotyczące wykonywania kodu.
argumenty CodeExecutionCallArguments (opcjonalnie)
Argumenty do przekazania do wykonania kodu.
Pola
Język programowania kodu.
Możliwe wartości:
-
python
Kod do wykonania.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "code_execution_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
CodeExecutionResultContent
Treść wyniku wykonania kodu.
wynik wykonania kodu.
Czy podczas wykonywania kodu wystąpił błąd.
Hash podpisu do weryfikacji na backendzie.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "code_execution_result".
Identyfikator musi być zgodny z identyfikatorem z bloku wywołania wykonania kodu.
UrlContextCallContent
Zawartość kontekstu adresu URL.
arguments UrlContextCallArguments (opcjonalnie)
Argumenty do przekazania do kontekstu adresu URL.
Pola
Adresy URL do pobrania.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "url_context_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
UrlContextResultContent
Treść wyniku kontekstowego adresu URL.
Sygnatura wyniku kontekstu adresu URL.
result UrlContextResult (opcjonalny)
Wyniki kontekstu adresu URL.
Pola
Pobrany adres URL.
Stan pobierania adresu URL.
Możliwe wartości:
-
success -
error -
paywall -
unsafe
Czy kontekst adresu URL spowodował błąd.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "url_context_result".
Identyfikator musi być zgodny z identyfikatorem z bloku wywołania kontekstu adresu URL.
GoogleSearchCallContent
treści w wyszukiwarce Google,
arguments GoogleSearchCallArguments (opcjonalnie)
Argumenty do przekazania do wyszukiwarki Google.
Pola
Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "google_search_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
GoogleSearchResultContent
treści wyników wyszukiwania Google;
Podpis wyniku wyszukiwania Google.
result GoogleSearchResult (opcjonalny)
wyniki wyszukiwania w Google.
Pola
Odwołanie do identyfikatora URI wyniku wyszukiwania.
Tytuł wyniku wyszukiwania.
Fragment treści internetowych, który można umieścić na stronie internetowej lub w widoku internetowym aplikacji.
Określa, czy wyszukiwanie w Google zakończyło się błędem.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "google_search_result".
Identyfikator musi być zgodny z identyfikatorem z blokady połączeń w wyszukiwarce Google.
McpServerToolCallContent
Treść wywołania narzędzia MCPServer.
Nazwa wywołanego narzędzia.
Nazwa używanego serwera MCP.
Obiekt JSON z argumentami funkcji.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "mcp_server_tool_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
McpServerToolResultContent
Treść wyniku narzędzia MCPServer.
Nazwa narzędzia, które jest wywoływane w przypadku tego konkretnego wywołania narzędzia.
Nazwa używanego serwera MCP.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "mcp_server_tool_result".
Wynik wywołania narzędzia.
Identyfikator pasujący do identyfikatora z bloku wywołania narzędzia serwera MCP.
FileSearchResultContent
Zawartość wyniku wyszukiwania plików.
result FileSearchResult (opcjonalnie)
wyniki wyszukiwania plików,
Pola
Tytuł wyniku wyszukiwania.
Tekst wyniku wyszukiwania.
Nazwa sklepu wyszukiwania plików.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "file_search_result".
Przykłady
Tekst
{ "type": "text", "text": "Hello, how are you?" }
Obraz
{ "type": "image", "data": "BASE64_ENCODED_IMAGE", "mime_type": "image/png" }
Audio
{ "type": "audio", "data": "BASE64_ENCODED_AUDIO", "mime_type": "audio/wav" }
Dokument
{ "type": "document", "data": "BASE64_ENCODED_DOCUMENT", "mime_type": "application/pdf" }
Wideo
{ "type": "video", "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg" }
Myślenie
{ "type": "thought", "summary": [ { "type": "text", "text": "The user is asking about the weather. I should use the get_weather tool." } ], "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh" }
Połączenie z funkcją
{ "type": "function_call", "name": "get_weather", "id": "gth23981", "arguments": { "location": "Boston, MA" } }
Wynik funkcji
{ "type": "function_result", "name": "get_weather", "call_id": "gth23981", "result": { "weather": "sunny" } }
Wywołanie wykonania kodu
{ "type": "code_execution_call", "id": "call_123456", "arguments": { "language": "python", "code": "print('hello world')" } }
Wynik wykonania kodu
{ "type": "code_execution_result", "call_id": "call_123456", "result": "hello world\n" }
Wywołanie kontekstu adresu URL
{ "type": "url_context_call", "id": "call_123456", "arguments": { "urls": [ "https://www.example.com" ] } }
Wynik kontekstu adresu URL
{ "type": "url_context_result", "call_id": "call_123456", "result": [ { "url": "https://www.example.com", "status": "SUCCESS" } ] }
Połączenie z wyszukiwarki Google
{ "type": "google_search_call", "id": "call_123456", "arguments": { "queries": [ "weather in Boston" ] } }
Wynik wyszukiwania Google
{ "type": "google_search_result", "call_id": "call_123456", "result": [ { "url": "https://www.google.com/search?q=weather+in+Boston", "title": "Weather in Boston" } ] }
Wywołanie narzędzia serwera MCP
{ "type": "mcp_server_tool_call", "id": "call_123456", "name": "get_forecast", "server_name": "weather_server", "arguments": { "city": "London" } }
Wynik narzędzia serwera MCP
{ "type": "mcp_server_tool_result", "name": "get_forecast", "server_name": "weather_server", "call_id": "call_123456", "result": "sunny" }
Wynik wyszukiwania pliku
{ "type": "file_search_result", "result": [ { "text": "search result chunk", "file_search_store": "file_search_store" } ] }
Narzędzie
Możliwe typy
Dyskryminator polimorficzny: type
Funkcja
Narzędzie, z którego może korzystać model.
Nazwa funkcji.
Opis funkcji.
Schemat JSON parametrów funkcji.
Brak opisu
Zawsze ustawiona na "function".
GoogleSearch
Narzędzie, którego model może używać do wyszukiwania w Google.
Brak opisu
Zawsze ustawiona na "google_search".
CodeExecution
Narzędzie, którego model może używać do wykonywania kodu.
Brak opisu
Zawsze ustawiona na "code_execution".
UrlContext
Narzędzie, którego model może używać do pobierania kontekstu adresu URL.
Brak opisu
Zawsze ustawiona na "url_context".
ComputerUse
Narzędzie, którego model może używać do interakcji z komputerem.
Brak opisu
Zawsze ustawiona na "computer_use".
środowisko, w którym działa usługa;
Możliwe wartości:
-
browser
Lista wstępnie zdefiniowanych funkcji, które są wykluczone z wywołania modelu.
McpServer
MCPServer to serwer, do którego model może się odwoływać w celu wykonywania działań.
Brak opisu
Zawsze ustawiona na "mcp_server".
Nazwa serwera MCP.
Pełny adres URL punktu końcowego serwera MCP. Przykład: „https://api.example.com/mcp”
Opcjonalnie: pola nagłówków uwierzytelniania, limitów czasu itp. (w razie potrzeby).
allowed_tools AllowedTools (opcjonalnie)
dozwolone narzędzia;
Pola
mode ToolChoiceType (opcjonalnie)
Tryb wyboru narzędzia.
Możliwe wartości:
-
auto -
any -
none -
validated
Nazwy dozwolonych narzędzi.
FileSearch
Narzędzie, którego model może używać do wyszukiwania plików.
Plik wyszukuje nazwy sklepów.
Liczba fragmentów do pobrania w ramach wyszukiwania semantycznego.
Filtr metadanych, który ma być stosowany do dokumentów i fragmentów pobieranych semantycznie.
Brak opisu
Zawsze ustawiona na "file_search".
Przykłady
Funkcja
GoogleSearch
CodeExecution
UrlContext
ComputerUse
McpServer
FileSearch
Włącz lub wyłącz
Pola
Inicjator tej tury. Musi być użytkownikiem w przypadku danych wejściowych lub modelem w przypadku danych wyjściowych modelu.
Treść wypowiedzi.
Przykłady
Tura użytkownika
{ "role": "user", "content": [ { "type": "text", "text": "user turn" } ] }
Model Turn
{ "role": "model", "content": [ { "type": "text", "text": "model turn" } ] }
InteractionSseEvent
Możliwe typy
Dyskryminator polimorficzny: event_type
InteractionEvent
Brak opisu
Możliwe wartości:
-
interaction.start -
interaction.complete
Brak opisu
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
InteractionStatusUpdate
Brak opisu
Brak opisu
Możliwe wartości:
-
in_progress -
requires_action -
completed -
failed -
cancelled
Brak opisu
Zawsze ustawiona na "interaction.status_update".
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
ContentStart
Brak opisu
Brak opisu
Brak opisu
Zawsze ustawiona na "content.start".
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
ContentDelta
Brak opisu
Brak opisu
Zawsze ustawiona na "content.delta".
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
delta object (opcjonalnie)
Brak opisu
Możliwe typy
Wyróżnik polimorficzny: type
TextDelta
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "text".
adnotacje Adnotacja (opcjonalnie)
Informacje o cytowaniu treści wygenerowanych przez model.
Pola
Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).
Koniec przypisanego segmentu (wyłącznie).
Źródło przypisane do fragmentu tekstu. Może to być adres URL, tytuł lub inny identyfikator.
ImageDelta
Brak opisu
Brak opisu
mime_type ImageMimeTypeOption (opcjonalny)
Brak opisu
Możliwe wartości:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "image".
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high
AudioDelta
Brak opisu
Brak opisu
mime_type AudioMimeTypeOption (opcjonalnie)
Brak opisu
Możliwe wartości:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "audio".
DocumentDelta
Brak opisu
Brak opisu
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "document".
VideoDelta
Brak opisu
Brak opisu
mime_type VideoMimeTypeOption (opcjonalnie)
Brak opisu
Możliwe wartości:
-
video/mp4 -
video/mpeg -
video/mov -
video/avi -
video/x-flv -
video/mpg -
video/webm -
video/wmv -
video/3gpp
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "video".
resolution MediaResolution (opcjonalny)
Rozdzielczość multimediów.
Możliwe wartości:
-
low -
medium -
high
ThoughtSummaryDelta
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "thought_summary".
Brak opisu
ThoughtSignatureDelta
Sygnatura dopasowująca źródło backendu, które ma być częścią generowania.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "thought_signature".
FunctionCallDelta
Brak opisu
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "function_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
FunctionResultDelta
Brak opisu
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "function_result".
Delta wyniku wywołania narzędzia.
Identyfikator, który ma być zgodny z identyfikatorem z bloku wywołania funkcji.
CodeExecutionCallDelta
argumenty CodeExecutionCallArguments (opcjonalnie)
Brak opisu
Pola
Język programowania kodu.
Możliwe wartości:
-
python
Kod do wykonania.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "code_execution_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
CodeExecutionResultDelta
Brak opisu
Brak opisu
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "code_execution_result".
Identyfikator, który ma być zgodny z identyfikatorem z bloku wywołania funkcji.
UrlContextCallDelta
arguments UrlContextCallArguments (opcjonalnie)
Brak opisu
Pola
Adresy URL do pobrania.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "url_context_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
UrlContextResultDelta
Brak opisu
result UrlContextResult (opcjonalny)
Brak opisu
Pola
Pobrany adres URL.
Stan pobierania adresu URL.
Możliwe wartości:
-
success -
error -
paywall -
unsafe
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "url_context_result".
Identyfikator, który ma być zgodny z identyfikatorem z bloku wywołania funkcji.
GoogleSearchCallDelta
arguments GoogleSearchCallArguments (opcjonalnie)
Brak opisu
Pola
Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "google_search_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
GoogleSearchResultDelta
Brak opisu
result GoogleSearchResult (opcjonalny)
Brak opisu
Pola
Odwołanie do identyfikatora URI wyniku wyszukiwania.
Tytuł wyniku wyszukiwania.
Fragment treści internetowych, który można umieścić na stronie internetowej lub w widoku internetowym aplikacji.
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "google_search_result".
Identyfikator, który ma być zgodny z identyfikatorem z bloku wywołania funkcji.
McpServerToolCallDelta
Brak opisu
Brak opisu
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "mcp_server_tool_call".
Unikalny identyfikator tego konkretnego wywołania narzędzia.
McpServerToolResultDelta
Brak opisu
Brak opisu
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "mcp_server_tool_result".
Delta wyniku wywołania narzędzia.
Identyfikator, który ma być zgodny z identyfikatorem z bloku wywołania funkcji.
FileSearchResultDelta
result FileSearchResult (opcjonalnie)
Brak opisu
Pola
Tytuł wyniku wyszukiwania.
Tekst wyniku wyszukiwania.
Nazwa sklepu wyszukiwania plików.
Używany jako dyskryminator typu OpenAPI dla treści oneof.
Zawsze ustawiona na "file_search_result".
ContentStop
Brak opisu
Brak opisu
Zawsze ustawiona na "content.stop".
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
ErrorEvent
Brak opisu
Zawsze ustawiona na "error".
error Error (opcjonalnie)
Brak opisu
Pola
Identyfikator URI określający typ błędu.
Komunikat o błędzie zrozumiały dla człowieka.
Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.
Przykłady
Rozpoczęcie interakcji
{ "event_type": "interaction.start", "interaction": { "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-2.5-flash", "object": "interaction", "status": "in_progress" } }
Zakończono interakcję
{ "event_type": "interaction.complete", "interaction": { "created": "2025-12-09T18:45:40Z", "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "model": "gemini-2.5-flash", "object": "interaction", "outputs": [ { "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh", "type": "thought" }, { "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save", "type": "text" }, { "text": " for one beloved anomaly: a chipped porcelain teacup, inherited from her grandmother, which held her morning Earl Grey.\n\nOne Tuesday, stirring her tea, Elara paused. At the bottom, nestled against the porcelain, was a star.", "type": "text" }, { "text": " Not a star-shaped tea leaf, but a miniature, perfectly formed celestial body, radiating a faint, cool luminescence. Before she could gasp, it dissolved, leaving only the amber swirl of her brew. She dismissed it as a trick of", "type": "text" }, { "text": " tired eyes.\n\nBut the next morning, a gossamer-thin feather, smaller than an eyelash and shimmering with iridescent hues, floated on the surface. It vanished the moment she tried to touch it. A week later, a single,", "type": "text" }, { "text": " impossibly delicate bloom, like spun moonbeam, unfolded in her cup before fading into nothingness.\n\nThese weren't illusions. Each day, Elara\u2019s chipped teacup offered a fleeting, exquisite secret. A tiny, perfect", "type": "text" }, { "text": " crystal, a miniature spiral nebula, a fragment of rainbow caught in liquid form. They never lingered, never accumulated, simply *were* and then *weren't*, leaving behind a residue of quiet wonder.\n\nElara never spoke", "type": "text" }, { "text": " of it. It was her private wellspring, a daily reminder that magic could exist in the smallest, most overlooked corners of the world. Her routine remained unchanged, her external life a picture of calm, but inside, a secret garden blo", "type": "text" }, { "text": "omed. Each dawn brought not just tea, but the silent promise of extraordinary beauty, waiting patiently in a chipped teacup.", "type": "text" } ], "role": "model", "status": "completed", "updated": "2025-12-09T18:45:40Z", "usage": { "input_tokens_by_modality": [ { "modality": "text", "tokens": 11 } ], "total_cached_tokens": 0, "total_input_tokens": 11, "total_output_tokens": 364, "total_reasoning_tokens": 1120, "total_tokens": 1495, "total_tool_use_tokens": 0 } } }
Aktualizacja stanu interakcji
{ "event_type": "interaction.status_update", "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "status": "in_progress" }
Początek treści
{ "event_type": "content.start", "content": { "type": "text" }, "index": 1 }
Zmiana treści
{ "event_type": "content.delta", "delta": { "type": "text", "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save" }, "index": 1 }
Zatrzymanie treści
{ "event_type": "content.stop", "index": 1 }
Zdarzenie błędu
{ "event_type": "error", "error": { "message": "Failed to get completed interaction: Result not found.", "code": "not_found" } }