Gemini API

Gemini Interactions API to eksperymentalny interfejs API, który umożliwia programistom tworzenie aplikacji generatywnej AI z użyciem modeli Gemini. Gemini to nasz najbardziej zaawansowany model, który od podstaw został zaprojektowany jako multimodalny. Potrafi uogólniać i z łatwością rozumieć, przetwarzać i łączyć różne typy informacji, w tym język, obrazy, dźwięki, filmy i kod. Interfejsu Gemini API możesz używać w przypadku takich zastosowań jak rozumowanie na podstawie tekstu i obrazów, generowanie treści, agenty dialogowe, systemy podsumowywania i klasyfikacji oraz wiele innych.

Tworzenie interakcji

post https://generativelanguage.googleapis.com/v1beta/interactions

Tworzy nową interakcję.

Treść żądania

Treść żądania zawiera dane o następującej strukturze:

model ModelOption  (opcjonalnie)

Nazwa modelu użytego do wygenerowania interakcji.
Wymagane, jeśli nie podano parametru „agent”.

Możliwe wartości:

  • gemini-2.5-flash

    Nasz pierwszy hybrydowy model rozumowania, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.

  • gemini-2.5-flash-image

    Nasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Cena za wprowadzanie i wyświetlanie tekstu jest taka sama jak w przypadku 2,5 Flasha.

  • gemini-2.5-flash-lite

    Nasz najmniejszy i najbardziej ekonomiczny model stworzony do użytku na dużą skalę.

  • gemini-2.5-flash-lite-preview-09-2025

    Najnowszy model oparty na Gemini 2.5 Flash Lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i wysokiej jakości.

  • gemini-2.5-flash-native-audio-preview-12-2025

    Nasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.

  • gemini-2.5-flash-preview-09-2025

    Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku zastosowań związanych z agentami.

  • gemini-2.5-flash-preview-tts

    Nasz model zamiany tekstu na mowę 2.5 Flash zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania.

  • gemini-2.5-pro

    Nasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.

  • gemini-2.5-pro-preview-tts

    Nasz model audio 2.5 Pro do zamiany tekstu na mowę zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.

  • gemini-3-flash-preview

    Nasz najbardziej inteligentny model stworzony z myślą o szybkości działania, który łączy pionierską inteligencję z doskonałym wyszukiwaniem i oparcie na faktach.

  • gemini-3-pro-image-preview

    Najnowocześniejszy model do generowania i edytowania obrazów.

  • gemini-3-pro-preview

    Nasz najbardziej inteligentny model z najnowocześniejszymi funkcjami rozumowania i rozpoznawania multimodalnego oraz zaawansowanymi funkcjami agentowymi i vibe codingu.

  • gemini-3.1-pro-preview

    Nasz najnowszy model rozumowania SOTA o niespotykanej głębi i niuansach oraz zaawansowanych funkcjach rozpoznawania multimodalnego i kodowania.

  • gemini-3.1-flash-image-preview

    Profesjonalna inteligencja wizualna z błyskawiczną wydajnością i możliwością generowania realistycznych treści.

Model, który uzupełni prompta.\n\nWięcej informacji znajdziesz w sekcji [modele](https://ai.google.dev/gemini-api/docs/models).

agent AgentOption  (opcjonalnie)

Nazwa agenta użytego do wygenerowania interakcji.
Wymagany, jeśli nie podano wartości „model”.

Możliwe wartości:

  • deep-research-pro-preview-12-2025

    Agent Deep Research w Gemini

Agent, z którym chcesz wejść w interakcję.

input Content lub tablica (Content) lub tablica (Turn) lub ciąg znaków  (wymagany)

Dane wejściowe interakcji (wspólne dla modelu i agenta).

system_instruction ciąg  (opcjonalny)

Instrukcja systemowa dotycząca interakcji.

tools tablica (Tool)  (opcjonalnie)

Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.

response_format object  (opcjonalny)

Wymaga, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.

response_mime_type ciąg  (opcjonalnie)

Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.

stream wartość logiczna  (opcjonalnie)

Tylko dane wejściowe. Czy interakcja będzie transmitowana strumieniowo.

store wartość logiczna  (opcjonalnie)

Tylko dane wejściowe. Określa, czy odpowiedź i żądanie mają być przechowywane do późniejszego pobrania.

background wartość logiczna  (opcjonalnie)

Tylko dane wejściowe. Określa, czy interakcja z modelem ma być przeprowadzana w tle.

generation_config GenerationConfig  (opcjonalnie)

Konfiguracja modelu
Parametry konfiguracji interakcji z modelem.
Alternatywa dla parametru `agent_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest parametr `model`.

Parametry konfiguracji interakcji z modelem.

Pola

temperature number  (opcjonalny)

Określa losowość danych wyjściowych.

top_p liczba  (opcjonalnie)

Maksymalne skumulowane prawdopodobieństwo tokenów, które należy wziąć pod uwagę podczas próbkowania.

seed liczba całkowita  (opcjonalnie)

Wartość początkowa używana podczas dekodowania w celu zapewnienia powtarzalności.

stop_sequences tablica (ciąg znaków)  (opcjonalnie)

Lista sekwencji znaków, które zatrzymają interakcję z wyjściem.

thinking_level ThinkingLevel  (opcjonalnie)

Poziom tokenów myśli, które ma generować model.

Możliwe wartości:

  • minimal
  • low
  • medium
  • high

thinking_summaries ThinkingSummaries  (opcjonalnie)

Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.

Możliwe wartości:

  • auto
  • none

max_output_tokens liczba całkowita  (opcjonalnie)

Maksymalna liczba tokenów do uwzględnienia w odpowiedzi.

speech_config SpeechConfig  (optional)

Konfiguracja interakcji głosowej.

Konfiguracja interakcji głosowej.

Pola

voice string  (opcjonalnie)

Głos rozmówcy.

language string  (opcjonalnie)

Język mowy.

speaker string  (opcjonalnie)

Imię i nazwisko osoby mówiącej, które powinno być zgodne z imieniem i nazwiskiem podanym w promcie.

image_config ImageConfig  (opcjonalnie)

Konfiguracja interakcji z obrazem.

Konfiguracja interakcji z obrazem.

Pola

aspect_ratio enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • 1:1
  • 2:3
  • 3:2
  • 3:4
  • 4:3
  • 4:5
  • 5:4
  • 9:16
  • 16:9
  • 21:9
  • 1:8
  • 8:1
  • 1:4
  • 4:1
image_size enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • 1K
  • 2K
  • 4K
  • 512
tool_choice ToolChoiceConfig lub ToolChoiceType  (opcjonalny)

Wybór narzędzia do interakcji.

agent_config object  (opcjonalnie)

Konfiguracja agenta
Konfiguracja agenta.
Alternatywa dla atrybutu `generation_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest atrybut `agent`.

Możliwe typy

Dyskryminator polimorficzny: type

DynamicAgentConfig

Konfiguracja agentów dynamicznych.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "dynamic".

DeepResearchAgentConfig

Konfiguracja agenta Deep Research.

thinking_summaries ThinkingSummaries  (opcjonalnie)

Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.

Możliwe wartości:

  • auto
  • none

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "deep-research".

previous_interaction_id string  (optional)

Identyfikator poprzedniej interakcji (jeśli wystąpiła).

response_modalities ResponseModality  (opcjonalnie)

Żądane tryby odpowiedzi (TEXT, IMAGE, AUDIO).

Możliwe wartości:

  • text
  • image
  • audio

Odpowiedź

Zwraca zasób Interaction.

Proste żądanie

Przykładowa odpowiedź

{
  "created": "2025-11-26T12:25:15Z",
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "object": "interaction",
  "outputs": [
    {
      "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?",
      "type": "text"
    }
  ],
  "role": "model",
  "status": "completed",
  "updated": "2025-11-26T12:25:15Z",
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 7
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 7,
    "total_output_tokens": 20,
    "total_thought_tokens": 22,
    "total_tokens": 49,
    "total_tool_use_tokens": 0
  }
}

Wieloetapowe

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "role": "model",
  "outputs": [
    {
      "type": "text",
      "text": "The capital of France is Paris."
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 50
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 50,
    "total_output_tokens": 10,
    "total_thought_tokens": 0,
    "total_tokens": 60,
    "total_tool_use_tokens": 0
  }
}

Wprowadzanie obrazu

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "role": "model",
  "outputs": [
    {
      "type": "text",
      "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard."
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 10
      },
      {
        "modality": "image",
        "tokens": 258
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 268,
    "total_output_tokens": 20,
    "total_thought_tokens": 0,
    "total_tokens": 288,
    "total_tool_use_tokens": 0
  }
}

Wywoływanie funkcji

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "requires_action",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "role": "model",
  "outputs": [
    {
      "type": "function_call",
      "id": "gth23981",
      "name": "get_weather",
      "arguments": {
        "location": "Boston, MA"
      }
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 100
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 100,
    "total_output_tokens": 25,
    "total_thought_tokens": 0,
    "total_tokens": 125,
    "total_tool_use_tokens": 50
  }
}

Deep Research

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "agent": "deep-research-pro-preview-12-2025",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "role": "agent",
  "outputs": [
    {
      "type": "text",
      "text": "Here is a comprehensive research report on the current state of cancer research..."
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 20
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 20,
    "total_output_tokens": 1000,
    "total_thought_tokens": 500,
    "total_tokens": 1520,
    "total_tool_use_tokens": 0
  }
}

Pobieranie interakcji

get https://generativelanguage.googleapis.com/v1beta/interactions/{id}

Pobiera pełne szczegóły pojedynczej interakcji na podstawie jej identyfikatora `Interaction.id`.

Parametry ścieżki lub zapytania

id ciąg znaków  (wymagany)

Unikalny identyfikator interakcji do pobrania.

stream wartość logiczna  (opcjonalnie)

Jeśli ma wartość Prawda, wygenerowana treść będzie przesyłana strumieniowo przyrostowo.

Domyślna wartość: False

last_event_id ciąg  (opcjonalny)

Opcjonalnie. Jeśli jest ustawiony, wznawia strumień interakcji od następnego fragmentu po zdarzeniu oznaczonym identyfikatorem zdarzenia. Można jej używać tylko wtedy, gdy wartość parametru „stream” to „true”.

include_input boolean  (opcjonalnie)

Jeśli ma wartość „true”, w odpowiedzi uwzględniane są dane wejściowe.

Domyślna wartość: False

api_version ciąg  (opcjonalny)

której wersji interfejsu API używać;

Odpowiedź

Zwraca zasób Interaction.

Pobieranie interakcji

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:25:15Z",
  "updated": "2025-11-26T12:25:15Z",
  "role": "model",
  "outputs": [
    {
      "type": "text",
      "text": "I'm doing great, thank you for asking! How can I help you today?"
    }
  ]
}

Usuwanie interakcji

delete https://generativelanguage.googleapis.com/v1beta/interactions/{id}

Usuwa interakcję według identyfikatora.

Parametry ścieżki lub zapytania

id ciąg znaków  (wymagany)

Unikalny identyfikator interakcji do usunięcia.

api_version ciąg  (opcjonalny)

której wersji interfejsu API używać;

Odpowiedź

Jeśli operacja się uda, odpowiedź będzie pusta.

Usuwanie interakcji

Anulowanie interakcji

post https://generativelanguage.googleapis.com/v1beta/interactions/{id}/cancel

Anuluje interakcję według identyfikatora. Dotyczy to tylko interakcji w tle, które są nadal aktywne.

Parametry ścieżki lub zapytania

id ciąg znaków  (wymagany)

Unikalny identyfikator interakcji do anulowania.

api_version ciąg  (opcjonalny)

której wersji interfejsu API używać;

Odpowiedź

Zwraca zasób Interaction.

Anulowanie interakcji

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "agent": "deep-research-pro-preview-12-2025",
  "status": "cancelled",
  "object": "interaction",
  "created": "2025-11-26T12:25:15Z",
  "updated": "2025-11-26T12:25:15Z",
  "role": "agent"
}

Zasoby

Interakcja

Zasób Interaction.

Pola

model ModelOption  (opcjonalnie)

Nazwa modelu użytego do wygenerowania interakcji.

Możliwe wartości:

  • gemini-2.5-flash

    Nasz pierwszy hybrydowy model rozumowania, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.

  • gemini-2.5-flash-image

    Nasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Cena za wprowadzanie i wyświetlanie tekstu jest taka sama jak w przypadku 2,5 Flasha.

  • gemini-2.5-flash-lite

    Nasz najmniejszy i najbardziej ekonomiczny model stworzony do użytku na dużą skalę.

  • gemini-2.5-flash-lite-preview-09-2025

    Najnowszy model oparty na Gemini 2.5 Flash Lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i wysokiej jakości.

  • gemini-2.5-flash-native-audio-preview-12-2025

    Nasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.

  • gemini-2.5-flash-preview-09-2025

    Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku zastosowań związanych z agentami.

  • gemini-2.5-flash-preview-tts

    Nasz model zamiany tekstu na mowę 2.5 Flash zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania.

  • gemini-2.5-pro

    Nasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.

  • gemini-2.5-pro-preview-tts

    Nasz model audio 2.5 Pro do zamiany tekstu na mowę zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.

  • gemini-3-flash-preview

    Nasz najbardziej inteligentny model stworzony z myślą o szybkości działania, który łączy pionierską inteligencję z doskonałym wyszukiwaniem i oparcie na faktach.

  • gemini-3-pro-image-preview

    Najnowocześniejszy model do generowania i edytowania obrazów.

  • gemini-3-pro-preview

    Nasz najbardziej inteligentny model z najnowocześniejszymi funkcjami rozumowania i rozpoznawania multimodalnego oraz zaawansowanymi funkcjami agentowymi i vibe codingu.

  • gemini-3.1-pro-preview

    Nasz najnowszy model rozumowania SOTA o niespotykanej głębi i niuansach oraz zaawansowanych funkcjach rozpoznawania multimodalnego i kodowania.

  • gemini-3.1-flash-image-preview

    Profesjonalna inteligencja wizualna z błyskawiczną wydajnością i możliwością generowania realistycznych treści.

Model, który uzupełni prompta.\n\nWięcej informacji znajdziesz w sekcji [modele](https://ai.google.dev/gemini-api/docs/models).

agent AgentOption  (opcjonalnie)

Nazwa agenta użytego do wygenerowania interakcji.

Możliwe wartości:

  • deep-research-pro-preview-12-2025

    Agent Deep Research w Gemini

Agent, z którym chcesz wejść w interakcję.

id ciąg znaków  (opcjonalny)

Tylko dane wyjściowe. Unikalny identyfikator zakończenia interakcji.

status enum (string)  (opcjonalnie)

Tylko dane wyjściowe. Stan interakcji.

Możliwe wartości:

  • in_progress
  • requires_action
  • completed
  • failed
  • cancelled
  • incomplete
created ciąg znaków  (opcjonalnie)

Tylko dane wyjściowe. Czas utworzenia odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).

updated string  (opcjonalnie)

Tylko dane wyjściowe. Czas ostatniej aktualizacji odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).

role string  (opcjonalnie)

Tylko dane wyjściowe. Rola interakcji.

outputs tablica (Content)  (opcjonalnie)

Tylko dane wyjściowe. Odpowiedzi modelu.

system_instruction ciąg  (opcjonalny)

Instrukcja systemowa dotycząca interakcji.

tools tablica (Tool)  (opcjonalnie)

Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.

usage Usage  (opcjonalnie)

Tylko dane wyjściowe. Statystyki wykorzystania tokenów w żądaniu interakcji.

Statystyki wykorzystania tokenów w żądaniu interakcji.

Pola

total_input_tokens integer  (opcjonalnie)

Liczba tokenów w prompcie (kontekście).

input_tokens_by_modality ModalityTokens  (opcjonalnie)

Zestawienie wykorzystania tokenów wejściowych według rodzaju danych.

Liczba tokenów dla pojedynczej modalności odpowiedzi.

Pola

modality ResponseModality  (opcjonalnie)

Rodzaj powiązany z liczbą tokenów.

Możliwe wartości:

  • text
  • image
  • audio

tokens liczba całkowita  (opcjonalnie)

Liczba tokenów dla danego rodzaju danych.

total_cached_tokens integer  (opcjonalnie)

Liczba tokenów w części promptu zapisanej w pamięci podręcznej (treści w pamięci podręcznej).

cached_tokens_by_modality ModalityTokens  (opcjonalnie)

Zestawienie wykorzystania tokenów w pamięci podręcznej według rodzaju.

Liczba tokenów dla pojedynczej modalności odpowiedzi.

Pola

modality ResponseModality  (opcjonalnie)

Rodzaj powiązany z liczbą tokenów.

Możliwe wartości:

  • text
  • image
  • audio

tokens liczba całkowita  (opcjonalnie)

Liczba tokenów dla danego rodzaju danych.

total_output_tokens integer  (opcjonalnie)

Łączna liczba tokenów we wszystkich wygenerowanych odpowiedziach.

output_tokens_by_modality ModalityTokens  (opcjonalnie)

Zestawienie wykorzystania tokenów wyjściowych według rodzaju.

Liczba tokenów dla pojedynczej modalności odpowiedzi.

Pola

modality ResponseModality  (opcjonalnie)

Rodzaj powiązany z liczbą tokenów.

Możliwe wartości:

  • text
  • image
  • audio

tokens liczba całkowita  (opcjonalnie)

Liczba tokenów dla danego rodzaju danych.

total_tool_use_tokens integer  (opcjonalnie)

Liczba tokenów w promptach dotyczących korzystania z narzędzi.

tool_use_tokens_by_modality ModalityTokens  (opcjonalnie)

Zestawienie wykorzystania tokenów narzędzi według rodzaju.

Liczba tokenów dla pojedynczej modalności odpowiedzi.

Pola

modality ResponseModality  (opcjonalnie)

Rodzaj powiązany z liczbą tokenów.

Możliwe wartości:

  • text
  • image
  • audio

tokens liczba całkowita  (opcjonalnie)

Liczba tokenów dla danego rodzaju danych.

total_thought_tokens integer  (optional)

Liczba tokenów myśli w przypadku modeli myślących.

total_tokens integer  (opcjonalnie)

Łączna liczba tokenów w żądaniu interakcji (prompt + odpowiedzi + inne tokeny wewnętrzne).

response_modalities ResponseModality  (opcjonalnie)

Żądane tryby odpowiedzi (TEXT, IMAGE, AUDIO).

Możliwe wartości:

  • text
  • image
  • audio

response_format object  (opcjonalny)

Wymaga, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.

response_mime_type ciąg  (opcjonalnie)

Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.

previous_interaction_id string  (optional)

Identyfikator poprzedniej interakcji (jeśli wystąpiła).

input Content lub tablica (Content) lub tablica (Turn) lub ciąg znaków  (wymagany)

Dane wejściowe interakcji (wspólne dla modelu i agenta).

agent_config object  (opcjonalnie)

Parametry konfiguracji interakcji z agentem.

Możliwe typy

Dyskryminator polimorficzny: type

DynamicAgentConfig

Konfiguracja agentów dynamicznych.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "dynamic".

DeepResearchAgentConfig

Konfiguracja agenta Deep Research.

thinking_summaries ThinkingSummaries  (opcjonalnie)

Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.

Możliwe wartości:

  • auto
  • none

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "deep-research".

Przykłady

Przykład

{
  "created": "2025-12-04T15:01:45Z",
  "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg",
  "model": "gemini-3-flash-preview",
  "object": "interaction",
  "outputs": [
    {
      "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?",
      "type": "text"
    }
  ],
  "role": "model",
  "status": "completed",
  "updated": "2025-12-04T15:01:45Z",
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 7
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 7,
    "total_output_tokens": 23,
    "total_thought_tokens": 49,
    "total_tokens": 79,
    "total_tool_use_tokens": 0
  }
}

Modele danych

Treść

Treść odpowiedzi.

Możliwe typy

Dyskryminator polimorficzny: type

TextContent

Blok treści tekstowych.

text string  (wymagany)

Zawartość tekstowa.

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie o funkcje konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

ImageContent

Blok treści z obrazem.

data string  (opcjonalnie)

treść obrazu;

uri string  (opcjonalnie)

Identyfikator URI obrazu.

mime_type enum (string)  (optional)

Typ MIME obrazu.

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

AudioContent

blok treści audio,

data string  (opcjonalnie)

treści audio,

uri string  (opcjonalnie)

Identyfikator URI dźwięku.

mime_type enum (string)  (optional)

Typ MIME dźwięku.

Możliwe wartości:

  • audio/wav
  • audio/mp3
  • audio/aiff
  • audio/aac
  • audio/ogg
  • audio/flac
type object  (wymagany)

Brak opisu

Zawsze ustawiona na "audio".

DocumentContent

Blok treści dokumentu.

data string  (opcjonalnie)

Treść dokumentu.

uri string  (opcjonalnie)

Identyfikator URI dokumentu.

mime_type enum (string)  (optional)

Typ MIME dokumentu.

Możliwe wartości:

  • application/pdf
type object  (wymagany)

Brak opisu

Zawsze ustawiona na "document".

VideoContent

Blok treści wideo.

data string  (opcjonalnie)

treści wideo,

uri string  (opcjonalnie)

Identyfikator URI filmu.

mime_type enum (string)  (optional)

Typ MIME filmu.

Możliwe wartości:

  • video/mp4
  • video/mpeg
  • video/mpg
  • video/mov
  • video/avi
  • video/x-flv
  • video/webm
  • video/wmv
  • video/3gpp
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "video".

ThoughtContent

Blok treści z przemyśleniami.

signature string  (opcjonalnie)

Sygnatura dopasowująca źródło backendu, które ma być częścią generowania.

summary ThoughtSummaryContent  (opcjonalnie)

Podsumowanie myśli.

Możliwe typy

Dyskryminator polimorficzny: type

TextContent

Blok treści tekstowych.

text string  (wymagany)

Zawartość tekstowa.

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie o funkcje konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

ImageContent

Blok treści z obrazem.

data string  (opcjonalnie)

treść obrazu;

uri string  (opcjonalnie)

Identyfikator URI obrazu.

mime_type enum (string)  (optional)

Typ MIME obrazu.

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "thought".

FunctionCallContent

Blok treści wywołania narzędzia funkcji.

name string  (wymagany)

Nazwa narzędzia do wywołania.

argumenty obiekt  (wymagany)

Argumenty do przekazania do funkcji.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FunctionResultContent

Blok treści z wynikami narzędzia funkcji.

name string  (opcjonalny)

Nazwa wywołanego narzędzia.

is_error boolean  (optional)

Informacja, czy wywołanie narzędzia spowodowało błąd.

result tablica (FunctionResultSubcontent) lub ciąg znaków  (wymagany)

Wynik wywołania narzędzia.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

CodeExecutionCallContent

Treści dotyczące wykonywania kodu.

argumenty CodeExecutionCallArguments  (wymagane)

Argumenty przekazywane do wykonania kodu.

Argumenty przekazywane do wykonania kodu.

Pola

language enum (string)  (opcjonalny)

Język programowania kodu.

Możliwe wartości:

  • python
code string  (opcjonalnie)

Kod do wykonania.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

CodeExecutionResultContent

Treść wyniku wykonania kodu.

result string  (wymagany)

wynik wykonania kodu.

is_error boolean  (optional)

Czy podczas wykonywania kodu wystąpił błąd.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution_result".

call_id string  (wymagany)

Identyfikator, który ma być zgodny z identyfikatorem z bloku wywołania wykonania kodu.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

UrlContextCallContent

Zawartość kontekstu adresu URL.

arguments UrlContextCallArguments  (wymagany)

Argumenty do przekazania do kontekstu adresu URL.

Argumenty do przekazania do kontekstu adresu URL.

Pola

urls array (string)  (optional)

Adresy URL do pobrania.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

UrlContextResultContent

Treść wyniku kontekstu adresu URL.

result UrlContextResult  (wymagany)

wyniki kontekstu adresu URL;

Wynik kontekstu adresu URL.

Pola

url string  (optional)

Pobrany adres URL.

status enum (string)  (opcjonalnie)

Stan pobierania adresu URL.

Możliwe wartości:

  • success
  • error
  • paywall
  • unsafe
is_error boolean  (optional)

Czy kontekst adresu URL spowodował błąd.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context_result".

call_id string  (wymagany)

Identyfikator musi być zgodny z identyfikatorem z bloku wywołania kontekstu adresu URL.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleSearchCallContent

treści w wyszukiwarce Google,

arguments GoogleSearchCallArguments  (wymagany)

Argumenty do przekazania do wyszukiwarki Google.

Argumenty do przekazania do wyszukiwarki Google.

Pola

queries tablica (ciąg znaków)  (opcjonalnie)

Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.

search_type enum (string)  (optional)

Rodzaj włączonego oparcia na faktach z użyciem wyszukiwarki.

Możliwe wartości:

  • web_search
  • image_search
type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleSearchResultContent

treści wyników wyszukiwania Google;

result GoogleSearchResult  (wymagane)

wyniki wyszukiwania w Google.

Wynik wyszukiwania w wyszukiwarce Google.

Pola

search_suggestions ciąg  (opcjonalnie)

Fragment treści internetowych, który można umieścić na stronie internetowej lub w komponencie WebView aplikacji.

is_error boolean  (optional)

Określa, czy wyszukiwanie w Google zakończyło się błędem.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search_result".

call_id string  (wymagany)

Identyfikator musi być zgodny z identyfikatorem z bloku wywołania wyszukiwarki Google.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

McpServerToolCallContent

Treść wywołania narzędzia MCPServer.

name string  (wymagany)

Nazwa wywołanego narzędzia.

server_name ciąg  (wymagany)

Nazwa używanego serwera MCP.

argumenty obiekt  (wymagany)

Obiekt JSON z argumentami funkcji.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server_tool_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

McpServerToolResultContent

Treść wyniku narzędzia MCPServer.

name string  (opcjonalny)

Nazwa narzędzia, które jest wywoływane w przypadku tego konkretnego wywołania narzędzia.

server_name string  (opcjonalny)

Nazwa używanego serwera MCP.

result tablica (FunctionResultSubcontent) lub ciąg znaków  (wymagany)

Dane wyjściowe wywołania serwera MCP. Może to być zwykły tekst lub szczegółowe treści.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server_tool_result".

call_id string  (wymagany)

Identyfikator musi być zgodny z identyfikatorem z bloku wywołania narzędzia serwera MCP.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FileSearchCallContent

Zawartość wyszukiwania plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FileSearchResultContent

Zawartość wyniku wyszukiwania plików.

result FileSearchResult  (opcjonalnie)

wyniki wyszukiwania plików,

Wynik wyszukiwania plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania wyszukiwania plików.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleMapsCallContent

treści w Mapach Google;

arguments GoogleMapsCallArguments  (opcjonalnie)

Argumenty do przekazania do narzędzia Mapy Google.

Argumenty do przekazania do narzędzia Mapy Google.

Pola

queries tablica (ciąg znaków)  (opcjonalnie)

Zapytania do wykonania.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleMapsResultContent

treści wyników w Mapach Google;

result GoogleMapsResult  (wymagany)

Wyniki z Map Google.

Wynik z Map Google.

Pola

places Places  (opcjonalnie)

znalezione miejsca;

Pola

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie o funkcje konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

widget_context_token ciąg  (opcjonalny)

Nazwa zasobu tokena kontekstu widżetu Map Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps_result".

call_id string  (wymagany)

Identyfikator musi być zgodny z identyfikatorem z bloku wywołania Map Google.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

Przykłady

Tekst

{
  "type": "text",
  "text": "Hello, how are you?"
}

Obraz

{
  "type": "image",
  "data": "BASE64_ENCODED_IMAGE",
  "mime_type": "image/png"
}

Audio

{
  "type": "audio",
  "data": "BASE64_ENCODED_AUDIO",
  "mime_type": "audio/wav"
}

Dokument

{
  "type": "document",
  "data": "BASE64_ENCODED_DOCUMENT",
  "mime_type": "application/pdf"
}

Wideo

{
  "type": "video",
  "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
}

Myślenie

{
  "type": "thought",
  "summary": [
    {
      "type": "text",
      "text": "The user is asking about the weather. I should use the get_weather tool."
    }
  ],
  "signature": "CoMDAXLI2nynRYojJIy6B1Jh9os2crpWLfB0+19xcLsGG46bd8wjkF/6RNlRUdvHrXyjsHkG0BZFcuO/bPOyA6Xh5jANNgx82wPHjGExN8A4ZQn56FlMwyZoqFVQz0QyY1lfibFJ2zU3J87uw26OewzcuVX0KEcs+GIsZa3EA6WwqhbsOd3wtZB3Ua2Qf98VAWZTS5y/tWpql7jnU3/CU7pouxQr/Bwft3hwnJNesQ9/dDJTuaQ8Zprh9VRWf1aFFjpIueOjBRrlT3oW6/y/eRl/Gt9BQXCYTqg/38vHFUU4Wo/d9dUpvfCe/a3o97t2Jgxp34oFKcsVb4S5WJrykIkw+14DzVnTpCpbQNFckqvFLuqnJCkL0EQFtunBXI03FJpPu3T1XU6id8S7ojoJQZSauGUCgmaLqUGdMrd08oo81ecoJSLs51Re9N/lISGmjWFPGpqJLoGq6uo4FHz58hmeyXCgHG742BHz2P3MiH1CXHUT2J8mF6zLhf3SR9Qb3lkrobAh"
}

Połączenie z funkcją

{
  "type": "function_call",
  "name": "get_weather",
  "id": "gth23981",
  "arguments": {
    "location": "Boston, MA"
  }
}

Wynik funkcji

{
  "type": "function_result",
  "name": "get_weather",
  "call_id": "gth23981",
  "result": [
    {
      "type": "text",
      "text": "{\"weather\":\"sunny\"}"
    }
  ]
}

Wywołanie wykonania kodu

{
  "type": "code_execution_call",
  "id": "call_123456",
  "arguments": {
    "language": "python",
    "code": "print('hello world')"
  }
}

Wynik wykonania kodu

{
  "type": "code_execution_result",
  "call_id": "call_123456",
  "result": "hello world"
}

Wywołanie kontekstu adresu URL

{
  "type": "url_context_call",
  "id": "call_123456",
  "arguments": {
    "urls": [
      "https://www.example.com"
    ]
  }
}

Wynik kontekstu adresu URL

{
  "type": "url_context_result",
  "call_id": "call_123456",
  "result": [
    {
      "url": "https://www.example.com",
      "status": "SUCCESS"
    }
  ]
}

Połączenie z wyszukiwarki Google

{
  "type": "google_search_call",
  "id": "call_123456",
  "arguments": {
    "queries": [
      "weather in Boston"
    ]
  }
}

Wynik wyszukiwania Google

{
  "type": "google_search_result",
  "call_id": "call_123456",
  "result": [
    {
      "url": "https://www.google.com/search?q=weather+in+Boston",
      "title": "Weather in Boston"
    }
  ]
}

Wywołanie narzędzia serwera MCP

{
  "type": "mcp_server_tool_call",
  "id": "call_123456",
  "name": "get_forecast",
  "server_name": "weather_server",
  "arguments": {
    "city": "London"
  }
}

Wynik narzędzia serwera MCP

{
  "type": "mcp_server_tool_result",
  "name": "get_forecast",
  "server_name": "weather_server",
  "call_id": "call_123456",
  "result": "sunny"
}

Wywołanie wyszukiwania plików

{
  "type": "file_search_call",
  "id": "call_123456"
}

Wynik wyszukiwania pliku

{
  "type": "file_search_result",
  "call_id": "call_123456",
  "result": [
    {
      "text": "search result chunk",
      "file_search_store": "file_search_store"
    }
  ]
}

Połączenie z Map Google

{
  "type": "google_maps_call",
  "id": "call_123456",
  "arguments": {
    "query": "best food near me"
  }
}

Wynik z Map Google

{
  "type": "google_maps_result",
  "call_id": "call_123456",
  "result": [
    {
      "places": [
        {
          "url": "https://www.google.com/maps/search/best+food+near+me",
          "name": "Tasty Restaurant"
        }
      ]
    }
  ]
}

Narzędzie

Możliwe typy

Dyskryminator polimorficzny: type

Funkcja

Narzędzie, z którego może korzystać model.

name string  (opcjonalny)

Nazwa funkcji.

description ciąg znaków  (opcjonalnie)

Opis funkcji.

parameters object  (opcjonalny)

Schemat JSON parametrów funkcji.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "function".

GoogleSearch

Narzędzie, którego model może używać do wyszukiwania w Google.

search_types tablica (enum (string))  (opcjonalnie)

Rodzaje oparcia na faktach z użyciem wyszukiwarki, które chcesz włączyć.

Możliwe wartości:

  • web_search
  • image_search
type string  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search".

CodeExecution

Narzędzie, którego model może używać do wykonywania kodu.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution".

UrlContext

Narzędzie, którego model może używać do pobierania kontekstu adresu URL.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context".

ComputerUse

Narzędzie, którego model może używać do interakcji z komputerem.

environment enum (string)  (opcjonalny)

Środowisko, w którym wykonywana jest operacja.

Możliwe wartości:

  • browser
excludedPredefinedFunctions tablica (ciąg znaków)  (opcjonalnie)

Lista wstępnie zdefiniowanych funkcji, które są wykluczone z wywołania modelu.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "computer_use".

McpServer

MCPServer to serwer, który może być wywoływany przez model w celu wykonywania działań.

name string  (opcjonalny)

Nazwa serwera MCP.

url string  (optional)

Pełny adres URL punktu końcowego MCPServer. Przykład: „https://api.example.com/mcp”

headers object  (opcjonalnie)

Opcjonalnie: pola nagłówków uwierzytelniania, limitów czasu itp. (w razie potrzeby).

allowed_tools AllowedTools  (opcjonalnie)

dozwolone narzędzia;

Konfiguracja dozwolonych narzędzi.

Pola

mode ToolChoiceType  (opcjonalnie)

Tryb wyboru narzędzia.

Możliwe wartości:

  • auto
  • any
  • none
  • validated

tools tablica (ciąg znaków)  (opcjonalnie)

Nazwy dozwolonych narzędzi.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server".

FileSearch

Narzędzie, którego model może używać do wyszukiwania plików.

file_search_store_names tablica (ciąg znaków)  (opcjonalnie)

Plik wyszukuje nazwy sklepów.

top_k liczba całkowita  (opcjonalnie)

Liczba fragmentów do pobrania w ramach wyszukiwania semantycznego.

metadata_filter ciąg  (opcjonalny)

Filtr metadanych, który ma być stosowany do dokumentów i fragmentów pobranych semantycznie.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search".

GoogleMaps

Narzędzie, którego model może używać do wywoływania Map Google.

enable_widget boolean  (opcjonalnie)

Określa, czy w wyniku wywołania narzędzia w odpowiedzi ma zostać zwrócony token kontekstu widżetu.

latitude number  (opcjonalny)

Szerokość geograficzna lokalizacji użytkownika.

longitude number  (opcjonalny)

Długość geograficzna lokalizacji użytkownika.

type string  (opcjonalnie)

Brak opisu

Zawsze ustawiona na "google_maps".

Przykłady

Funkcja

GoogleSearch

CodeExecution

UrlContext

ComputerUse

McpServer

FileSearch

GoogleMaps

Włącz lub wyłącz

Pola

role string  (opcjonalnie)

Osoba, która rozpoczęła tę turę. Musi być użytkownikiem w przypadku danych wejściowych lub modelem w przypadku danych wyjściowych modelu.

content tablica (Content) lub ciąg znaków  (opcjonalnie)

Treść wypowiedzi.

Przykłady

Tura użytkownika

{
  "role": "user",
  "content": [
    {
      "type": "text",
      "text": "user turn"
    }
  ]
}

Model Turn

{
  "role": "model",
  "content": [
    {
      "type": "text",
      "text": "model turn"
    }
  ]
}

InteractionSseEvent

Możliwe typy

Dyskryminator polimorficzny: event_type

InteractionStartEvent

interaction Interaction  (wymagany)

Brak opisu

event_type enum (string)  (required)

Brak opisu

Możliwe wartości:

  • interaction.start
event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

InteractionCompleteEvent

interaction Interaction  (wymagany)

Zakończona interakcja z pustymi danymi wyjściowymi w celu zmniejszenia rozmiaru ładunku. Użyj poprzednich zdarzeń ContentDelta, aby uzyskać rzeczywiste dane wyjściowe.

event_type enum (string)  (required)

Brak opisu

Możliwe wartości:

  • interaction.complete
event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

InteractionStatusUpdate

interaction_id ciąg  (wymagany)

Brak opisu

status enum (string)  (required)

Brak opisu

Możliwe wartości:

  • in_progress
  • requires_action
  • completed
  • failed
  • cancelled
  • incomplete
event_type string  (wymagany)

Brak opisu

Zawsze ustawiona na "interaction.status_update".

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

ContentStart

index liczba całkowita  (wymagany)

Brak opisu

content Content  (wymagane)

Brak opisu

event_type string  (wymagany)

Brak opisu

Zawsze ustawiona na "content.start".

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

ContentDelta

index liczba całkowita  (wymagany)

Brak opisu

delta object  (wymagany)

Brak opisu

Możliwe typy

Dyskryminator polimorficzny: type

TextDelta

text string  (wymagany)

Brak opisu

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie o funkcje konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

ImageDelta

data string  (opcjonalnie)

Brak opisu

uri string  (opcjonalnie)

Brak opisu

mime_type enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

AudioDelta

data string  (opcjonalnie)

Brak opisu

uri string  (opcjonalnie)

Brak opisu

mime_type enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • audio/wav
  • audio/mp3
  • audio/aiff
  • audio/aac
  • audio/ogg
  • audio/flac
type object  (wymagany)

Brak opisu

Zawsze ustawiona na "audio".

DocumentDelta

data string  (opcjonalnie)

Brak opisu

uri string  (opcjonalnie)

Brak opisu

mime_type enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • application/pdf
type object  (wymagany)

Brak opisu

Zawsze ustawiona na "document".

VideoDelta

data string  (opcjonalnie)

Brak opisu

uri string  (opcjonalnie)

Brak opisu

mime_type enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • video/mp4
  • video/mpeg
  • video/mpg
  • video/mov
  • video/avi
  • video/x-flv
  • video/webm
  • video/wmv
  • video/3gpp
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "video".

ThoughtSummaryDelta

content ThoughtSummaryContent  (opcjonalnie)

Nowy element podsumowania do dodania do przemyślenia.

Możliwe typy

Dyskryminator polimorficzny: type

TextContent

Blok treści tekstowych.

text string  (wymagany)

Zawartość tekstowa.

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie o funkcje konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

type string  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła.

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

ImageContent

Blok treści z obrazem.

data string  (opcjonalnie)

treść obrazu;

uri string  (opcjonalnie)

Identyfikator URI obrazu.

mime_type enum (string)  (optional)

Typ MIME obrazu.

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "thought_summary".

ThoughtSignatureDelta

signature string  (opcjonalnie)

Sygnatura dopasowująca źródło backendu, które ma być częścią generowania.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "thought_signature".

FunctionCallDelta

name string  (wymagany)

Brak opisu

argumenty obiekt  (wymagany)

Brak opisu

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FunctionResultDelta

name string  (opcjonalny)

Brak opisu

is_error boolean  (optional)

Brak opisu

result obiekt lub ciąg znaków  (wymagany)

Delta wyniku wywołania narzędzia.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

CodeExecutionCallDelta

argumenty CodeExecutionCallArguments  (wymagane)

Brak opisu

Argumenty przekazywane do wykonania kodu.

Pola

language enum (string)  (opcjonalny)

Język programowania kodu.

Możliwe wartości:

  • python
code string  (opcjonalnie)

Kod do wykonania.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

CodeExecutionResultDelta

result string  (wymagany)

Brak opisu

is_error boolean  (optional)

Brak opisu

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

UrlContextCallDelta

arguments UrlContextCallArguments  (wymagany)

Brak opisu

Argumenty do przekazania do kontekstu adresu URL.

Pola

urls array (string)  (optional)

Adresy URL do pobrania.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

UrlContextResultDelta

result UrlContextResult  (wymagany)

Brak opisu

Wynik kontekstu adresu URL.

Pola

url string  (optional)

Pobrany adres URL.

status enum (string)  (opcjonalnie)

Stan pobierania adresu URL.

Możliwe wartości:

  • success
  • error
  • paywall
  • unsafe
is_error boolean  (optional)

Brak opisu

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleSearchCallDelta

arguments GoogleSearchCallArguments  (wymagany)

Brak opisu

Argumenty do przekazania do wyszukiwarki Google.

Pola

queries tablica (ciąg znaków)  (opcjonalnie)

Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleSearchResultDelta

result GoogleSearchResult  (wymagane)

Brak opisu

Wynik wyszukiwania w wyszukiwarce Google.

Pola

search_suggestions ciąg  (opcjonalnie)

Fragment treści internetowych, który można umieścić na stronie internetowej lub w komponencie WebView aplikacji.

is_error boolean  (optional)

Brak opisu

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

McpServerToolCallDelta

name string  (wymagany)

Brak opisu

server_name ciąg  (wymagany)

Brak opisu

argumenty obiekt  (wymagany)

Brak opisu

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server_tool_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

McpServerToolResultDelta

name string  (opcjonalny)

Brak opisu

server_name string  (opcjonalny)

Brak opisu

result obiekt lub ciąg znaków  (wymagany)

Delta wyniku wywołania narzędzia.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server_tool_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FileSearchCallDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FileSearchResultDelta

result FileSearchResult  (opcjonalnie)

Brak opisu

Wynik wyszukiwania plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleMapsCallDelta

arguments GoogleMapsCallArguments  (opcjonalnie)

Argumenty do przekazania do narzędzia Mapy Google.

Argumenty do przekazania do narzędzia Mapy Google.

Pola

queries tablica (ciąg znaków)  (opcjonalnie)

Zapytania do wykonania.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps_call".

id ciąg znaków  (wymagany)

Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleMapsResultDelta

result GoogleMapsResult  (wymagany)

Wyniki z Map Google.

Wynik z Map Google.

Pola

places Places  (opcjonalnie)

znalezione miejsca;

Pola

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie o funkcje konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

widget_context_token ciąg  (opcjonalny)

Nazwa zasobu tokena kontekstu widżetu Map Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps_result".

call_id string  (wymagany)

Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

event_type string  (wymagany)

Brak opisu

Zawsze ustawiona na "content.delta".

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

ContentStop

index liczba całkowita  (wymagany)

Brak opisu

event_type string  (wymagany)

Brak opisu

Zawsze ustawiona na "content.stop".

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

ErrorEvent

error Error  (opcjonalnie)

Brak opisu

Komunikat o błędzie z interakcji.

Pola

code string  (opcjonalnie)

Identyfikator URI określający typ błędu.

message string  (opcjonalnie)

Komunikat o błędzie zrozumiały dla człowieka.

event_type string  (wymagany)

Brak opisu

Zawsze ustawiona na "error".

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

Przykłady

Rozpoczęcie interakcji

{
  "event_type": "interaction.start",
  "interaction": {
    "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM",
    "model": "gemini-3-flash-preview",
    "object": "interaction",
    "status": "in_progress"
  }
}

Zakończono interakcję

{
  "event_type": "interaction.complete",
  "interaction": {
    "created": "2025-12-09T18:45:40Z",
    "id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM",
    "model": "gemini-3-flash-preview",
    "object": "interaction",
    "role": "model",
    "status": "completed",
    "updated": "2025-12-09T18:45:40Z",
    "usage": {
      "input_tokens_by_modality": [
        {
          "modality": "text",
          "tokens": 11
        }
      ],
      "total_cached_tokens": 0,
      "total_input_tokens": 11,
      "total_output_tokens": 364,
      "total_thought_tokens": 1120,
      "total_tokens": 1495,
      "total_tool_use_tokens": 0
    }
  }
}

Aktualizacja stanu interakcji

{
  "event_type": "interaction.status_update",
  "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM",
  "status": "in_progress"
}

Początek treści

{
  "event_type": "content.start",
  "content": {
    "type": "text"
  },
  "index": 1
}

Delta treści

{
  "event_type": "content.delta",
  "delta": {
    "type": "text",
    "text": "Elara\u2019s life was a symphony of quiet moments. A librarian, she found solace in the hushed aisles, the scent of aged paper, and the predictable rhythm of her days. Her small apartment, meticulously ordered, reflected this internal calm, save"
  },
  "index": 1
}

Zatrzymanie treści

{
  "event_type": "content.stop",
  "index": 1
}

Zdarzenie błędu

{
  "event_type": "error",
  "error": {
    "message": "Failed to get completed interaction: Result not found.",
    "code": "not_found"
  }
}