Gemini API

Gemini Interactions API to eksperymentalny interfejs API, który umożliwia programistom tworzenie aplikacji generatywnej AI z użyciem modeli Gemini. Gemini to nasz najbardziej zaawansowany model, który od podstaw został zaprojektowany jako multimodalny. Potrafi uogólniać i z łatwością rozumieć, przetwarzać i łączyć różne typy informacji, w tym język, obrazy, dźwięki, filmy i kod. Interfejsu Gemini API możesz używać w przypadku takich zastosowań jak wnioskowanie na podstawie tekstu i obrazów, generowanie treści, agenty dialogowe, systemy podsumowywania i klasyfikacji oraz wiele innych.

Tworzenie interakcji

post https://generativelanguage.googleapis.com/v1beta/interactions

Tworzy nową interakcję.

Treść żądania

Treść żądania zawiera dane o następującej strukturze:

model ModelOption  (opcjonalnie)

Nazwa modelu użytego do wygenerowania interakcji.
Wymagane, jeśli nie podano parametru „agent”.

Możliwe wartości:

  • gemini-2.5-computer-use-preview-10-2025

    Model funkcji agentowych zaprojektowany do bezpośredniej interakcji z interfejsem, który umożliwia Gemini postrzeganie środowisk cyfrowych i poruszanie się po nich.

  • gemini-2.5-flash

    Nasz pierwszy model rozumowania hybrydowego, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.

  • gemini-2.5-flash-image

    Nasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Cena za wprowadzanie i wyświetlanie tekstu jest taka sama jak w przypadku 2,5 Flasha.

  • gemini-2.5-flash-lite

    Nasz najmniejszy i najbardziej ekonomiczny model, stworzony do użytku na dużą skalę.

  • gemini-2.5-flash-lite-preview-09-2025

    Najnowszy model oparty na Gemini 2.5 Flash lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i wysokiej jakości.

  • gemini-2.5-flash-native-audio-preview-12-2025

    Nasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.

  • gemini-2.5-flash-preview-09-2025

    Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku agentowych przypadków użycia.

  • gemini-2.5-flash-preview-tts

    Nasz model zamiany tekstu na mowę 2.5 Flash zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania.

  • gemini-2.5-pro

    Nasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.

  • gemini-2.5-pro-preview-tts

    Nasz model audio 2.5 Pro do zamiany tekstu na mowę zoptymalizowany pod kątem wydajnego generowania mowy o niskim opóźnieniu, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.

  • gemini-3-flash-preview

    Nasz najbardziej inteligentny model stworzony z myślą o szybkości działania, który łączy pionierską inteligencję z doskonałym wyszukiwaniem i uzasadnianiem.

  • gemini-3-pro-image-preview

    Najnowocześniejszy model do generowania i edytowania obrazów.

  • gemini-3-pro-preview

    Nasz najinteligentniejszy model z najnowocześniejszym rozumowaniem i rozpoznawaniem multimodalnym oraz zaawansowanymi funkcjami agentowymi i vibe codingu.

  • gemini-3.1-pro-preview

    Nasz najnowszy model rozumowania SOTA o niespotykanej głębi i niuansach oraz zaawansowanych funkcjach rozpoznawania multimodalnego i kodowania.

  • gemini-3.1-flash-image-preview

    Profesjonalna inteligencja wizualna z błyskawiczną wydajnością i możliwością generowania realistycznych treści.

  • gemini-3.1-flash-lite-preview

    Nasz najbardziej opłacalny model zoptymalizowany pod kątem zadań agentowych o dużej liczbie żądań, tłumaczenia i prostego przetwarzania danych.

  • gemini-3.1-flash-tts-preview

    Gemini 3.1 Flash TTS: wydajne generowanie mowy z krótkim czasem oczekiwania. Korzystaj z naturalnych wyników, sterowanych promptów i nowych tagów audio, które pozwalają precyzyjnie kontrolować narrację.

  • lyria-3-clip-preview

    Nasz model generowania muzyki z niskim czasem oczekiwania, zoptymalizowany pod kątem klipów audio o wysokiej jakości i precyzyjnej kontroli rytmu.

  • lyria-3-pro-preview

    Nasz zaawansowany model generatywny pełnych utworów z dogłębnym zrozumieniem kompozycji, zoptymalizowany pod kątem precyzyjnej kontroli strukturalnej i złożonych przejść w różnych stylach muzycznych.

Model, który uzupełni prompta.\n\nWięcej informacji znajdziesz w sekcji [modele](https://ai.google.dev/gemini-api/docs/models).

agent AgentOption  (opcjonalnie)

Nazwa agenta użytego do wygenerowania interakcji.
Wymagany, jeśli nie podano wartości „model”.

Możliwe wartości:

  • deep-research-pro-preview-12-2025

    Agent Deep Research w Gemini

  • deep-research-preview-04-2026

    Agent Deep Research w Gemini

  • deep-research-max-preview-04-2026

    Agent Gemini Deep Research Max

Agent, z którym chcesz wchodzić w interakcje.

input Treść lub tablica (Treść) lub tablica (Krok) lub ciąg znaków  (wymagany)

Dane wejściowe interakcji (wspólne dla modelu i agenta).

system_instruction ciąg  (opcjonalny)

Instrukcja systemowa dotycząca interakcji.

tools tablica (Tool)  (opcjonalnie)

Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.

response_format ResponseFormat lub ResponseFormatList  (opcjonalny)

Wymusza, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.

response_mime_type ciąg  (opcjonalny)

Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.

stream wartość logiczna  (opcjonalnie)

Tylko dane wejściowe. Czy interakcja będzie transmitowana strumieniowo.

store wartość logiczna  (opcjonalnie)

Tylko dane wejściowe. Określa, czy odpowiedź i żądanie mają być przechowywane do późniejszego pobrania.

background wartość logiczna  (opcjonalnie)

Tylko dane wejściowe. Określa, czy interakcja z modelem ma być przeprowadzana w tle.

generation_config GenerationConfig  (opcjonalnie)

Konfiguracja modelu
Parametry konfiguracji interakcji z modelem.
Alternatywa dla parametru `agent_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest parametr `model`.

Parametry konfiguracji interakcji z modelem.

Pola

temperature number  (opcjonalny)

Określa losowość danych wyjściowych.

top_p liczba  (opcjonalnie)

Maksymalne skumulowane prawdopodobieństwo tokenów do uwzględnienia podczas próbkowania.

seed liczba całkowita  (opcjonalnie)

Wartość początkowa używana podczas dekodowania w celu zapewnienia powtarzalności.

stop_sequences tablica (ciąg znaków)  (opcjonalnie)

Lista ciągów znaków, które zatrzymają interakcję z danymi wyjściowymi.

thinking_level ThinkingLevel  (opcjonalnie)

Poziom tokenów myśli, które model powinien wygenerować.

Możliwe wartości:

  • minimal
  • low
  • medium
  • high

thinking_summaries ThinkingSummaries  (opcjonalnie)

Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.

Możliwe wartości:

  • auto
  • none

max_output_tokens liczba całkowita  (opcjonalnie)

Maksymalna liczba tokenów, które mają być uwzględnione w odpowiedzi.

speech_config SpeechConfig  (optional)

Konfiguracja interakcji głosowej.

Konfiguracja interakcji głosowej.

Pola

voice string  (opcjonalnie)

Głos rozmówcy.

language string  (opcjonalnie)

Język mowy.

speaker string  (opcjonalnie)

Imię i nazwisko osoby mówiącej, które powinno być zgodne z imieniem i nazwiskiem podanym w promcie.

image_config ImageConfig  (opcjonalnie)

Konfiguracja interakcji z obrazem.

Konfiguracja interakcji z obrazem.

Pola

aspect_ratio enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • 1:1
  • 2:3
  • 3:2
  • 3:4
  • 4:3
  • 4:5
  • 5:4
  • 9:16
  • 16:9
  • 21:9
  • 1:8
  • 8:1
  • 1:4
  • 4:1
image_size enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • 1K
  • 2K
  • 4K
  • 512
tool_choice ToolChoiceConfig lub ToolChoiceType  (opcjonalny)

Konfiguracja wyboru narzędzia.

agent_config object  (opcjonalnie)

Konfiguracja agenta
Konfiguracja agenta.
Alternatywa dla atrybutu `generation_config`. Ma zastosowanie tylko wtedy, gdy ustawiony jest atrybut `agent`.

Możliwe typy

Dyskryminator polimorficzny: type

DynamicAgentConfig

Konfiguracja agentów dynamicznych.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "dynamic".

DeepResearchAgentConfig

Konfiguracja agenta Deep Research.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "deep-research".

thinking_summaries ThinkingSummaries  (opcjonalnie)

Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.

Możliwe wartości:

  • auto
  • none

visualization enum (string)  (opcjonalnie)

Określa, czy w odpowiedzi mają być uwzględnione wizualizacje.

Możliwe wartości:

  • off
  • auto
collaborative_planning wartość logiczna  (opcjonalny)

Umożliwia planowanie z udziałem człowieka dla agenta Deep Research. Jeśli wartość to „true”, agent Deep Research w odpowiedzi przedstawi plan badań. Agent będzie kontynuować tylko wtedy, gdy użytkownik potwierdzi plan w kolejnej turze.

previous_interaction_id string  (optional)

Identyfikator poprzedniej interakcji (jeśli wystąpiła).

response_modalities ResponseModality  (opcjonalnie)

Żądane rodzaje odpowiedzi (TEXT, IMAGE, AUDIO).

Możliwe wartości:

  • text
  • image
  • audio
  • video
  • document

service_tier ServiceTier  (opcjonalny)

Poziom usług interakcji.

Możliwe wartości:

  • flex
  • standard
  • priority

webhook_config WebhookConfig  (opcjonalnie)

Opcjonalnie. Konfiguracja webhooka do otrzymywania powiadomień o zakończeniu interakcji.

Wiadomość do konfigurowania zdarzeń webhooka dla żądania.

Pola

uris tablica (ciąg znaków)  (opcjonalnie)

Opcjonalnie. Jeśli ta opcja jest ustawiona, te identyfikatory URI webhooka będą używane w przypadku zdarzeń webhooka zamiast zarejestrowanych webhooków.

user_metadata object  (opcjonalny)

Opcjonalnie. Metadane użytkownika, które będą zwracane przy każdej emisji zdarzenia do webhooków.

Odpowiedź

Zwraca zasób Interaction.

Proste żądanie

Przykładowa odpowiedź

{
  "created": "2025-11-26T12:25:15Z",
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "object": "interaction",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "Hello! I'm functioning perfectly and ready to assist you.\n\nHow are you doing today?"
        }
      ]
    }
  ],
  "status": "completed",
  "updated": "2025-11-26T12:25:15Z",
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 7
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 7,
    "total_output_tokens": 20,
    "total_thought_tokens": 22,
    "total_tokens": 49,
    "total_tool_use_tokens": 0
  }
}

Wieloetapowe

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "The capital of France is Paris."
        }
      ]
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 50
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 50,
    "total_output_tokens": 10,
    "total_thought_tokens": 0,
    "total_tokens": 60,
    "total_tool_use_tokens": 0
  }
}

Wprowadzanie obrazu

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "A white humanoid robot with glowing blue eyes stands holding a red skateboard."
        }
      ]
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 10
      },
      {
        "modality": "image",
        "tokens": 258
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 268,
    "total_output_tokens": 20,
    "total_thought_tokens": 0,
    "total_tokens": 288,
    "total_tool_use_tokens": 0
  }
}

Wywoływanie funkcji

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "requires_action",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "steps": [
    {
      "type": "function_call",
      "id": "gth23981",
      "name": "get_weather",
      "arguments": {
        "location": "Boston, MA"
      }
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 100
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 100,
    "total_output_tokens": 25,
    "total_thought_tokens": 0,
    "total_tokens": 125,
    "total_tool_use_tokens": 50
  }
}

Deep Research

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "agent": "deep-research-pro-preview-12-2025",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:22:47Z",
  "updated": "2025-11-26T12:22:47Z",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "Here is a comprehensive research report on the current state of cancer research..."
        }
      ]
    }
  ],
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 20
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 20,
    "total_output_tokens": 1000,
    "total_thought_tokens": 500,
    "total_tokens": 1520,
    "total_tool_use_tokens": 0
  }
}

Pobieranie interakcji

get https://generativelanguage.googleapis.com/v1beta/interactions/{id}

Pobiera pełne szczegóły pojedynczej interakcji na podstawie jej identyfikatora `Interaction.id`.

Parametry ścieżki lub zapytania

id ciąg znaków  (wymagany)

Unikalny identyfikator interakcji do pobrania.

stream wartość logiczna  (opcjonalnie)

Jeśli ma wartość Prawda, wygenerowana treść będzie przesyłana strumieniowo przyrostowo.

Domyślna wartość: False

last_event_id ciąg  (opcjonalny)

Opcjonalnie. Jeśli jest ustawiony, wznawia strumień interakcji od następnego fragmentu po zdarzeniu oznaczonym identyfikatorem zdarzenia. Można jej używać tylko wtedy, gdy wartość parametru „stream” to „true”.

include_input boolean  (opcjonalnie)

Jeśli ma wartość „true”, w odpowiedzi uwzględniane są dane wejściowe.

Domyślna wartość: False

api_version ciąg  (opcjonalny)

której wersji interfejsu API używać;

Odpowiedź

Zwraca zasób Interaction.

Pobieranie interakcji

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "model": "gemini-3-flash-preview",
  "status": "completed",
  "object": "interaction",
  "created": "2025-11-26T12:25:15Z",
  "updated": "2025-11-26T12:25:15Z",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "I'm doing great, thank you for asking! How can I help you today?"
        }
      ]
    }
  ]
}

Usuwanie interakcji

delete https://generativelanguage.googleapis.com/v1beta/interactions/{id}

Usuwa interakcję według identyfikatora.

Parametry ścieżki lub zapytania

id ciąg znaków  (wymagany)

Unikalny identyfikator interakcji do usunięcia.

api_version ciąg  (opcjonalny)

której wersji interfejsu API używać;

Odpowiedź

Jeśli operacja się uda, odpowiedź będzie pusta.

Usuwanie interakcji

Anulowanie interakcji

post https://generativelanguage.googleapis.com/v1beta/interactions/{id}/cancel

Anuluje interakcję według identyfikatora. Dotyczy to tylko interakcji w tle, które są nadal aktywne.

Parametry ścieżki lub zapytania

id ciąg znaków  (wymagany)

Unikalny identyfikator interakcji do anulowania.

api_version ciąg  (opcjonalny)

której wersji interfejsu API używać;

Odpowiedź

Zwraca zasób Interaction.

Anulowanie interakcji

Przykładowa odpowiedź

{
  "id": "v1_ChdPU0F4YWFtNkFwS2kxZThQZ05lbXdROBIXT1NBeGFhbTZBcEtpMWU4UGdOZW13UTg",
  "agent": "deep-research-pro-preview-12-2025",
  "status": "cancelled",
  "object": "interaction",
  "created": "2025-11-26T12:25:15Z",
  "updated": "2025-11-26T12:25:15Z"
}

Zasoby

Interakcja

Zasób Interaction.

Pola

model ModelOption  (opcjonalnie)

Nazwa modelu użytego do wygenerowania interakcji.

Możliwe wartości:

  • gemini-2.5-computer-use-preview-10-2025

    Model funkcji agentowych zaprojektowany do bezpośredniej interakcji z interfejsem, który umożliwia Gemini postrzeganie środowisk cyfrowych i poruszanie się po nich.

  • gemini-2.5-flash

    Nasz pierwszy model rozumowania hybrydowego, który obsługuje okno kontekstu o wielkości 1 mln tokenów i ma budżety myślenia.

  • gemini-2.5-flash-image

    Nasz natywny model generowania obrazów zoptymalizowany pod kątem szybkości, elastyczności i rozumienia kontekstu. Cena za wprowadzanie i wyświetlanie tekstu jest taka sama jak w przypadku 2,5 Flasha.

  • gemini-2.5-flash-lite

    Nasz najmniejszy i najbardziej ekonomiczny model, stworzony do użytku na dużą skalę.

  • gemini-2.5-flash-lite-preview-09-2025

    Najnowszy model oparty na Gemini 2.5 Flash lite, zoptymalizowany pod kątem opłacalności, wysokiej przepustowości i wysokiej jakości.

  • gemini-2.5-flash-native-audio-preview-12-2025

    Nasze natywne modele audio zoptymalizowane pod kątem wyższej jakości wyjść audio z lepszym tempem i nastrojem oraz większą szczegółowością i bardziej naturalnym głosami.

  • gemini-2.5-flash-preview-09-2025

    Najnowszy model oparty na modelu 2.5 Flash. 2.5 Flash Preview najlepiej sprawdza się w przypadku przetwarzania na dużą skalę, zadań o niskim czasie oczekiwania i dużej objętości, które wymagają myślenia, oraz w przypadku agentowych przypadków użycia.

  • gemini-2.5-flash-preview-tts

    Nasz model zamiany tekstu na mowę 2.5 Flash zoptymalizowany pod kątem wydajnego generowania mowy z krótkim czasem oczekiwania.

  • gemini-2.5-pro

    Nasz najnowocześniejszy model wielozadaniowy, który doskonale radzi sobie z kodowaniem i złożonymi zadaniami wymagającymi rozumowania.

  • gemini-2.5-pro-preview-tts

    Nasz model audio 2.5 Pro do zamiany tekstu na mowę zoptymalizowany pod kątem wydajnego generowania mowy o niskim opóźnieniu, co zapewnia bardziej naturalne wyniki i łatwiejsze sterowanie promptami.

  • gemini-3-flash-preview

    Nasz najbardziej inteligentny model stworzony z myślą o szybkości działania, który łączy pionierską inteligencję z doskonałym wyszukiwaniem i uzasadnianiem.

  • gemini-3-pro-image-preview

    Najnowocześniejszy model do generowania i edytowania obrazów.

  • gemini-3-pro-preview

    Nasz najinteligentniejszy model z najnowocześniejszym rozumowaniem i rozpoznawaniem multimodalnym oraz zaawansowanymi funkcjami agentowymi i vibe codingu.

  • gemini-3.1-pro-preview

    Nasz najnowszy model rozumowania SOTA o niespotykanej głębi i niuansach oraz zaawansowanych funkcjach rozpoznawania multimodalnego i kodowania.

  • gemini-3.1-flash-image-preview

    Profesjonalna inteligencja wizualna z błyskawiczną wydajnością i możliwością generowania realistycznych treści.

  • gemini-3.1-flash-lite-preview

    Nasz najbardziej opłacalny model zoptymalizowany pod kątem zadań agentowych o dużej liczbie żądań, tłumaczenia i prostego przetwarzania danych.

  • gemini-3.1-flash-tts-preview

    Gemini 3.1 Flash TTS: wydajne generowanie mowy z krótkim czasem oczekiwania. Korzystaj z naturalnych wyników, sterowanych promptów i nowych tagów audio, które pozwalają precyzyjnie kontrolować narrację.

  • lyria-3-clip-preview

    Nasz model generowania muzyki z niskim czasem oczekiwania, zoptymalizowany pod kątem klipów audio o wysokiej jakości i precyzyjnej kontroli rytmu.

  • lyria-3-pro-preview

    Nasz zaawansowany model generatywny pełnych utworów z dogłębnym zrozumieniem kompozycji, zoptymalizowany pod kątem precyzyjnej kontroli strukturalnej i złożonych przejść w różnych stylach muzycznych.

Model, który uzupełni prompta.\n\nWięcej informacji znajdziesz w sekcji [modele](https://ai.google.dev/gemini-api/docs/models).

agent AgentOption  (opcjonalnie)

Nazwa agenta użytego do wygenerowania interakcji.

Możliwe wartości:

  • deep-research-pro-preview-12-2025

    Agent Deep Research w Gemini

  • deep-research-preview-04-2026

    Agent Deep Research w Gemini

  • deep-research-max-preview-04-2026

    Agent Gemini Deep Research Max

Agent, z którym chcesz wchodzić w interakcje.

id ciąg znaków  (opcjonalny)

Wymagane. Tylko dane wyjściowe. Unikalny identyfikator zakończenia interakcji.

status enum (string)  (opcjonalnie)

Wymagane. Tylko dane wyjściowe. Stan interakcji.

Możliwe wartości:

  • in_progress
  • requires_action
  • completed
  • failed
  • cancelled
  • incomplete
created ciąg znaków  (opcjonalnie)

Wymagane. Tylko dane wyjściowe. Czas utworzenia odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).

updated string  (opcjonalnie)

Wymagane. Tylko dane wyjściowe. Czas ostatniej aktualizacji odpowiedzi w formacie ISO 8601 (RRRR-MM-DDThh:mm:ssZ).

role string  (opcjonalnie)

Tylko dane wyjściowe. Rola interakcji.

system_instruction ciąg  (opcjonalny)

Instrukcja systemowa dotycząca interakcji.

tools tablica (Tool)  (opcjonalnie)

Lista deklaracji narzędzi, do których model może się odwoływać podczas interakcji.

usage Usage  (opcjonalnie)

Tylko dane wyjściowe. Statystyki wykorzystania tokenów w żądaniu interakcji.

Statystyki wykorzystania tokenów w żądaniu interakcji.

Pola

total_input_tokens integer  (opcjonalnie)

Liczba tokenów w prompcie (kontekście).

input_tokens_by_modality ModalityTokens  (opcjonalnie)

Szczegółowe informacje o wykorzystaniu tokenów wejściowych według rodzaju danych.

Liczba tokenów dla pojedynczej modalności odpowiedzi.

Pola

modality ResponseModality  (opcjonalnie)

Rodzaj powiązany z liczbą tokenów.

Możliwe wartości:

  • text
  • image
  • audio
  • video
  • document

tokens liczba całkowita  (opcjonalnie)

Liczba tokenów dla danego rodzaju danych.

total_cached_tokens integer  (opcjonalnie)

Liczba tokenów w części promptu zapisanej w pamięci podręcznej (treści w pamięci podręcznej).

cached_tokens_by_modality ModalityTokens  (opcjonalnie)

Zestawienie wykorzystania tokenów w pamięci podręcznej według rodzaju.

Liczba tokenów dla pojedynczej modalności odpowiedzi.

Pola

modality ResponseModality  (opcjonalnie)

Rodzaj powiązany z liczbą tokenów.

Możliwe wartości:

  • text
  • image
  • audio
  • video
  • document

tokens liczba całkowita  (opcjonalnie)

Liczba tokenów dla danego rodzaju danych.

total_output_tokens liczba całkowita  (opcjonalnie)

Łączna liczba tokenów we wszystkich wygenerowanych odpowiedziach.

output_tokens_by_modality ModalityTokens  (opcjonalnie)

Zestawienie wykorzystania tokenów wyjściowych według rodzaju.

Liczba tokenów dla pojedynczej modalności odpowiedzi.

Pola

modality ResponseModality  (opcjonalnie)

Rodzaj powiązany z liczbą tokenów.

Możliwe wartości:

  • text
  • image
  • audio
  • video
  • document

tokens liczba całkowita  (opcjonalnie)

Liczba tokenów dla danego rodzaju danych.

total_tool_use_tokens integer  (opcjonalnie)

Liczba tokenów w promptach dotyczących korzystania z narzędzi.

tool_use_tokens_by_modality ModalityTokens  (opcjonalnie)

Zestawienie wykorzystania tokenów narzędzi według rodzaju.

Liczba tokenów dla pojedynczej modalności odpowiedzi.

Pola

modality ResponseModality  (opcjonalnie)

Rodzaj powiązany z liczbą tokenów.

Możliwe wartości:

  • text
  • image
  • audio
  • video
  • document

tokens liczba całkowita  (opcjonalnie)

Liczba tokenów dla danego rodzaju danych.

total_thought_tokens integer  (optional)

Liczba tokenów myśli w przypadku modeli myślących.

total_tokens integer  (opcjonalnie)

Łączna liczba tokenów w żądaniu interakcji (prompt + odpowiedzi + inne tokeny wewnętrzne).

grounding_tool_count GroundingToolCount  (opcjonalnie)

Liczba narzędzi uziemiających.

Liczba narzędzi uziemiających.

Pola

type enum (string)  (opcjonalnie)

Typ narzędzia do uziemienia powiązany z liczbą.

Możliwe wartości:

  • google_search
  • google_maps
  • retrieval
count liczba całkowita  (opcjonalnie)

Liczba narzędzi uziemiających.

response_modalities ResponseModality  (opcjonalnie)

Żądane rodzaje odpowiedzi (TEXT, IMAGE, AUDIO).

Możliwe wartości:

  • text
  • image
  • audio
  • video
  • document

response_mime_type ciąg  (opcjonalny)

Typ MIME odpowiedzi. Jest to wymagane, jeśli ustawiony jest parametr response_format.

previous_interaction_id string  (optional)

Identyfikator poprzedniej interakcji (jeśli wystąpiła).

service_tier ServiceTier  (opcjonalny)

Poziom usług interakcji.

Możliwe wartości:

  • flex
  • standard
  • priority

webhook_config WebhookConfig  (opcjonalnie)

Opcjonalnie. Konfiguracja webhooka do otrzymywania powiadomień o zakończeniu interakcji.

Wiadomość do konfigurowania zdarzeń webhooka dla żądania.

Pola

uris tablica (ciąg znaków)  (opcjonalnie)

Opcjonalnie. Jeśli ta opcja jest ustawiona, te identyfikatory URI webhooka będą używane w przypadku zdarzeń webhooka zamiast zarejestrowanych webhooków.

user_metadata object  (opcjonalny)

Opcjonalnie. Metadane użytkownika, które będą zwracane przy każdej emisji zdarzenia do webhooków.

steps Step  (opcjonalnie)

Tylko dane wyjściowe. Czynności, z których składa się interakcja.

Krok interakcji.

Możliwe typy

Dyskryminator polimorficzny: type

UserInputStep

Dane wejściowe podane przez użytkownika.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "user_input".

content tablica (Content)  (opcjonalnie)

Brak opisu

ModelOutputStep

Dane wyjściowe wygenerowane przez model.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "model_output".

content tablica (Content)  (opcjonalnie)

Brak opisu

ThoughtStep

Etap myślenia.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "thought".

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

summary ThoughtSummaryContent  (opcjonalnie)

podsumowanie myśli,

Możliwe typy

Dyskryminator polimorficzny: type

TextContent

Blok treści tekstowych.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

text string  (wymagany)

Wymagane. Zawartość tekstowa.

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

custom_metadata object  (opcjonalnie)

Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.

page_number integer  (opcjonalny)

Numer strony cytowanego dokumentu (w stosownych przypadkach).

media_id ciąg znaków  (opcjonalnie)

Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie dotyczące funkcji konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

ImageContent

Blok treści z obrazem.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

data string  (opcjonalnie)

treść obrazu;

uri string  (opcjonalnie)

Identyfikator URI obrazu.

mime_type enum (string)  (optional)

Typ MIME obrazu.

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
  • image/gif
  • image/bmp
  • image/tiff
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

FunctionCallStep

Krok wywołania narzędzia funkcji.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function_call".

name string  (wymagany)

Wymagane. Nazwa narzędzia do wywołania.

argumenty obiekt  (wymagany)

Wymagane. Argumenty, które mają zostać przekazane do funkcji.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

CodeExecutionCallStep

Krok wywołania wykonania kodu.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution_call".

arguments CodeExecutionCallStepArguments  (wymagany)

Wymagane. Argumenty przekazywane do wykonania kodu.

Argumenty przekazywane do wykonania kodu.

Pola

language enum (string)  (opcjonalny)

Język programowania kodu.

Możliwe wartości:

  • python
code string  (opcjonalnie)

Kod do wykonania.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

UrlContextCallStep

Krok wywołania kontekstu adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context_call".

arguments UrlContextCallStepArguments  (wymagany)

Wymagane. Argumenty do przekazania do kontekstu adresu URL.

Argumenty do przekazania do kontekstu adresu URL.

Pola

urls array (string)  (optional)

Adresy URL do pobrania.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

McpServerToolCallStep

Krok wywołania narzędzia MCPServer.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server_tool_call".

name string  (wymagany)

Wymagane. Nazwa wywołanego narzędzia.

server_name ciąg  (wymagany)

Wymagane. Nazwa używanego serwera MCP.

argumenty obiekt  (wymagany)

Wymagane. Obiekt JSON z argumentami funkcji.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleSearchCallStep

Krok połączenia z wyszukiwarką Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search_call".

arguments GoogleSearchCallStepArguments  (wymagany)

Wymagane. Argumenty do przekazania do wyszukiwarki Google.

Argumenty do przekazania do wyszukiwarki Google.

Pola

queries tablica (ciąg znaków)  (opcjonalnie)

Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.

search_type enum (string)  (optional)

Rodzaj włączonego groundingu z użyciem wyszukiwarki.

Możliwe wartości:

  • web_search
  • image_search
  • enterprise_web_search
id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FileSearchCallStep

Krok połączenia Wyszukiwanie plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search_call".

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleMapsCallStep

Krok połączenia z Mapami Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps_call".

arguments GoogleMapsCallStepArguments  (opcjonalnie)

Argumenty do przekazania do narzędzia Mapy Google.

Argumenty do przekazania do narzędzia Mapy Google.

Pola

queries tablica (ciąg znaków)  (opcjonalnie)

Zapytania do wykonania.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FunctionResultStep

Wynik wywołania narzędzia funkcji.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function_result".

name string  (opcjonalny)

Nazwa wywołanego narzędzia.

is_error boolean  (optional)

Informuje, czy wywołanie narzędzia spowodowało błąd.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

result tablica (FunctionResultSubcontent) lub ciąg znaków  (wymagany)

Wynik wywołania narzędzia.

CodeExecutionResultStep

Krok wyniku wykonania kodu.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution_result".

result string  (wymagany)

Wymagane. wynik wykonania kodu.

is_error boolean  (optional)

Czy podczas wykonywania kodu wystąpił błąd.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

UrlContextResultStep

Krok wyniku kontekstu adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context_result".

result UrlContextResultItem  (wymagany)

Wymagane. wyniki kontekstu adresu URL;

Wynik kontekstu adresu URL.

Pola

url string  (optional)

Pobrany adres URL.

status enum (string)  (opcjonalnie)

Stan pobierania adresu URL.

Możliwe wartości:

  • success
  • error
  • paywall
  • unsafe
is_error boolean  (optional)

Określa, czy kontekst adresu URL spowodował błąd.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleSearchResultStep

Krok wyniku wyszukiwania Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search_result".

result GoogleSearchResultItem  (wymagany)

Wymagane. wyniki wyszukiwania w Google.

Wynik wyszukiwania w Google.

Pola

search_suggestions ciąg  (opcjonalnie)

Fragment treści internetowych, który można umieścić na stronie internetowej lub w komponencie WebView aplikacji.

is_error boolean  (optional)

Czy wyszukiwanie w Google zakończyło się błędem.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

McpServerToolResultStep

Krok wyniku narzędzia MCPServer.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server_tool_result".

name string  (opcjonalny)

Nazwa narzędzia, które jest wywoływane w ramach tego konkretnego wywołania narzędzia.

server_name string  (opcjonalny)

Nazwa używanego serwera MCP.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

result tablica (FunctionResultSubcontent) lub ciąg znaków  (wymagany)

Dane wyjściowe wywołania serwera MCP. Może to być zwykły tekst lub szczegółowe treści.

FileSearchResultStep

Krok wyniku wyszukiwania plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search_result".

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleMapsResultStep

Krok wyniku Map Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps_result".

result GoogleMapsResultItem  (wymagany)

Brak opisu

Wynik w Mapach Google.

Pola

places GoogleMapsResultPlaces  (opcjonalnie)

Brak opisu

Pola

place_id string  (opcjonalny)

Brak opisu

name string  (opcjonalny)

Brak opisu

url string  (optional)

Brak opisu

review_snippets ReviewSnippet  (opcjonalnie)

Brak opisu

Zawiera fragment opinii użytkownika, który odpowiada na pytanie dotyczące funkcji konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

widget_context_token ciąg  (opcjonalny)

Brak opisu

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

input Content lub tablica (Content) lub tablica (Step) lub ciąg znaków  (opcjonalnie)

Dane wejściowe interakcji.

response_format ResponseFormat lub ResponseFormatList  (opcjonalny)

Wymusza, aby wygenerowana odpowiedź była obiektem JSON zgodnym ze schematem JSON określonym w tym polu.

agent_config object  (opcjonalnie)

Parametry konfiguracji interakcji z agentem.

Możliwe typy

Dyskryminator polimorficzny: type

DynamicAgentConfig

Konfiguracja agentów dynamicznych.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "dynamic".

DeepResearchAgentConfig

Konfiguracja agenta Deep Research.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "deep-research".

thinking_summaries ThinkingSummaries  (opcjonalnie)

Określa, czy w odpowiedzi mają się pojawiać podsumowania myśli.

Możliwe wartości:

  • auto
  • none

visualization enum (string)  (opcjonalnie)

Określa, czy w odpowiedzi mają być uwzględnione wizualizacje.

Możliwe wartości:

  • off
  • auto
collaborative_planning wartość logiczna  (opcjonalny)

Umożliwia planowanie z udziałem człowieka dla agenta Deep Research. Jeśli wartość to „true”, agent Deep Research w odpowiedzi przedstawi plan badań. Agent będzie kontynuować tylko wtedy, gdy użytkownik potwierdzi plan w kolejnej turze.

Przykłady

Przykład

{
  "created": "2025-12-04T15:01:45Z",
  "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg",
  "model": "gemini-3-flash-preview",
  "object": "interaction",
  "steps": [
    {
      "type": "model_output",
      "content": [
        {
          "type": "text",
          "text": "Hello! I'm doing well, functioning as expected. Thank you for asking! How are you doing today?"
        }
      ]
    }
  ],
  "status": "completed",
  "updated": "2025-12-04T15:01:45Z",
  "usage": {
    "input_tokens_by_modality": [
      {
        "modality": "text",
        "tokens": 7
      }
    ],
    "total_cached_tokens": 0,
    "total_input_tokens": 7,
    "total_output_tokens": 23,
    "total_thought_tokens": 49,
    "total_tokens": 79,
    "total_tool_use_tokens": 0
  }
}

Modele danych

Treść

Treść odpowiedzi.

Możliwe typy

Dyskryminator polimorficzny: type

TextContent

Blok treści tekstowych.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

text string  (wymagany)

Wymagane. Zawartość tekstowa.

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

custom_metadata object  (opcjonalnie)

Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.

page_number integer  (opcjonalny)

Numer strony cytowanego dokumentu (w stosownych przypadkach).

media_id ciąg znaków  (opcjonalnie)

Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie dotyczące funkcji konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

ImageContent

Blok treści z obrazem.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

data string  (opcjonalnie)

treść obrazu;

uri string  (opcjonalnie)

Identyfikator URI obrazu.

mime_type enum (string)  (optional)

Typ MIME obrazu.

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
  • image/gif
  • image/bmp
  • image/tiff
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

AudioContent

blok treści audio,

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "audio".

data string  (opcjonalnie)

treści audio,

uri string  (opcjonalnie)

Identyfikator URI dźwięku.

mime_type enum (string)  (optional)

Typ MIME dźwięku.

Możliwe wartości:

  • audio/wav
  • audio/mp3
  • audio/aiff
  • audio/aac
  • audio/ogg
  • audio/flac
  • audio/mpeg
  • audio/m4a
  • audio/l16
  • audio/opus
  • audio/alaw
  • audio/mulaw
channels liczba całkowita  (opcjonalnie)

Liczba kanałów audio.

sample_rate liczba całkowita  (opcjonalnie)

Częstotliwość próbkowania dźwięku.

DocumentContent

Blok treści dokumentu.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "document".

data string  (opcjonalnie)

Treść dokumentu.

uri string  (opcjonalnie)

Identyfikator URI dokumentu.

mime_type enum (string)  (optional)

Typ MIME dokumentu.

Możliwe wartości:

  • application/pdf
VideoContent

Blok treści wideo.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "video".

data string  (opcjonalnie)

treści wideo,

uri string  (opcjonalnie)

Identyfikator URI filmu.

mime_type enum (string)  (optional)

Typ MIME filmu.

Możliwe wartości:

  • video/mp4
  • video/mpeg
  • video/mpg
  • video/mov
  • video/avi
  • video/x-flv
  • video/webm
  • video/wmv
  • video/3gpp
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

Przykłady

Tekst

{
  "type": "text",
  "text": "Hello, how are you?"
}

Obraz

{
  "type": "image",
  "data": "BASE64_ENCODED_IMAGE",
  "mime_type": "image/png"
}

Audio

{
  "type": "audio",
  "data": "BASE64_ENCODED_AUDIO",
  "mime_type": "audio/wav"
}

Dokument

{
  "type": "document",
  "data": "BASE64_ENCODED_DOCUMENT",
  "mime_type": "application/pdf"
}

Wideo

{
  "type": "video",
  "uri": "https://www.youtube.com/watch?v=9hE5-98ZeCg"
}

Narzędzie

Narzędzie, z którego może korzystać model.

Możliwe typy

Dyskryminator polimorficzny: type

Funkcja

Narzędzie, z którego może korzystać model.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function".

name string  (opcjonalny)

Nazwa funkcji.

description ciąg znaków  (opcjonalnie)

Opis funkcji.

parameters object  (opcjonalny)

Schemat JSON parametrów funkcji.

CodeExecution

Narzędzie, którego model może używać do wykonywania kodu.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution".

UrlContext

Narzędzie, którego model może używać do pobierania kontekstu adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context".

ComputerUse

Narzędzie, którego model może używać do interakcji z komputerem.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "computer_use".

environment enum (string)  (opcjonalny)

środowisko, w którym działa usługa;

Możliwe wartości:

  • browser
excluded_predefined_functions tablica (ciąg znaków)  (opcjonalnie)

Lista wstępnie zdefiniowanych funkcji, które są wykluczone z wywołania modelu.

McpServer

Serwer MCP to serwer, który może być wywoływany przez model w celu wykonywania działań.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server".

name string  (opcjonalny)

Nazwa serwera MCP.

url string  (optional)

Pełny adres URL punktu końcowego MCPServer. Przykład: „https://api.example.com/mcp”

headers object  (opcjonalnie)

Opcjonalnie: pola nagłówków uwierzytelniania, limitów czasu itp. (w razie potrzeby).

allowed_tools AllowedTools  (opcjonalnie)

dozwolone narzędzia;

Konfiguracja dozwolonych narzędzi.

Pola

mode ToolChoiceType  (opcjonalnie)

Tryb wyboru narzędzia.

Możliwe wartości:

  • auto
  • any
  • none
  • validated

tools tablica (ciąg znaków)  (opcjonalnie)

Nazwy dozwolonych narzędzi.

GoogleSearch

Narzędzie, którego model może używać do wyszukiwania w Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search".

search_types tablica (enum (string))  (opcjonalnie)

Rodzaje groundingu z użyciem wyszukiwarki, które chcesz włączyć.

Możliwe wartości:

  • web_search
  • image_search
  • enterprise_web_search
FileSearch

Narzędzie, którego model może używać do wyszukiwania plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search".

file_search_store_names tablica (ciąg znaków)  (opcjonalnie)

Plik wyszukuje nazwy sklepów.

top_k liczba całkowita  (opcjonalnie)

Liczba fragmentów do pobrania w ramach wyszukiwania semantycznego.

metadata_filter ciąg  (opcjonalny)

Filtr metadanych, który ma być stosowany do dokumentów i fragmentów pobranych semantycznie.

GoogleMaps

Narzędzie, którego model może używać do wywoływania Map Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps".

enable_widget boolean  (opcjonalnie)

Określa, czy w wyniku wywołania narzędzia w odpowiedzi ma zostać zwrócony token kontekstu widżetu.

latitude number  (opcjonalny)

Szerokość geograficzna lokalizacji użytkownika.

longitude number  (opcjonalny)

Długość geograficzna lokalizacji użytkownika.

Pobieranie

Narzędzie, którego model może używać do pobierania plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "retrieval".

retrieval_types tablica (enum (string))  (opcjonalnie)

Typy pobierania plików do włączenia.

Możliwe wartości:

  • vertex_ai_search
vertex_ai_search_config VertexAISearchConfig  (opcjonalnie)

Służy do określania konfiguracji VertexAISearch.

Służy do określania konfiguracji VertexAISearch.

Pola

engine string  (opcjonalnie)

Opcjonalnie. Służy do określania wyszukiwarki Vertex AI Search.

datastores tablica (ciąg znaków)  (opcjonalnie)

Opcjonalnie. Służy do określania repozytoriów danych Vertex AI Search.

Przykłady

Funkcja

CodeExecution

UrlContext

ComputerUse

McpServer

GoogleSearch

FileSearch

GoogleMaps

Pobieranie

Brak przykładów tego typu.

InteractionSseEvent

Możliwe typy

Dyskryminator polimorficzny: event_type

InteractionCreatedEvent

event_type object  (wymagany)

Brak opisu

Zawsze ustawiona na "interaction.created".

interaction Interaction  (wymagany)

Brak opisu

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

InteractionCompletedEvent

event_type object  (wymagany)

Brak opisu

Zawsze ustawiona na "interaction.completed".

interaction Interaction  (wymagany)

Wymagane. Zakończona interakcja z pustymi danymi wyjściowymi w celu zmniejszenia rozmiaru ładunku. Użyj poprzednich zdarzeń ContentDelta, aby uzyskać rzeczywiste dane wyjściowe.

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

InteractionStatusUpdate

event_type object  (wymagany)

Brak opisu

Zawsze ustawiona na "interaction.status_update".

interaction_id ciąg  (wymagany)

Brak opisu

status enum (string)  (required)

Brak opisu

Możliwe wartości:

  • in_progress
  • requires_action
  • completed
  • failed
  • cancelled
  • incomplete
event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

ErrorEvent

event_type object  (wymagany)

Brak opisu

Zawsze ustawiona na "error".

error Error  (opcjonalnie)

Brak opisu

Komunikat o błędzie z interakcji.

Pola

code string  (opcjonalnie)

Identyfikator URI określający typ błędu.

message string  (opcjonalnie)

Komunikat o błędzie zrozumiały dla człowieka.

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

StepStart

event_type object  (wymagany)

Brak opisu

Zawsze ustawiona na "step.start".

index liczba całkowita  (wymagany)

Brak opisu

step Step  (wymagany)

Brak opisu

Krok interakcji.

Możliwe typy

Dyskryminator polimorficzny: type

UserInputStep

Dane wejściowe podane przez użytkownika.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "user_input".

content tablica (Content)  (opcjonalnie)

Brak opisu

ModelOutputStep

Dane wyjściowe wygenerowane przez model.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "model_output".

content tablica (Content)  (opcjonalnie)

Brak opisu

ThoughtStep

Etap myślenia.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "thought".

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

summary ThoughtSummaryContent  (opcjonalnie)

podsumowanie myśli,

Możliwe typy

Dyskryminator polimorficzny: type

TextContent

Blok treści tekstowych.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

text string  (wymagany)

Wymagane. Zawartość tekstowa.

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

custom_metadata object  (opcjonalnie)

Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.

page_number integer  (opcjonalny)

Numer strony cytowanego dokumentu (w stosownych przypadkach).

media_id ciąg znaków  (opcjonalnie)

Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie dotyczące funkcji konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

ImageContent

Blok treści z obrazem.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

data string  (opcjonalnie)

treść obrazu;

uri string  (opcjonalnie)

Identyfikator URI obrazu.

mime_type enum (string)  (optional)

Typ MIME obrazu.

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
  • image/gif
  • image/bmp
  • image/tiff
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

FunctionCallStep

Krok wywołania narzędzia funkcji.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function_call".

name string  (wymagany)

Wymagane. Nazwa narzędzia do wywołania.

argumenty obiekt  (wymagany)

Wymagane. Argumenty, które mają zostać przekazane do funkcji.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

CodeExecutionCallStep

Krok wywołania wykonania kodu.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution_call".

arguments CodeExecutionCallStepArguments  (wymagany)

Wymagane. Argumenty przekazywane do wykonania kodu.

Argumenty przekazywane do wykonania kodu.

Pola

language enum (string)  (opcjonalny)

Język programowania kodu.

Możliwe wartości:

  • python
code string  (opcjonalnie)

Kod do wykonania.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

UrlContextCallStep

Krok wywołania kontekstu adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context_call".

arguments UrlContextCallStepArguments  (wymagany)

Wymagane. Argumenty do przekazania do kontekstu adresu URL.

Argumenty do przekazania do kontekstu adresu URL.

Pola

urls array (string)  (optional)

Adresy URL do pobrania.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

McpServerToolCallStep

Krok wywołania narzędzia MCPServer.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server_tool_call".

name string  (wymagany)

Wymagane. Nazwa wywołanego narzędzia.

server_name ciąg  (wymagany)

Wymagane. Nazwa używanego serwera MCP.

argumenty obiekt  (wymagany)

Wymagane. Obiekt JSON z argumentami funkcji.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleSearchCallStep

Krok połączenia z wyszukiwarką Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search_call".

arguments GoogleSearchCallStepArguments  (wymagany)

Wymagane. Argumenty do przekazania do wyszukiwarki Google.

Argumenty do przekazania do wyszukiwarki Google.

Pola

queries tablica (ciąg znaków)  (opcjonalnie)

Zapytania do wyszukiwarki internetowej, które można wykorzystać w dalszym wyszukiwaniu.

search_type enum (string)  (optional)

Rodzaj włączonego groundingu z użyciem wyszukiwarki.

Możliwe wartości:

  • web_search
  • image_search
  • enterprise_web_search
id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FileSearchCallStep

Krok połączenia Wyszukiwanie plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search_call".

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleMapsCallStep

Krok połączenia z Mapami Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps_call".

arguments GoogleMapsCallStepArguments  (opcjonalnie)

Argumenty do przekazania do narzędzia Mapy Google.

Argumenty do przekazania do narzędzia Mapy Google.

Pola

queries tablica (ciąg znaków)  (opcjonalnie)

Zapytania do wykonania.

id ciąg znaków  (wymagany)

Wymagane. Unikalny identyfikator tego konkretnego wywołania narzędzia.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

FunctionResultStep

Wynik wywołania narzędzia funkcji.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "function_result".

name string  (opcjonalny)

Nazwa wywołanego narzędzia.

is_error boolean  (optional)

Informuje, czy wywołanie narzędzia spowodowało błąd.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

result tablica (FunctionResultSubcontent) lub ciąg znaków  (wymagany)

Wynik wywołania narzędzia.

CodeExecutionResultStep

Krok wyniku wykonania kodu.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "code_execution_result".

result string  (wymagany)

Wymagane. wynik wykonania kodu.

is_error boolean  (optional)

Czy podczas wykonywania kodu wystąpił błąd.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

UrlContextResultStep

Krok wyniku kontekstu adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_context_result".

result UrlContextResultItem  (wymagany)

Wymagane. wyniki kontekstu adresu URL;

Wynik kontekstu adresu URL.

Pola

url string  (optional)

Pobrany adres URL.

status enum (string)  (opcjonalnie)

Stan pobierania adresu URL.

Możliwe wartości:

  • success
  • error
  • paywall
  • unsafe
is_error boolean  (optional)

Określa, czy kontekst adresu URL spowodował błąd.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleSearchResultStep

Krok wyniku wyszukiwania Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_search_result".

result GoogleSearchResultItem  (wymagany)

Wymagane. wyniki wyszukiwania w Google.

Wynik wyszukiwania w Google.

Pola

search_suggestions ciąg  (opcjonalnie)

Fragment treści internetowych, który można umieścić na stronie internetowej lub w komponencie WebView aplikacji.

is_error boolean  (optional)

Czy wyszukiwanie w Google zakończyło się błędem.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

McpServerToolResultStep

Krok wyniku narzędzia MCPServer.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "mcp_server_tool_result".

name string  (opcjonalny)

Nazwa narzędzia, które jest wywoływane w ramach tego konkretnego wywołania narzędzia.

server_name string  (opcjonalny)

Nazwa używanego serwera MCP.

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

result tablica (FunctionResultSubcontent) lub ciąg znaków  (wymagany)

Dane wyjściowe wywołania serwera MCP. Może to być zwykły tekst lub szczegółowe treści.

FileSearchResultStep

Krok wyniku wyszukiwania plików.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_search_result".

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

GoogleMapsResultStep

Krok wyniku Map Google.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "google_maps_result".

result GoogleMapsResultItem  (wymagany)

Brak opisu

Wynik w Mapach Google.

Pola

places GoogleMapsResultPlaces  (opcjonalnie)

Brak opisu

Pola

place_id string  (opcjonalny)

Brak opisu

name string  (opcjonalny)

Brak opisu

url string  (optional)

Brak opisu

review_snippets ReviewSnippet  (opcjonalnie)

Brak opisu

Zawiera fragment opinii użytkownika, który odpowiada na pytanie dotyczące funkcji konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

widget_context_token ciąg  (opcjonalny)

Brak opisu

call_id string  (wymagany)

Wymagane. Identyfikator pasujący do identyfikatora z bloku wywołania funkcji.

signature string  (opcjonalnie)

Hash podpisu do weryfikacji na backendzie.

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

StepDelta

event_type object  (wymagany)

Brak opisu

Zawsze ustawiona na "step.delta".

index liczba całkowita  (wymagany)

Brak opisu

delta StepDeltaData  (wymagane)

Brak opisu

Możliwe typy

Dyskryminator polimorficzny: type

TextDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

text string  (wymagany)

Brak opisu

ImageDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

data string  (opcjonalnie)

Brak opisu

uri string  (opcjonalnie)

Brak opisu

mime_type enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
  • image/gif
  • image/bmp
  • image/tiff
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

AudioDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "audio".

data string  (opcjonalnie)

Brak opisu

uri string  (opcjonalnie)

Brak opisu

mime_type enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • audio/wav
  • audio/mp3
  • audio/aiff
  • audio/aac
  • audio/ogg
  • audio/flac
  • audio/mpeg
  • audio/m4a
  • audio/l16
  • audio/opus
  • audio/alaw
  • audio/mulaw
rate integer  (opcjonalnie)

Rola wycofana. Zamiast tego użyj parametru sample_rate. Wartość jest ignorowana.

sample_rate liczba całkowita  (opcjonalnie)

Częstotliwość próbkowania dźwięku.

channels liczba całkowita  (opcjonalnie)

Liczba kanałów audio.

DocumentDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "document".

data string  (opcjonalnie)

Brak opisu

uri string  (opcjonalnie)

Brak opisu

mime_type enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • application/pdf
VideoDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "video".

data string  (opcjonalnie)

Brak opisu

uri string  (opcjonalnie)

Brak opisu

mime_type enum (string)  (optional)

Brak opisu

Możliwe wartości:

  • video/mp4
  • video/mpeg
  • video/mpg
  • video/mov
  • video/avi
  • video/x-flv
  • video/webm
  • video/wmv
  • video/3gpp
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

ThoughtSummaryDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "thought_summary".

content ThoughtSummaryContent  (opcjonalnie)

Nowy element podsumowania do dodania do przemyślenia.

Możliwe typy

Dyskryminator polimorficzny: type

TextContent

Blok treści tekstowych.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text".

text string  (wymagany)

Wymagane. Zawartość tekstowa.

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

custom_metadata object  (opcjonalnie)

Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.

page_number integer  (opcjonalny)

Numer strony cytowanego dokumentu (w stosownych przypadkach).

media_id ciąg znaków  (opcjonalnie)

Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie dotyczące funkcji konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

ImageContent

Blok treści z obrazem.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "image".

data string  (opcjonalnie)

treść obrazu;

uri string  (opcjonalnie)

Identyfikator URI obrazu.

mime_type enum (string)  (optional)

Typ MIME obrazu.

Możliwe wartości:

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif
  • image/gif
  • image/bmp
  • image/tiff
resolution MediaResolution  (opcjonalny)

Rozdzielczość multimediów.

Możliwe wartości:

  • low
  • medium
  • high
  • ultra_high

ThoughtSignatureDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "thought_signature".

signature string  (opcjonalnie)

Sygnatura dopasowująca źródło backendu, które ma być częścią generowania.

TextAnnotationDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "text_annotation_delta".

adnotacje Adnotacja  (opcjonalnie)

Informacje o cytowaniu treści wygenerowanych przez model.

Informacje o cytowaniu treści wygenerowanych przez model.

Możliwe typy

Dyskryminator polimorficzny: type

UrlCitation

Adnotacja z cytatem adresu URL.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "url_citation".

url string  (optional)

Adres URL.

title string  (opcjonalny)

Tytuł adresu URL.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

FileCitation

Adnotacja z cytatem z pliku.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "file_citation".

document_uri ciąg  (opcjonalny)

Identyfikator URI pliku.

file_name ciąg  (opcjonalny)

Nazwa pliku.

source string  (opcjonalnie)

Źródło przypisane do fragmentu tekstu.

custom_metadata object  (opcjonalnie)

Metadane przekazywane przez użytkownika dotyczące pobranego kontekstu.

page_number integer  (opcjonalny)

Numer strony cytowanego dokumentu (w stosownych przypadkach).

media_id ciąg znaków  (opcjonalnie)

Identyfikator multimediów w przypadku cytatów z obrazów (jeśli ma zastosowanie).

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

PlaceCitation

Adnotacja cytatu miejsca.

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "place_citation".

place_id string  (opcjonalny)

Identyfikator miejsca w formacie `places/{place_id}`.

name string  (opcjonalny)

Nazwa miejsca.

url string  (optional)

Odwołanie do identyfikatora URI miejsca.

review_snippets ReviewSnippet  (opcjonalnie)

fragmenty opinii, które są używane do generowania odpowiedzi na pytania o funkcje danego miejsca w Mapach Google;

Zawiera fragment opinii użytkownika, który odpowiada na pytanie dotyczące funkcji konkretnego miejsca w Mapach Google.

Pola

title string  (opcjonalny)

Tytuł opinii.

url string  (optional)

Link do opinii użytkownika w Mapach Google.

review_id string  (opcjonalny)

Identyfikator fragmentu opinii.

start_index integer  (opcjonalnie)

Początek segmentu odpowiedzi przypisanego do tego źródła. Indeks wskazuje początek segmentu (mierzony w bajtach).

end_index integer  (opcjonalnie)

Koniec przypisanego segmentu (wyłącznie).

ArgumentsDelta

type object  (wymagany)

Brak opisu

Zawsze ustawiona na "arguments_delta".

partial_arguments ciąg  (opcjonalny)

Brak opisu

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

StepStop

event_type object  (wymagany)

Brak opisu

Zawsze ustawiona na "step.stop".

index liczba całkowita  (wymagany)

Brak opisu

event_id ciąg  (opcjonalny)

Token event_id, który ma być używany do wznowienia strumienia interakcji od tego zdarzenia.

Przykłady

Utworzono interakcję

{
  "event_type": "interaction.created",
  "interaction": {
    "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg",
    "model": "gemini-3-flash-preview",
    "status": "in_progress",
    "created": "2025-12-04T15:01:45Z",
    "updated": "2025-12-04T15:01:45Z"
  },
  "event_id": "evt_123"
}

Interakcja zakończona

{
  "event_type": "interaction.completed",
  "interaction": {
    "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg",
    "model": "gemini-3-flash-preview",
    "status": "completed",
    "created": "2025-12-04T15:01:45Z",
    "updated": "2025-12-04T15:01:45Z"
  },
  "event_id": "evt_123"
}

Aktualizacja stanu interakcji

{
  "event_type": "interaction.status_update",
  "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM",
  "status": "in_progress"
}

Zdarzenie błędu

{
  "event_type": "error",
  "error": {
    "message": "Failed to get completed interaction: Result not found.",
    "code": "not_found"
  }
}

Krok początkowy

{
  "event_type": "step.start",
  "index": 0,
  "step": {
    "type": "model_output"
  }
}

Delta kroków

{
  "event_type": "step.delta",
  "index": 0,
  "delta": {
    "type": "text",
    "text": "Hello"
  }
}

Zatrzymaj krok

{
  "event_type": "step.stop",
  "index": 0
}