Live API - WebSockets API reference

Interfejs Live API to interfejs API z zachowywaniem stanu, który korzysta z WebSockets. W tej sekcji znajdziesz dodatkowe informacje o interfejsie WebSockets API.

Sesje

Połączenie WebSocket nawiązuje sesję między klientem a serwerem Gemini. Gdy klient zainicjuje nowe połączenie, sesja może wymieniać wiadomości z serwerem w celu:

  • wysyłanie tekstu, dźwięku lub filmu na serwer Gemini;
  • Otrzymywanie z serwera Gemini próśb dotyczących dźwięku, tekstu lub wywoływania funkcji.

Połączenie WebSocket

Aby rozpocząć sesję, połącz się z tym punktem końcowym WebSocket:

wss://generativelanguage.googleapis.com/ws/google.ai.generativelanguage.v1beta.GenerativeService.BidiGenerateContent

Konfiguracja sesji

Pierwsza wiadomość wysłana po nawiązaniu połączenia WebSocket określa konfigurację sesji, która obejmuje model, parametry generowania, instrukcje systemowe i narzędzia.

Nie możesz zaktualizować konfiguracji, gdy połączenie jest otwarte. Możesz jednak zmienić parametry konfiguracji (z wyjątkiem modelu) podczas wstrzymywania i wznawiania za pomocą mechanizmu wznawiania sesji.

Zapoznaj się z przykładem konfiguracji poniżej. Pamiętaj, że w pakietach SDK wielkość liter w nazwach może się różnić. Opcje konfiguracji pakietu SDK w Pythonie znajdziesz tutaj


{
  "model": string,
  "generationConfig": {
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "responseModalities": [string],
    "speechConfig": object,
    "mediaResolution": object
  },
  "systemInstruction": string,
  "tools": [object]
}

Więcej informacji o polu interfejsu API znajdziesz w sekcji generationConfig.

Wysyłanie wiadomości

Aby wymieniać wiadomości przez połączenie WebSocket, klient musi wysłać obiekt JSON przez otwarte połączenie WebSocket. Obiekt JSON musi zawierać dokładnie jedno pole z tego zestawu:


{
  "setup": BidiGenerateContentSetup,
  "clientContent": BidiGenerateContentClientContent,
  "realtimeInput": BidiGenerateContentRealtimeInput,
  "toolResponse": BidiGenerateContentToolResponse
}

Obsługiwane wiadomości od klientów

Obsługiwane wiadomości od klienta znajdziesz w tabeli poniżej:

Wiadomość Opis
BidiGenerateContentSetup Konfiguracja sesji do wysłania w pierwszej wiadomości
BidiGenerateContentClientContent Przyrostowa aktualizacja treści bieżącej rozmowy dostarczona przez klienta
BidiGenerateContentRealtimeInput dźwięk, obraz wideo lub tekst w czasie rzeczywistym,
BidiGenerateContentToolResponse Odpowiedź na ToolCallMessage otrzymane z serwera

Odbieranie wiadomości

Aby otrzymywać wiadomości z Gemini, nasłuchuj zdarzenia „message” WebSocket, a następnie analizuj wynik zgodnie z definicją obsługiwanych wiadomości serwera.

Zobacz:

async with client.aio.live.connect(model='...', config=config) as session:
    await session.send(input='Hello world!', end_of_turn=True)
    async for message in session.receive():
        print(message)

Wiadomości serwera mogą zawierać pole usageMetadata, ale w przeciwnym razie będą zawierać dokładnie jedno z pozostałych pól z wiadomości BidiGenerateContentServerMessage. (Unia messageType nie jest wyrażona w formacie JSON, więc pole pojawi się na najwyższym poziomie wiadomości).

Wiadomości i wydarzenia

ActivityEnd

Ten typ nie ma pól.

Oznacza koniec aktywności użytkownika.

ActivityHandling

Różne sposoby obsługi aktywności użytkowników.

Wartości w polu enum
ACTIVITY_HANDLING_UNSPECIFIED Jeśli nie określisz tu żadnej wartości, zostanie użyte ustawienie domyślne START_OF_ACTIVITY_INTERRUPTS.
START_OF_ACTIVITY_INTERRUPTS Jeśli ma wartość „true” (prawda), rozpoczęcie aktywności przerwie odpowiedź modelu (tzw. „barge in”). Obecna odpowiedź modelu zostanie przerwana w momencie przerwania. Jest to zachowanie domyślne.
NO_INTERRUPTION Odpowiedź modelu nie zostanie przerwana.

ActivityStart

Ten typ nie ma pól.

Oznacza początek aktywności użytkownika.

AudioTranscriptionConfig

Ten typ nie ma pól.

Konfiguracja transkrypcji dźwięku.

AutomaticActivityDetection

Konfiguruje automatyczne wykrywanie aktywności.

Pola
disabled

bool

Opcjonalnie. Jeśli ta opcja jest włączona (domyślnie), wykryte dane głosowe i tekstowe są traktowane jako aktywność. Jeśli ta opcja jest wyłączona, klient musi wysyłać sygnały aktywności.

startOfSpeechSensitivity

StartSensitivity

Opcjonalnie. Określa prawdopodobieństwo wykrycia mowy.

prefixPaddingMs

int32

Opcjonalnie. Wymagany czas wykrytej mowy przed zatwierdzeniem początku mowy. Im niższa ta wartość, tym większa czułość wykrywania początku mowy i tym krótsze wypowiedzi mogą być rozpoznawane. Zwiększa to jednak prawdopodobieństwo wyników fałszywie pozytywnych.

endOfSpeechSensitivity

EndSensitivity

Opcjonalnie. Określa, jak prawdopodobne jest zakończenie wykrytej mowy.

silenceDurationMs

int32

Opcjonalnie. Wymagany czas trwania wykrytego dźwięku innego niż mowa (np. ciszy) przed zatwierdzeniem końca mowy. Im większa ta wartość, tym dłuższe mogą być przerwy w mowie bez przerywania aktywności użytkownika, ale zwiększy to opóźnienie modelu.

BidiGenerateContentClientContent

Przyrostowa aktualizacja bieżącej rozmowy dostarczona przez klienta. Wszystkie treści w tym miejscu są bezwarunkowo dołączane do historii rozmowy i używane jako część promptu dla modelu w celu generowania treści.

Wiadomość w tym miejscu przerwie bieżące generowanie modelu.

Pola
turns[]

Content

Opcjonalnie. Treść dołączona do bieżącej rozmowy z modelem.

W przypadku zapytań jednorazowych jest to pojedyncza instancja. W przypadku zapytań wieloetapowych jest to pole powtarzane, które zawiera historię rozmowy i najnowsze żądanie.

turnComplete

bool

Opcjonalnie. Jeśli wartość to „true”, oznacza to, że generowanie treści na serwerze powinno rozpocząć się od aktualnie zgromadzonego promptu. W przeciwnym razie serwer czeka na dodatkowe wiadomości przed rozpoczęciem generowania.

BidiGenerateContentRealtimeInput

Dane wejściowe użytkownika przesyłane w czasie rzeczywistym.

Poszczególne rodzaje danych (audio, wideo i tekst) są obsługiwane jako równoległe strumienie. Kolejność w tych strumieniach nie jest gwarantowana.

Różni się on od BidiGenerateContentClientContent w kilku aspektach:

  • Można je wysyłać w sposób ciągły bez przerywania generowania modelu.
  • Jeśli zajdzie potrzeba połączenia danych przeplatanych w BidiGenerateContentClientContentBidiGenerateContentRealtimeInput, serwer spróbuje zoptymalizować odpowiedź, ale nie ma gwarancji, że to się uda.
  • Koniec tury nie jest określony w sposób jednoznaczny, ale wynika z aktywności użytkownika (np. zakończenia mowy).
  • Dane są przetwarzane przyrostowo jeszcze przed zakończeniem tury, aby zoptymalizować szybkie rozpoczęcie odpowiedzi modelu.
Pola
mediaChunks[]

Blob

Opcjonalnie. Dane w formacie bajtów wstawione w tekście na potrzeby danych wejściowych multimediów. Wiele elementów mediaChunks nie jest obsługiwanych. Wszystkie elementy oprócz pierwszego zostaną zignorowane.

WYCOFANO: zamiast niej użyj jednej z tych zasad: audio, video lub text.

audio

Blob

Opcjonalnie. Tworzą one strumień wejściowy dźwięku w czasie rzeczywistym.

video

Blob

Opcjonalnie. Tworzą one strumień wejściowy wideo w czasie rzeczywistym.

activityStart

ActivityStart

Opcjonalnie. Oznacza początek aktywności użytkownika. Można go wysłać tylko wtedy, gdy automatyczne (czyli po stronie serwera) wykrywanie aktywności jest wyłączone.

activityEnd

ActivityEnd

Opcjonalnie. Oznacza koniec aktywności użytkownika. Można go wysłać tylko wtedy, gdy automatyczne (czyli po stronie serwera) wykrywanie aktywności jest wyłączone.

audioStreamEnd

bool

Opcjonalnie. Wskazuje, że strumień audio został zakończony, np. z powodu wyłączenia mikrofonu.

To zdarzenie powinno być wysyłane tylko wtedy, gdy włączone jest automatyczne wykrywanie aktywności (które jest domyślnie włączone).

Klient może ponownie otworzyć strumień, wysyłając wiadomość audio.

text

string

Opcjonalnie. Tworzą one strumień danych wejściowych tekstu w czasie rzeczywistym.

BidiGenerateContentServerContent

Przyrostowa aktualizacja serwera wygenerowana przez model w odpowiedzi na wiadomości klienta.

Treści są generowane tak szybko, jak to możliwe, a nie w czasie rzeczywistym. Klienci mogą buforować i odtwarzać je w czasie rzeczywistym.

Pola
generationComplete

bool

Tylko dane wyjściowe. Jeśli ma wartość true, oznacza to, że model zakończył generowanie.

Jeśli model zostanie przerwany podczas generowania, w przerwanym cyklu nie pojawi się komunikat „generation_complete”. Zamiast tego nastąpi przejście „interrupted > turn_complete”.

Gdy model zakłada odtwarzanie w czasie rzeczywistym, między zdarzeniami generation_complete i turn_complete występuje opóźnienie spowodowane oczekiwaniem modelu na zakończenie odtwarzania.

turnComplete

bool

Tylko dane wyjściowe. Jeśli ma wartość true, oznacza to, że model zakończył swoją turę. Generowanie rozpocznie się tylko w odpowiedzi na dodatkowe wiadomości od klienta.

interrupted

bool

Tylko dane wyjściowe. Jeśli wartość to „true”, oznacza to, że wiadomość od klienta przerwała bieżące generowanie modelu. Jeśli klient odtwarza treści w czasie rzeczywistym, jest to dobry sygnał, aby zatrzymać odtwarzanie i opróżnić bieżącą kolejkę odtwarzania.

groundingMetadata

GroundingMetadata

Tylko dane wyjściowe. Metadane dotyczące wygenerowanych treści.

inputTranscription

BidiGenerateContentTranscription

Tylko dane wyjściowe. Wpisz transkrypcję dźwięku. Transkrypcja jest wysyłana niezależnie od innych wiadomości serwera i nie ma gwarancji kolejności.

outputTranscription

BidiGenerateContentTranscription

Tylko dane wyjściowe. Wyjście transkrypcji audio. Transkrypcja jest wysyłana niezależnie od innych wiadomości serwera i nie ma gwarancji kolejności, w szczególności między serverContent a tym outputTranscription.

urlContextMetadata

UrlContextMetadata

modelTurn

Content

Tylko dane wyjściowe. Treści wygenerowane przez model w ramach bieżącej rozmowy z użytkownikiem.

BidiGenerateContentServerMessage

Wiadomość odpowiedzi na wywołanie BidiGenerateContent.

Pola
usageMetadata

UsageMetadata

Tylko dane wyjściowe. Metadane dotyczące korzystania z odpowiedzi.

Pole zbiorcze messageType. Typ wiadomości. messageType może mieć tylko jedną z tych wartości:
setupComplete

BidiGenerateContentSetupComplete

Tylko dane wyjściowe. Wysyłana w odpowiedzi na wiadomość BidiGenerateContentSetup od klienta po zakończeniu konfiguracji.

serverContent

BidiGenerateContentServerContent

Tylko dane wyjściowe. Treści wygenerowane przez model w odpowiedzi na wiadomości klienta.

toolCall

BidiGenerateContentToolCall

Tylko dane wyjściowe. Żądanie wykonania przez klienta funkcji functionCalls i zwrócenia odpowiedzi z pasującymi funkcjami id.

toolCallCancellation

BidiGenerateContentToolCallCancellation

Tylko dane wyjściowe. Powiadomienie dla klienta, że wcześniej wydany dokument ToolCallMessage z określonymi wartościami id należy anulować.

goAway

GoAway

Tylko dane wyjściowe. Powiadomienie o tym, że serwer wkrótce się rozłączy.

sessionResumptionUpdate

SessionResumptionUpdate

Tylko dane wyjściowe. Aktualizacja stanu wznowienia sesji.

BidiGenerateContentSetup

Wiadomość, która ma zostać wysłana w pierwszym (i tylko w pierwszym) BidiGenerateContentClientMessage. Zawiera konfigurację, która będzie obowiązywać przez cały czas trwania wywołania RPC strumieniowego przesyłania danych.

Przed wysłaniem kolejnych wiadomości klient powinien poczekać na wiadomość BidiGenerateContentSetupComplete.

Pola
model

string

Wymagane. Nazwa zasobu modelu. Służy on jako identyfikator modelu.

Format: models/{model}

generationConfig

GenerationConfig

Opcjonalnie. Konfiguracja generowania.

Te pola nie są obsługiwane:

  • responseLogprobs
  • responseMimeType
  • logprobs
  • responseSchema
  • stopSequence
  • routingConfig
  • audioTimestamp
systemInstruction

Content

Opcjonalnie. Użytkownik podał instrukcje systemowe dla modelu.

Uwaga: w sekcjach należy używać tylko tekstu, a treści w każdej sekcji będą znajdować się w osobnym akapicie.

tools[]

Tool

Opcjonalnie. Lista Tools, których model może użyć do wygenerowania następnej odpowiedzi.

Tool to fragment kodu, który umożliwia systemowi interakcję z systemami zewnętrznymi w celu wykonania działania lub zestawu działań wykraczających poza wiedzę i zakres modelu.

realtimeInputConfig

RealtimeInputConfig

Opcjonalnie. Konfiguruje obsługę danych wejściowych w czasie rzeczywistym.

sessionResumption

SessionResumptionConfig

Opcjonalnie. Konfiguruje mechanizm wznawiania sesji.

Jeśli serwer jest uwzględniony, będzie wysyłać wiadomości SessionResumptionUpdate.

contextWindowCompression

ContextWindowCompressionConfig

Opcjonalnie. Konfiguruje mechanizm kompresji okna kontekstu.

Jeśli zostanie uwzględniony, serwer automatycznie zmniejszy rozmiar kontekstu, gdy przekroczy on skonfigurowaną długość.

inputAudioTranscription

AudioTranscriptionConfig

Opcjonalnie. Jeśli jest ustawiona, włącza transkrypcję danych wejściowych audio. Transkrypcja jest zgodna z językiem dźwięku wejściowego, jeśli jest skonfigurowana.

outputAudioTranscription

AudioTranscriptionConfig

Opcjonalnie. Jeśli jest ustawiona, włącza transkrypcję wyjścia audio modelu. Transkrypcja jest zgodna z kodem języka określonym dla wyjściowego dźwięku, jeśli jest skonfigurowana.

proactivity

ProactivityConfig

Opcjonalnie. Konfiguruje proaktywność modelu.

Dzięki temu model może proaktywnie reagować na dane wejściowe i ignorować te, które są nieistotne.

BidiGenerateContentSetupComplete

Ten typ nie ma pól.

Wysyłana w odpowiedzi na wiadomość BidiGenerateContentSetup od klienta.

BidiGenerateContentToolCall

Żądanie wykonania przez klienta funkcji functionCalls i zwrócenia odpowiedzi z pasującymi funkcjami id.

Pola
functionCalls[]

FunctionCall

Tylko dane wyjściowe. Wywołanie funkcji do wykonania.

BidiGenerateContentToolCallCancellation

Powiadomienie dla klienta, że wcześniej wydane ToolCallMessage z określonymi id nie powinny zostać zrealizowane i należy je anulować. Jeśli wywołania narzędzi wywołały efekty uboczne, klienci mogą próbować je cofnąć. Ten komunikat pojawia się tylko w przypadku, gdy klienci przerywają kolejki serwera.

Pola
ids[]

string

Tylko dane wyjściowe. Identyfikatory wywołań narzędzi, które mają zostać anulowane.

BidiGenerateContentToolResponse

Odpowiedź wygenerowana przez klienta na komunikat ToolCall otrzymany z serwera. Poszczególne obiekty FunctionResponse są dopasowywane do odpowiednich obiektów FunctionCall za pomocą pola id.

Pamiętaj, że w przypadku interfejsów GenerateContent API z wywołaniem jednokierunkowym i strumieniowaniem po stronie serwera wywoływanie funkcji odbywa się przez wymianę części Content, a w przypadku interfejsów GenerateContent API z wywołaniem dwukierunkowym wywoływanie funkcji odbywa się za pomocą tego dedykowanego zestawu wiadomości.

Pola
functionResponses[]

FunctionResponse

Opcjonalnie. Odpowiedź na wywołania funkcji.

BidiGenerateContentTranscription

Transkrypcja dźwięku (wejściowego lub wyjściowego).

Pola
text

string

Tekst transkrypcji.

ContextWindowCompressionConfig

Włącza kompresję okna kontekstu – mechanizm zarządzania oknem kontekstu modelu, aby nie przekraczało ono określonej długości.

Pola
Pole zbiorcze compressionMechanism. Używany mechanizm kompresji okna kontekstu. compressionMechanism może mieć tylko jedną z tych wartości:
slidingWindow

SlidingWindow

mechanizm okna przesuwnego,

triggerTokens

int64

Liczba tokenów (przed uruchomieniem tury) wymagana do wywołania kompresji okna kontekstu.

Może to pomóc w zachowaniu równowagi między jakością a opóźnieniem, ponieważ krótsze okna kontekstu mogą skutkować szybszymi odpowiedziami modelu. Każda operacja kompresji spowoduje jednak tymczasowy wzrost opóźnienia, dlatego nie należy jej często wywoływać.

Jeśli nie zostanie ustawiony, domyślnie będzie wynosić 80% limitu okna kontekstu modelu. Pozostawia to 20% na kolejne żądanie użytkownika lub odpowiedź modelu.

EndSensitivity

Określa sposób wykrywania końca wypowiedzi.

Wartości w polu enum
END_SENSITIVITY_UNSPECIFIED Wartość domyślna to END_SENSITIVITY_HIGH.
END_SENSITIVITY_HIGH Automatyczne wykrywanie częściej kończy mowę.
END_SENSITIVITY_LOW Automatyczne wykrywanie rzadziej kończy mowę.

GoAway

Powiadomienie o tym, że serwer wkrótce się rozłączy.

Pola
timeLeft

Duration

Pozostały czas, zanim połączenie zostanie przerwane jako ABORTED.

Ten czas trwania nigdy nie będzie krótszy niż minimalny czas trwania dla danego modelu, który zostanie określony wraz z limitami szybkości dla tego modelu.

ProactivityConfig

Konfiguracja funkcji proaktywnych.

Pola
proactiveAudio

bool

Opcjonalnie. Jeśli ta opcja jest włączona, model może odmówić odpowiedzi na ostatni prompt. Dzięki temu model może na przykład ignorować wypowiedzi niezwiązane z kontekstem lub nie odpowiadać, jeśli użytkownik nie wysłał jeszcze prośby.

RealtimeInputConfig

Konfiguruje działanie wprowadzania w czasie rzeczywistym w BidiGenerateContent.

Pola
automaticActivityDetection

AutomaticActivityDetection

Opcjonalnie. Jeśli nie ustawisz tej opcji, domyślnie włączone będzie automatyczne wykrywanie aktywności. Jeśli automatyczne wykrywanie głosu jest wyłączone, klient musi wysyłać sygnały aktywności.

activityHandling

ActivityHandling

Opcjonalnie. Określa, jaki wpływ ma aktywność.

turnCoverage

TurnCoverage

Opcjonalnie. Określa, które dane wejściowe są uwzględniane w turze użytkownika.

SessionResumptionConfig

Konfiguracja wznawiania sesji.

Ten komunikat jest uwzględniony w konfiguracji sesji jako BidiGenerateContentSetup.sessionResumption. Jeśli serwer jest skonfigurowany, będzie wysyłać wiadomości SessionResumptionUpdate.

Pola
handle

string

Uchwyt poprzedniej sesji. Jeśli nie jest obecny, tworzona jest nowa sesja.

Uchwyty sesji pochodzą z wartości SessionResumptionUpdate.token w poprzednich połączeniach.

SessionResumptionUpdate

Aktualizacja stanu wznowienia sesji.

Wysyłany tylko wtedy, gdy ustawiono parametr BidiGenerateContentSetup.sessionResumption.

Pola
newHandle

string

Nowy uchwyt reprezentujący stan, który można wznowić. Puste, jeśli resumable=false.

resumable

bool

Wartość „true”, jeśli bieżącą sesję można w tym momencie wznowić.

W niektórych momentach sesji nie można jej wznowić. Na przykład podczas wykonywania wywołań funkcji lub generowania odpowiedzi. Wznowienie sesji (za pomocą poprzedniego tokena sesji) w takim stanie spowoduje utratę niektórych danych. W takich przypadkach pole newHandle będzie puste, a pole resumable będzie miało wartość „false”.

SlidingWindow

Metoda SlidingWindow polega na odrzucaniu treści na początku okna kontekstu. Wynikowy kontekst zawsze zaczyna się od początku tury roli UŻYTKOWNIK. Instrukcje systemowe i wszelkie BidiGenerateContentSetup.prefixTurns zawsze będą znajdować się na początku wyniku.

Pola
targetTokens

int64

Docelowa liczba tokenów do zachowania. Wartością domyślną jest trigger_tokens/2.

Odrzucanie części okna kontekstu powoduje tymczasowe zwiększenie opóźnienia, dlatego tę wartość należy skalibrować, aby uniknąć częstych operacji kompresji.

StartSensitivity

Określa sposób wykrywania początku wypowiedzi.

Wartości w polu enum
START_SENSITIVITY_UNSPECIFIED Wartość domyślna to START_SENSITIVITY_HIGH.
START_SENSITIVITY_HIGH Automatyczne wykrywanie będzie częściej wykrywać początek mowy.
START_SENSITIVITY_LOW Automatyczne wykrywanie będzie rzadziej wykrywać początek mowy.

TurnCoverage

Opcje dotyczące tego, które dane wejściowe są uwzględniane w turze użytkownika.

Wartości w polu enum
TURN_COVERAGE_UNSPECIFIED Jeśli nie określisz tu żadnej wartości, zostanie użyte ustawienie domyślne TURN_INCLUDES_ONLY_ACTIVITY.
TURN_INCLUDES_ONLY_ACTIVITY Tura użytkownika obejmuje tylko aktywność od ostatniej tury, z wyłączeniem braku aktywności (np. ciszy w strumieniu audio). Jest to zachowanie domyślne.
TURN_INCLUDES_ALL_INPUT Tura użytkownika obejmuje wszystkie dane wejściowe w czasie rzeczywistym od ostatniej tury, w tym brak aktywności (np. ciszę w strumieniu audio).

UrlContextMetadata

Metadane związane z narzędziem do pobierania kontekstu adresu URL.

Pola
urlMetadata[]

UrlMetadata

Lista kontekstów adresów URL.

UsageMetadata

Metadane dotyczące korzystania z odpowiedzi.

Pola
promptTokenCount

int32

Tylko dane wyjściowe. Liczba tokenów w prompcie. Gdy ustawiona jest wartość cachedContent, nadal jest to łączny efektywny rozmiar promptu, co oznacza, że obejmuje on liczbę tokenów w treściach w pamięci podręcznej.

cachedContentTokenCount

int32

Liczba tokenów w części prompta zapisanej w pamięci podręcznej (treści w pamięci podręcznej)

responseTokenCount

int32

Tylko dane wyjściowe. Łączna liczba tokenów we wszystkich wygenerowanych kandydatach na odpowiedź.

toolUsePromptTokenCount

int32

Tylko dane wyjściowe. Liczba tokenów w promptach dotyczących korzystania z narzędzi.

thoughtsTokenCount

int32

Tylko dane wyjściowe. Liczba tokenów myśli w przypadku modeli myślących.

totalTokenCount

int32

Tylko dane wyjściowe. Łączna liczba tokenów w żądaniu generowania (prompt + kandydaci na odpowiedź).

promptTokensDetails[]

ModalityTokenCount

Tylko dane wyjściowe. Lista rodzajów danych, które zostały przetworzone w danych wejściowych żądania.

cacheTokensDetails[]

ModalityTokenCount

Tylko dane wyjściowe. Lista rodzajów buforowanych treści w danych wejściowych żądania.

responseTokensDetails[]

ModalityTokenCount

Tylko dane wyjściowe. Lista rodzajów, które zostały zwrócone w odpowiedzi.

toolUsePromptTokensDetails[]

ModalityTokenCount

Tylko dane wyjściowe. Lista rodzajów danych, które zostały przetworzone na potrzeby danych wejściowych żądania użycia narzędzia.

Krótkotrwałe tokeny uwierzytelniania

Krótkotrwałe tokeny uwierzytelniające można uzyskać, wywołując funkcję AuthTokenService.CreateToken, a następnie używać ich z funkcją GenerativeService.BidiGenerateContentConstrained, przekazując token w parametrze zapytania access_token lub w nagłówku HTTP Authorization z prefiksem „Token”.

CreateAuthTokenRequest

Utwórz tymczasowy token uwierzytelniający.

Pola
authToken

AuthToken

Wymagane. Token do utworzenia.

AuthToken

Żądanie utworzenia tymczasowego tokenu uwierzytelniania.

Pola
name

string

Tylko dane wyjściowe. Identyfikator. sam token.

expireTime

Timestamp

Opcjonalnie. Tylko dane wejściowe. Niezmienne. Opcjonalny czas, po którym wiadomości w sesjach BidiGenerateContent będą odrzucane, jeśli używany jest wynikowy token. (Gemini może przedwcześnie zamknąć sesję po tym czasie).

Jeśli nie jest ustawiony, domyślnie wynosi 30 minut. Nowa wartość musi być mniejsza niż 20 godzin.

newSessionExpireTime

Timestamp

Opcjonalnie. Tylko dane wejściowe. Niezmienne. Czas, po którym nowe sesje Live API korzystające z tokena uzyskanego w wyniku tego żądania zostaną odrzucone.

Jeśli nie zostanie ustawiony, domyślnie będzie wynosić 60 sekund. Nowa wartość musi być mniejsza niż 20 godzin.

fieldMask

FieldMask

Opcjonalnie. Tylko dane wejściowe. Niezmienne. Jeśli pole field_mask jest puste i nie ma parametru bidiGenerateContentSetup, efektywny komunikat BidiGenerateContentSetup jest pobierany z połączenia z interfejsem Live API.

Jeśli pole field_mask jest puste, a w żądaniu występuje bidiGenerateContentSetup is, to efektywna wiadomość BidiGenerateContentSetup jest w całości pobierana z pola bidiGenerateContentSetup. Wiadomość konfiguracyjna z połączenia z interfejsem Live API jest ignorowana.

Jeśli pole field_mask nie jest puste, odpowiednie pola z bidiGenerateContentSetup zastąpią pola z wiadomości konfiguracyjnej w połączeniu z interfejsem Live API.

Pole zbiorcze config. Konfiguracja konkretnej metody dla wynikowego tokena. config może mieć tylko jedną z tych wartości:
bidiGenerateContentSetup

BidiGenerateContentSetup

Opcjonalnie. Tylko dane wejściowe. Niezmienne. Konfiguracja specyficzna dla usługi BidiGenerateContent.

uses

int32

Opcjonalnie. Tylko dane wejściowe. Niezmienne. Określa, ile razy można wykorzystać token. Jeśli ta wartość wynosi zero, nie jest stosowany żaden limit. Wznowienie sesji Live API nie jest liczone jako użycie. Jeśli nie określisz tu żadnej wartości, zostanie użyte ustawienie domyślne 1.

Więcej informacji o najczęstszych typach

Więcej informacji o najczęściej używanych typach zasobów interfejsu API Blob, Content, FunctionCall, FunctionResponse, GenerationConfig, GroundingMetadata, ModalityTokenCountTool znajdziesz w artykule Generowanie treści.