Przedstawiamy wersję testową Gemini 3.1 Pro. Wypróbuj bezpłatnie w Google AI Studio

Live API - WebSockets API reference

Interfejs Live API to interfejs API z zachowywaniem stanu, który korzysta z WebSockets. W tej sekcji znajdziesz dodatkowe informacje o interfejsie WebSockets API.

Sesje

Połączenie WebSocket nawiązuje sesję między klientem a serwerem Gemini. Gdy klient zainicjuje nowe połączenie, sesja może wymieniać wiadomości z serwerem w celu:

wysyłanie tekstu, dźwięku lub filmu na serwer Gemini;
Otrzymywanie z serwera Gemini próśb dotyczących dźwięku, tekstu lub wywoływania funkcji.

Połączenie WebSocket

Aby rozpocząć sesję, połącz się z tym punktem końcowym WebSocket:

wss://generativelanguage.googleapis.com/ws/google.ai.generativelanguage.v1beta.GenerativeService.BidiGenerateContent

Konfiguracja sesji

Pierwsza wiadomość wysłana po nawiązaniu połączenia WebSocket określa konfigurację sesji, która obejmuje model, parametry generowania, instrukcje systemowe i narzędzia.

Nie możesz zaktualizować konfiguracji, gdy połączenie jest otwarte. Możesz jednak zmienić parametry konfiguracji (z wyjątkiem modelu) podczas wstrzymywania i wznawiania za pomocą mechanizmu wznawiania sesji.

Zapoznaj się z przykładem konfiguracji poniżej. Pamiętaj, że w pakietach SDK wielkość liter w nazwach może się różnić. Opcje konfiguracji pakietu SDK w Pythonie znajdziesz tutaj


{
  "model": string,
  "generationConfig": {
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "responseModalities": [string],
    "speechConfig": object,
    "mediaResolution": object
  },
  "systemInstruction": string,
  "tools": [object]
}

Więcej informacji o polu interfejsu API znajdziesz w sekcji generationConfig.

Wysyłanie wiadomości

Aby wymieniać wiadomości przez połączenie WebSocket, klient musi wysłać obiekt JSON przez otwarte połączenie WebSocket. Obiekt JSON musi zawierać dokładnie jedno pole z tego zestawu:


{
  "setup": BidiGenerateContentSetup,
  "clientContent": BidiGenerateContentClientContent,
  "realtimeInput": BidiGenerateContentRealtimeInput,
  "toolResponse": BidiGenerateContentToolResponse
}

Obsługiwane wiadomości od klientów

Obsługiwane wiadomości od klienta znajdziesz w tabeli poniżej:

Wiadomość	Opis
`BidiGenerateContentSetup`	Konfiguracja sesji do wysłania w pierwszej wiadomości
`BidiGenerateContentClientContent`	Przyrostowa aktualizacja treści bieżącej rozmowy dostarczona przez klienta
`BidiGenerateContentRealtimeInput`	dźwięk, obraz wideo lub tekst w czasie rzeczywistym,
`BidiGenerateContentToolResponse`	Odpowiedź na `ToolCallMessage` otrzymane z serwera

Odbieranie wiadomości

Aby otrzymywać wiadomości z Gemini, nasłuchuj zdarzenia „message” WebSocket, a następnie analizuj wynik zgodnie z definicją obsługiwanych wiadomości serwera.

Zobacz:

async with client.aio.live.connect(model='...', config=config) as session:
    await session.send(input='Hello world!', end_of_turn=True)
    async for message in session.receive():
        print(message)

Wiadomości serwera mogą zawierać pole usageMetadata, ale w przeciwnym razie będą zawierać dokładnie jedno z pozostałych pól z wiadomości BidiGenerateContentServerMessage. (Unia messageType nie jest wyrażona w formacie JSON, więc pole pojawi się na najwyższym poziomie wiadomości).

Wiadomości i wydarzenia

ActivityEnd

Ten typ nie ma pól.

Oznacza koniec aktywności użytkownika.

ActivityHandling

Różne sposoby obsługi aktywności użytkowników.

Wartości w polu enum
`ACTIVITY_HANDLING_UNSPECIFIED`	Jeśli nie określisz tu żadnej wartości, zostanie użyte ustawienie domyślne `START_OF_ACTIVITY_INTERRUPTS`.
`START_OF_ACTIVITY_INTERRUPTS`	Jeśli ma wartość „true” (prawda), rozpoczęcie aktywności przerwie odpowiedź modelu (tzw. „barge in”). Obecna odpowiedź modelu zostanie przerwana w momencie przerwania. Jest to zachowanie domyślne.
`NO_INTERRUPTION`	Odpowiedź modelu nie zostanie przerwana.

ActivityStart

Ten typ nie ma pól.

Oznacza początek aktywności użytkownika.

AudioTranscriptionConfig

Ten typ nie ma pól.

Konfiguracja transkrypcji dźwięku.

AutomaticActivityDetection

Konfiguruje automatyczne wykrywanie aktywności.

Pola
`disabled`	`bool` Opcjonalnie. Jeśli ta opcja jest włączona (domyślnie), wykryte dane głosowe i tekstowe są traktowane jako aktywność. Jeśli ta opcja jest wyłączona, klient musi wysyłać sygnały aktywności.
`startOfSpeechSensitivity`	`StartSensitivity` Opcjonalnie. Określa prawdopodobieństwo wykrycia mowy.
`prefixPaddingMs`	`int32` Opcjonalnie. Wymagany czas wykrytej mowy przed zatwierdzeniem początku mowy. Im niższa ta wartość, tym większa czułość wykrywania początku mowy i tym krótsze wypowiedzi mogą być rozpoznawane. Zwiększa to jednak prawdopodobieństwo wyników fałszywie pozytywnych.
`endOfSpeechSensitivity`	`EndSensitivity` Opcjonalnie. Określa, jak prawdopodobne jest zakończenie wykrytej mowy.
`silenceDurationMs`	`int32` Opcjonalnie. Wymagany czas trwania wykrytego dźwięku innego niż mowa (np. ciszy) przed zatwierdzeniem końca mowy. Im większa ta wartość, tym dłuższe mogą być przerwy w mowie bez przerywania aktywności użytkownika, ale zwiększy to opóźnienie modelu.

BidiGenerateContentClientContent

Przyrostowa aktualizacja bieżącej rozmowy dostarczona przez klienta. Wszystkie treści w tym miejscu są bezwarunkowo dołączane do historii rozmowy i używane jako część promptu dla modelu w celu generowania treści.

Wiadomość w tym miejscu przerwie bieżące generowanie modelu.

Pola

Pola
`turns[]`	`Content` Opcjonalnie. Treść dołączona do bieżącej rozmowy z modelem. W przypadku zapytań jednorazowych jest to pojedyncza instancja. W przypadku zapytań wieloetapowych jest to pole powtarzane, które zawiera historię rozmowy i najnowsze żądanie.
`turnComplete`	`bool` Opcjonalnie. Jeśli wartość to „true”, oznacza to, że generowanie treści na serwerze powinno rozpocząć się od aktualnie zgromadzonego promptu. W przeciwnym razie serwer czeka na dodatkowe wiadomości przed rozpoczęciem generowania.

turns[]

Content

Opcjonalnie. Treść dołączona do bieżącej rozmowy z modelem.

W przypadku zapytań jednorazowych jest to pojedyncza instancja. W przypadku zapytań wieloetapowych jest to pole powtarzane, które zawiera historię rozmowy i najnowsze żądanie.

turnComplete

bool

Opcjonalnie. Jeśli wartość to „true”, oznacza to, że generowanie treści na serwerze powinno rozpocząć się od aktualnie zgromadzonego promptu. W przeciwnym razie serwer czeka na dodatkowe wiadomości przed rozpoczęciem generowania.

BidiGenerateContentRealtimeInput

Dane wejściowe użytkownika przesyłane w czasie rzeczywistym.

Poszczególne rodzaje danych (audio, wideo i tekst) są obsługiwane jako równoległe strumienie. Kolejność w tych strumieniach nie jest gwarantowana.

Różni się on od BidiGenerateContentClientContent w kilku aspektach:

Można je wysyłać w sposób ciągły bez przerywania generowania modelu.
Jeśli zajdzie potrzeba połączenia danych przeplatanych w BidiGenerateContentClientContent i BidiGenerateContentRealtimeInput, serwer spróbuje zoptymalizować odpowiedź, ale nie ma gwarancji, że to się uda.
Koniec tury nie jest określony w sposób jednoznaczny, ale wynika z aktywności użytkownika (np. zakończenia mowy).
Dane są przetwarzane przyrostowo jeszcze przed zakończeniem tury, aby zoptymalizować szybkie rozpoczęcie odpowiedzi modelu.

Pola
`mediaChunks[]`	`Blob` Opcjonalnie. Dane w formacie bajtów wstawione w tekście na potrzeby danych wejściowych multimediów. Wiele elementów `mediaChunks` nie jest obsługiwanych. Wszystkie elementy oprócz pierwszego zostaną zignorowane. WYCOFANO: zamiast niej użyj jednej z tych zasad: `audio`, `video` lub `text`.
`audio`	`Blob` Opcjonalnie. Tworzą one strumień wejściowy dźwięku w czasie rzeczywistym.
`video`	`Blob` Opcjonalnie. Tworzą one strumień wejściowy wideo w czasie rzeczywistym.
`activityStart`	`ActivityStart` Opcjonalnie. Oznacza początek aktywności użytkownika. Można go wysłać tylko wtedy, gdy automatyczne (czyli po stronie serwera) wykrywanie aktywności jest wyłączone.
`activityEnd`	`ActivityEnd` Opcjonalnie. Oznacza koniec aktywności użytkownika. Można go wysłać tylko wtedy, gdy automatyczne (czyli po stronie serwera) wykrywanie aktywności jest wyłączone.
`audioStreamEnd`	`bool` Opcjonalnie. Wskazuje, że strumień audio został zakończony, np. z powodu wyłączenia mikrofonu. To zdarzenie powinno być wysyłane tylko wtedy, gdy włączone jest automatyczne wykrywanie aktywności (które jest domyślnie włączone). Klient może ponownie otworzyć strumień, wysyłając wiadomość audio.
`text`	`string` Opcjonalnie. Tworzą one strumień danych wejściowych tekstu w czasie rzeczywistym.

BidiGenerateContentServerContent

Przyrostowa aktualizacja serwera wygenerowana przez model w odpowiedzi na wiadomości klienta.

Treści są generowane tak szybko, jak to możliwe, a nie w czasie rzeczywistym. Klienci mogą buforować i odtwarzać je w czasie rzeczywistym.

Pola
`generationComplete`	`bool` Tylko dane wyjściowe. Jeśli ma wartość true, oznacza to, że model zakończył generowanie. Jeśli model zostanie przerwany podczas generowania, w przerwanym cyklu nie pojawi się komunikat „generation_complete”. Zamiast tego nastąpi przejście „interrupted > turn_complete”. Gdy model zakłada odtwarzanie w czasie rzeczywistym, między zdarzeniami generation_complete i turn_complete występuje opóźnienie spowodowane oczekiwaniem modelu na zakończenie odtwarzania.
`turnComplete`	`bool` Tylko dane wyjściowe. Jeśli ma wartość true, oznacza to, że model zakończył swoją turę. Generowanie rozpocznie się tylko w odpowiedzi na dodatkowe wiadomości od klienta.
`interrupted`	`bool` Tylko dane wyjściowe. Jeśli wartość to „true”, oznacza to, że wiadomość od klienta przerwała bieżące generowanie modelu. Jeśli klient odtwarza treści w czasie rzeczywistym, jest to dobry sygnał, aby zatrzymać odtwarzanie i opróżnić bieżącą kolejkę odtwarzania.
`groundingMetadata`	`GroundingMetadata` Tylko dane wyjściowe. Metadane dotyczące wygenerowanych treści.
`inputTranscription`	`BidiGenerateContentTranscription` Tylko dane wyjściowe. Wpisz transkrypcję dźwięku. Transkrypcja jest wysyłana niezależnie od innych wiadomości serwera i nie ma gwarancji kolejności.
`outputTranscription`	`BidiGenerateContentTranscription` Tylko dane wyjściowe. Wyjście transkrypcji audio. Transkrypcja jest wysyłana niezależnie od innych wiadomości serwera i nie ma gwarancji kolejności, w szczególności między `serverContent` a tym `outputTranscription`.
`urlContextMetadata`	`UrlContextMetadata`
`modelTurn`	`Content` Tylko dane wyjściowe. Treści wygenerowane przez model w ramach bieżącej rozmowy z użytkownikiem.

BidiGenerateContentServerMessage

Wiadomość odpowiedzi na wywołanie BidiGenerateContent.

Pola
`usageMetadata`	`UsageMetadata` Tylko dane wyjściowe. Metadane dotyczące korzystania z odpowiedzi.
Pole zbiorcze `messageType`. Typ wiadomości. `messageType` może mieć tylko jedną z tych wartości:
`setupComplete`	`BidiGenerateContentSetupComplete` Tylko dane wyjściowe. Wysyłana w odpowiedzi na wiadomość `BidiGenerateContentSetup` od klienta po zakończeniu konfiguracji.
`serverContent`	`BidiGenerateContentServerContent` Tylko dane wyjściowe. Treści wygenerowane przez model w odpowiedzi na wiadomości klienta.
`toolCall`	`BidiGenerateContentToolCall` Tylko dane wyjściowe. Żądanie wykonania przez klienta funkcji `functionCalls` i zwrócenia odpowiedzi z pasującymi funkcjami `id`.
`toolCallCancellation`	`BidiGenerateContentToolCallCancellation` Tylko dane wyjściowe. Powiadomienie dla klienta, że wcześniej wydany dokument `ToolCallMessage` z określonymi wartościami `id` należy anulować.
`goAway`	`GoAway` Tylko dane wyjściowe. Powiadomienie o tym, że serwer wkrótce się rozłączy.
`sessionResumptionUpdate`	`SessionResumptionUpdate` Tylko dane wyjściowe. Aktualizacja stanu wznowienia sesji.

BidiGenerateContentSetup

Wiadomość, która ma zostać wysłana w pierwszym (i tylko w pierwszym) BidiGenerateContentClientMessage. Zawiera konfigurację, która będzie obowiązywać przez cały czas trwania wywołania RPC strumieniowego przesyłania danych.

Przed wysłaniem kolejnych wiadomości klient powinien poczekać na wiadomość BidiGenerateContentSetupComplete.

Pola
`model`	`string` Wymagane. Nazwa zasobu modelu. Służy on jako identyfikator modelu. Format: `models/{model}`
`generationConfig`	`GenerationConfig` Opcjonalnie. Konfiguracja generowania. Te pola nie są obsługiwane: `responseLogprobs` `responseMimeType` `logprobs` `responseSchema` `stopSequence` `routingConfig` `audioTimestamp`
`systemInstruction`	`Content` Opcjonalnie. Użytkownik podał instrukcje systemowe dla modelu. Uwaga: w sekcjach należy używać tylko tekstu, a treści w każdej sekcji będą znajdować się w osobnym akapicie.
`tools[]`	`Tool` Opcjonalnie. Lista `Tools`, których model może użyć do wygenerowania następnej odpowiedzi. `Tool` to fragment kodu, który umożliwia systemowi interakcję z systemami zewnętrznymi w celu wykonania działania lub zestawu działań wykraczających poza wiedzę i zakres modelu.
`realtimeInputConfig`	`RealtimeInputConfig` Opcjonalnie. Konfiguruje obsługę danych wejściowych w czasie rzeczywistym.
`sessionResumption`	`SessionResumptionConfig` Opcjonalnie. Konfiguruje mechanizm wznawiania sesji. Jeśli serwer jest uwzględniony, będzie wysyłać wiadomości `SessionResumptionUpdate`.
`contextWindowCompression`	`ContextWindowCompressionConfig` Opcjonalnie. Konfiguruje mechanizm kompresji okna kontekstu. Jeśli zostanie uwzględniony, serwer automatycznie zmniejszy rozmiar kontekstu, gdy przekroczy on skonfigurowaną długość.
`inputAudioTranscription`	`AudioTranscriptionConfig` Opcjonalnie. Jeśli jest ustawiona, włącza transkrypcję danych wejściowych audio. Transkrypcja jest zgodna z językiem dźwięku wejściowego, jeśli jest skonfigurowana.
`outputAudioTranscription`	`AudioTranscriptionConfig` Opcjonalnie. Jeśli jest ustawiona, włącza transkrypcję wyjścia audio modelu. Transkrypcja jest zgodna z kodem języka określonym dla wyjściowego dźwięku, jeśli jest skonfigurowana.
`proactivity`	`ProactivityConfig` Opcjonalnie. Konfiguruje proaktywność modelu. Dzięki temu model może proaktywnie reagować na dane wejściowe i ignorować te, które są nieistotne.

BidiGenerateContentSetupComplete

Ten typ nie ma pól.

Wysyłana w odpowiedzi na wiadomość BidiGenerateContentSetup od klienta.

BidiGenerateContentToolCall

Żądanie wykonania przez klienta funkcji functionCalls i zwrócenia odpowiedzi z pasującymi funkcjami id.

Pola

Pola
`functionCalls[]`	`FunctionCall` Tylko dane wyjściowe. Wywołanie funkcji do wykonania.

functionCalls[]

FunctionCall

Tylko dane wyjściowe. Wywołanie funkcji do wykonania.

BidiGenerateContentToolCallCancellation

Powiadomienie dla klienta, że wcześniej wydane ToolCallMessage z określonymi id nie powinny zostać zrealizowane i należy je anulować. Jeśli wywołania narzędzi wywołały efekty uboczne, klienci mogą próbować je cofnąć. Ten komunikat pojawia się tylko w przypadku, gdy klienci przerywają kolejki serwera.

Pola

Pola
`ids[]`	`string` Tylko dane wyjściowe. Identyfikatory wywołań narzędzi, które mają zostać anulowane.

ids[]

string

Tylko dane wyjściowe. Identyfikatory wywołań narzędzi, które mają zostać anulowane.

BidiGenerateContentToolResponse

Odpowiedź wygenerowana przez klienta na komunikat ToolCall otrzymany z serwera. Poszczególne obiekty FunctionResponse są dopasowywane do odpowiednich obiektów FunctionCall za pomocą pola id.

Pamiętaj, że w przypadku interfejsów GenerateContent API z wywołaniem jednokierunkowym i strumieniowaniem po stronie serwera wywoływanie funkcji odbywa się przez wymianę części Content, a w przypadku interfejsów GenerateContent API z wywołaniem dwukierunkowym wywoływanie funkcji odbywa się za pomocą tego dedykowanego zestawu wiadomości.

Pola

Pola
`functionResponses[]`	`FunctionResponse` Opcjonalnie. Odpowiedź na wywołania funkcji.

functionResponses[]

FunctionResponse

Opcjonalnie. Odpowiedź na wywołania funkcji.

BidiGenerateContentTranscription

Transkrypcja dźwięku (wejściowego lub wyjściowego).

Pola

Pola
`text`	`string` Tekst transkrypcji.

text

string

Tekst transkrypcji.

ContextWindowCompressionConfig

Włącza kompresję okna kontekstu – mechanizm zarządzania oknem kontekstu modelu, aby nie przekraczało ono określonej długości.

Pola

Pola
Pole zbiorcze `compressionMechanism`. Używany mechanizm kompresji okna kontekstu. `compressionMechanism` może mieć tylko jedną z tych wartości:
`slidingWindow`	`SlidingWindow` mechanizm okna przesuwnego,
`triggerTokens`	`int64` Liczba tokenów (przed uruchomieniem tury) wymagana do wywołania kompresji okna kontekstu. Może to pomóc w zachowaniu równowagi między jakością a opóźnieniem, ponieważ krótsze okna kontekstu mogą skutkować szybszymi odpowiedziami modelu. Każda operacja kompresji spowoduje jednak tymczasowy wzrost opóźnienia, dlatego nie należy jej często wywoływać. Jeśli nie zostanie ustawiony, domyślnie będzie wynosić 80% limitu okna kontekstu modelu. Pozostawia to 20% na kolejne żądanie użytkownika lub odpowiedź modelu.

Pole zbiorcze compressionMechanism. Używany mechanizm kompresji okna kontekstu. compressionMechanism może mieć tylko jedną z tych wartości:

slidingWindow

SlidingWindow

mechanizm okna przesuwnego,

triggerTokens

int64

Liczba tokenów (przed uruchomieniem tury) wymagana do wywołania kompresji okna kontekstu.

Może to pomóc w zachowaniu równowagi między jakością a opóźnieniem, ponieważ krótsze okna kontekstu mogą skutkować szybszymi odpowiedziami modelu. Każda operacja kompresji spowoduje jednak tymczasowy wzrost opóźnienia, dlatego nie należy jej często wywoływać.

Jeśli nie zostanie ustawiony, domyślnie będzie wynosić 80% limitu okna kontekstu modelu. Pozostawia to 20% na kolejne żądanie użytkownika lub odpowiedź modelu.

EndSensitivity

Określa sposób wykrywania końca wypowiedzi.

Wartości w polu enum
`END_SENSITIVITY_UNSPECIFIED`	Wartość domyślna to END_SENSITIVITY_HIGH.
`END_SENSITIVITY_HIGH`	Automatyczne wykrywanie częściej kończy mowę.
`END_SENSITIVITY_LOW`	Automatyczne wykrywanie rzadziej kończy mowę.

GoAway

Powiadomienie o tym, że serwer wkrótce się rozłączy.

Pola

Pola
`timeLeft`	`Duration` Pozostały czas, zanim połączenie zostanie przerwane jako ABORTED. Ten czas trwania nigdy nie będzie krótszy niż minimalny czas trwania dla danego modelu, który zostanie określony wraz z limitami szybkości dla tego modelu.

timeLeft

Duration

Pozostały czas, zanim połączenie zostanie przerwane jako ABORTED.

Ten czas trwania nigdy nie będzie krótszy niż minimalny czas trwania dla danego modelu, który zostanie określony wraz z limitami szybkości dla tego modelu.

ProactivityConfig

Konfiguracja funkcji proaktywnych.

Pola

Pola
`proactiveAudio`	`bool` Opcjonalnie. Jeśli ta opcja jest włączona, model może odmówić odpowiedzi na ostatni prompt. Dzięki temu model może na przykład ignorować wypowiedzi niezwiązane z kontekstem lub nie odpowiadać, jeśli użytkownik nie wysłał jeszcze prośby.

proactiveAudio

bool

Opcjonalnie. Jeśli ta opcja jest włączona, model może odmówić odpowiedzi na ostatni prompt. Dzięki temu model może na przykład ignorować wypowiedzi niezwiązane z kontekstem lub nie odpowiadać, jeśli użytkownik nie wysłał jeszcze prośby.

RealtimeInputConfig

Konfiguruje działanie wprowadzania w czasie rzeczywistym w BidiGenerateContent.

Pola

Pola
`automaticActivityDetection`	`AutomaticActivityDetection` Opcjonalnie. Jeśli nie ustawisz tej opcji, domyślnie włączone będzie automatyczne wykrywanie aktywności. Jeśli automatyczne wykrywanie głosu jest wyłączone, klient musi wysyłać sygnały aktywności.
`activityHandling`	`ActivityHandling` Opcjonalnie. Określa, jaki wpływ ma aktywność.
`turnCoverage`	`TurnCoverage` Opcjonalnie. Określa, które dane wejściowe są uwzględniane w turze użytkownika.

automaticActivityDetection

AutomaticActivityDetection

Opcjonalnie. Jeśli nie ustawisz tej opcji, domyślnie włączone będzie automatyczne wykrywanie aktywności. Jeśli automatyczne wykrywanie głosu jest wyłączone, klient musi wysyłać sygnały aktywności.

activityHandling

ActivityHandling

Opcjonalnie. Określa, jaki wpływ ma aktywność.

turnCoverage

TurnCoverage

Opcjonalnie. Określa, które dane wejściowe są uwzględniane w turze użytkownika.

SessionResumptionConfig

Konfiguracja wznawiania sesji.

Ten komunikat jest uwzględniony w konfiguracji sesji jako BidiGenerateContentSetup.sessionResumption. Jeśli serwer jest skonfigurowany, będzie wysyłać wiadomości SessionResumptionUpdate.

Pola

Pola
`handle`	`string` Uchwyt poprzedniej sesji. Jeśli nie jest obecny, tworzona jest nowa sesja. Uchwyty sesji pochodzą z wartości `SessionResumptionUpdate.token` w poprzednich połączeniach.

handle

string

Uchwyt poprzedniej sesji. Jeśli nie jest obecny, tworzona jest nowa sesja.

Uchwyty sesji pochodzą z wartości SessionResumptionUpdate.token w poprzednich połączeniach.

SessionResumptionUpdate

Aktualizacja stanu wznowienia sesji.

Wysyłany tylko wtedy, gdy ustawiono parametr BidiGenerateContentSetup.sessionResumption.

Pola

Pola
`newHandle`	`string` Nowy uchwyt reprezentujący stan, który można wznowić. Puste, jeśli `resumable`=false.
`resumable`	`bool` Wartość „true”, jeśli bieżącą sesję można w tym momencie wznowić. W niektórych momentach sesji nie można jej wznowić. Na przykład podczas wykonywania wywołań funkcji lub generowania odpowiedzi. Wznowienie sesji (za pomocą poprzedniego tokena sesji) w takim stanie spowoduje utratę niektórych danych. W takich przypadkach pole `newHandle` będzie puste, a pole `resumable` będzie miało wartość „false”.

newHandle

string

Nowy uchwyt reprezentujący stan, który można wznowić. Puste, jeśli resumable=false.

resumable

bool

Wartość „true”, jeśli bieżącą sesję można w tym momencie wznowić.

W niektórych momentach sesji nie można jej wznowić. Na przykład podczas wykonywania wywołań funkcji lub generowania odpowiedzi. Wznowienie sesji (za pomocą poprzedniego tokena sesji) w takim stanie spowoduje utratę niektórych danych. W takich przypadkach pole newHandle będzie puste, a pole resumable będzie miało wartość „false”.

SlidingWindow

Metoda SlidingWindow polega na odrzucaniu treści na początku okna kontekstu. Wynikowy kontekst zawsze zaczyna się od początku tury roli UŻYTKOWNIK. Instrukcje systemowe i wszelkie BidiGenerateContentSetup.prefixTurns zawsze będą znajdować się na początku wyniku.

Pola

Pola
`targetTokens`	`int64` Docelowa liczba tokenów do zachowania. Wartością domyślną jest trigger_tokens/2. Odrzucanie części okna kontekstu powoduje tymczasowe zwiększenie opóźnienia, dlatego tę wartość należy skalibrować, aby uniknąć częstych operacji kompresji.

targetTokens

int64

Docelowa liczba tokenów do zachowania. Wartością domyślną jest trigger_tokens/2.

Odrzucanie części okna kontekstu powoduje tymczasowe zwiększenie opóźnienia, dlatego tę wartość należy skalibrować, aby uniknąć częstych operacji kompresji.

StartSensitivity

Określa sposób wykrywania początku wypowiedzi.

Wartości w polu enum
`START_SENSITIVITY_UNSPECIFIED`	Wartość domyślna to START_SENSITIVITY_HIGH.
`START_SENSITIVITY_HIGH`	Automatyczne wykrywanie będzie częściej wykrywać początek mowy.
`START_SENSITIVITY_LOW`	Automatyczne wykrywanie będzie rzadziej wykrywać początek mowy.

TurnCoverage

Opcje dotyczące tego, które dane wejściowe są uwzględniane w turze użytkownika.

Wartości w polu enum
`TURN_COVERAGE_UNSPECIFIED`	Jeśli nie określisz tu żadnej wartości, zostanie użyte ustawienie domyślne `TURN_INCLUDES_ONLY_ACTIVITY`.
`TURN_INCLUDES_ONLY_ACTIVITY`	Tura użytkownika obejmuje tylko aktywność od ostatniej tury, z wyłączeniem braku aktywności (np. ciszy w strumieniu audio). Jest to zachowanie domyślne.
`TURN_INCLUDES_ALL_INPUT`	Tura użytkownika obejmuje wszystkie dane wejściowe w czasie rzeczywistym od ostatniej tury, w tym brak aktywności (np. ciszę w strumieniu audio).

UrlContextMetadata

Metadane związane z narzędziem do pobierania kontekstu adresu URL.

Pola

urlMetadata[]

UrlMetadata

Lista kontekstów adresów URL.

UsageMetadata

Metadane dotyczące korzystania z odpowiedzi.

Pola
`promptTokenCount`	`int32` Tylko dane wyjściowe. Liczba tokenów w prompcie. Gdy ustawiona jest wartość `cachedContent`, nadal jest to łączny efektywny rozmiar promptu, co oznacza, że obejmuje on liczbę tokenów w treściach w pamięci podręcznej.
`cachedContentTokenCount`	`int32` Liczba tokenów w części prompta zapisanej w pamięci podręcznej (treści w pamięci podręcznej)
`responseTokenCount`	`int32` Tylko dane wyjściowe. Łączna liczba tokenów we wszystkich wygenerowanych kandydatach na odpowiedź.
`toolUsePromptTokenCount`	`int32` Tylko dane wyjściowe. Liczba tokenów w promptach dotyczących korzystania z narzędzi.
`thoughtsTokenCount`	`int32` Tylko dane wyjściowe. Liczba tokenów myśli w przypadku modeli myślących.
`totalTokenCount`	`int32` Tylko dane wyjściowe. Łączna liczba tokenów w żądaniu generowania (prompt + kandydaci na odpowiedź).
`promptTokensDetails[]`	`ModalityTokenCount` Tylko dane wyjściowe. Lista rodzajów danych, które zostały przetworzone w danych wejściowych żądania.
`cacheTokensDetails[]`	`ModalityTokenCount` Tylko dane wyjściowe. Lista rodzajów buforowanych treści w danych wejściowych żądania.
`responseTokensDetails[]`	`ModalityTokenCount` Tylko dane wyjściowe. Lista rodzajów, które zostały zwrócone w odpowiedzi.
`toolUsePromptTokensDetails[]`	`ModalityTokenCount` Tylko dane wyjściowe. Lista rodzajów danych, które zostały przetworzone na potrzeby danych wejściowych żądania użycia narzędzia.

Krótkotrwałe tokeny uwierzytelniania

Krótkotrwałe tokeny uwierzytelniające można uzyskać, wywołując funkcję AuthTokenService.CreateToken, a następnie używać ich z funkcją GenerativeService.BidiGenerateContentConstrained, przekazując token w parametrze zapytania access_token lub w nagłówku HTTP Authorization z prefiksem „Token”.

CreateAuthTokenRequest

Utwórz tymczasowy token uwierzytelniający.

Pola

Pola
`authToken`	`AuthToken` Wymagane. Token do utworzenia.

authToken

AuthToken

Wymagane. Token do utworzenia.

AuthToken

Żądanie utworzenia tymczasowego tokenu uwierzytelniania.

Pola
`name`	`string` Tylko dane wyjściowe. Identyfikator. sam token.
`expireTime`	`Timestamp` Opcjonalnie. Tylko dane wejściowe. Niezmienne. Opcjonalny czas, po którym wiadomości w sesjach BidiGenerateContent będą odrzucane, jeśli używany jest wynikowy token. (Gemini może przedwcześnie zamknąć sesję po tym czasie). Jeśli nie jest ustawiony, domyślnie wynosi 30 minut. Nowa wartość musi być mniejsza niż 20 godzin.
`newSessionExpireTime`	`Timestamp` Opcjonalnie. Tylko dane wejściowe. Niezmienne. Czas, po którym nowe sesje Live API korzystające z tokena uzyskanego w wyniku tego żądania zostaną odrzucone. Jeśli nie zostanie ustawiony, domyślnie będzie wynosić 60 sekund. Nowa wartość musi być mniejsza niż 20 godzin.
`fieldMask`	`FieldMask` Opcjonalnie. Tylko dane wejściowe. Niezmienne. Jeśli pole field_mask jest puste i nie ma parametru `bidiGenerateContentSetup`, efektywny komunikat `BidiGenerateContentSetup` jest pobierany z połączenia z interfejsem Live API. Jeśli pole field_mask jest puste, a w żądaniu występuje `bidiGenerateContentSetup` is, to efektywna wiadomość `BidiGenerateContentSetup` jest w całości pobierana z pola `bidiGenerateContentSetup`. Wiadomość konfiguracyjna z połączenia z interfejsem Live API jest ignorowana. Jeśli pole field_mask nie jest puste, odpowiednie pola z `bidiGenerateContentSetup` zastąpią pola z wiadomości konfiguracyjnej w połączeniu z interfejsem Live API.
Pole zbiorcze `config`. Konfiguracja konkretnej metody dla wynikowego tokena. `config` może mieć tylko jedną z tych wartości:
`bidiGenerateContentSetup`	`BidiGenerateContentSetup` Opcjonalnie. Tylko dane wejściowe. Niezmienne. Konfiguracja specyficzna dla usługi `BidiGenerateContent`.
`uses`	`int32` Opcjonalnie. Tylko dane wejściowe. Niezmienne. Określa, ile razy można wykorzystać token. Jeśli ta wartość wynosi zero, nie jest stosowany żaden limit. Wznowienie sesji Live API nie jest liczone jako użycie. Jeśli nie określisz tu żadnej wartości, zostanie użyte ustawienie domyślne 1.

Więcej informacji o najczęstszych typach

Więcej informacji o najczęściej używanych typach zasobów interfejsu API Blob, Content, FunctionCall, FunctionResponse, GenerationConfig, GroundingMetadata, ModalityTokenCount i Tool znajdziesz w artykule Generowanie treści.