Gemini

Warianty modelu

Gemini API oferuje różne modele zoptymalizowane pod kątem konkretnych zastosowań przypadków. Oto krótkie omówienie dostępnych wersji Gemini:

Wariant modelu Dane wejściowe Wyniki Zoptymalizowany dla
Gemini 1.5 Pro
gemini-1.5-pro
Dźwięk, obrazy, filmy i tekst Tekst złożone zadania rozumowania, takie jak kod i generowanie tekstu, edytowanie tekstu, rozwiązywanie problemów, wyodrębnianie i generowanie danych
Gemini 1.5 Flash
gemini-1.5-flash
Dźwięk, obrazy, filmy i tekst Tekst Szybkie i wszechstronne narzędzie do wykonywania różnorodnych zadań
Gemini 1.0 Pro
gemini-1.0-pro
Tekst Tekst zadania w języku naturalnym, wieloetapowy czat tekstowy i kodowy oraz kod; generacja
(Wycofano) Gemini 1.0 Pro Vision
gemini-pro-vision
Obrazy, filmy i tekst Tekst Zadania związane z obrazem, np. generowanie obrazu opisów ani rozpoznawania obiektów na obrazach.
Umieszczanie tekstu
text-embedding-004
Tekst Wektory dystrybucyjne tekstu Pomiar powiązania ciągów tekstowych
AQA
aqa
Tekst Tekst Udzielanie wiarygodnych źródeł odpowiedzi na pytania

W tej tabeli opisano atrybuty modeli Gemini, które są wspólne dla wszystkich wersji modelu:

Atrybut Opis
Dane treningowe W przypadku Gemini limit dostępu do wiedzy upływa 2023 r. Wiedza o wydarzeniach po tym czasie jest ograniczona.
Obsługiwane języki Zobacz dostępne języki
Konfigurowalne parametry modelu
 • Górne P
 • Górne k
 • Temperatura
 • Zatrzymaj sekwencję
 • Maksymalna długość danych wyjściowych
 • Liczba kandydatów do odpowiedzi

Zobacz parametry modelu sekcji Przewodnik po modelach generatywnych zawiera informacje o każdym z tych parametrów.

Gemini 1.5 Flash

Gemini 1.5 Flash to szybki i uniwersalny model multimodalny, który umożliwia skalowanie do różnych zadań.

Wypróbuj w AI Studio

Szczegóły modelu

Właściwość Opis
– kod modelu models/gemini-1.5-flash
Obsługiwane typy danych

Wejścia

Dźwięk, obrazy, filmy i tekst

Wyjście

Tekst

Limity tokenów[*]

Limit tokenów wejściowych

1 048 576

Limit tokenów wyjściowych

8192

Specyfikacje audiowizualne

Maksymalna liczba obrazów w prompcie

3,600

Maksymalna długość filmu

1 godzina

Maksymalna długość ścieżki dźwiękowej

Około 9,5 godziny

Limity stawek[**]
Bezpłatnie:
  .
 • 15 obr./min
 • 1 milion TPM
 • 1500 RPD
.
Pay-as-you-go:
 • 1000 obr./min
 • 2 miliony TPM
Umiejętności

Instrukcje systemowe

Obsługiwane

Tryb JSON

Obsługiwane

Schemat JSON

Nieobsługiwane

Regulowane ustawienia bezpieczeństwa

Obsługiwane

Pamięć podręczna

Obsługiwane

Dostrajanie

Nieobsługiwane

Wywoływanie funkcji

Obsługiwane

Konfiguracja wywoływania funkcji

Obsługiwane

Wykonanie kodu

Obsługiwane

Najnowsza aktualizacja Maj 2024 r.

Gemini 1.5 Pro

Gemini 1.5 Pro to średniej wielkości model multimodalny, zoptymalizowany pod kątem do wielu zadań związanych z rozumowaniem. 1.5 Pro może przetwarzać duże ilości danych obejmujące 2 godziny filmów, 19 godzin audio, bazy kodu 60 000 wierszy kodu, czyli 2000 stron tekstu.

Wypróbuj w AI Studio

Szczegóły modelu

Właściwość Opis
– kod modelu models/gemini-1.5-pro
Obsługiwane typy danych

Wejścia

Dźwięk, obrazy, filmy i tekst

Wyjście

Tekst

Limity tokenów[*]

Limit tokenów wejściowych

2 097 152

Limit tokenów wyjściowych

8192

Specyfikacje audiowizualne

Maksymalna liczba obrazów w prompcie

7200

Maksymalna długość filmu

2 godziny

Maksymalna długość ścieżki dźwiękowej

Około 19 godzin

Limity stawek[**]
Bezpłatnie:
  .
 • 2 obr./min
 • 32 000 TPM
 • 50 RPD
.
Pay-as-you-go:
 • 360 obr./min
 • 2 miliony TPM
 • 10 000 RPD
Umiejętności

Instrukcje systemowe

Obsługiwane

Tryb JSON

Obsługiwane

Schemat JSON

Obsługiwane

Regulowane ustawienia bezpieczeństwa

Obsługiwane

Pamięć podręczna

Obsługiwane

Dostrajanie

Nieobsługiwane

Wywoływanie funkcji

Obsługiwane

Konfiguracja wywoływania funkcji

Obsługiwane

Wykonanie kodu

Obsługiwane

Najnowsza aktualizacja Maj 2024 r.

Gemini 1.0 Pro

Gemini 1.0 Pro to model NLP, który obsługuje zadania takie jak wieloetapowe czatu i generowania kodu.

Wypróbuj w AI Studio

Szczegóły modelu

Właściwość Opis
– kod modelu models/gemini-1.0-pro
Obsługiwane typy danych

Wejście

Tekst

Wyjście

Tekst

Limity stawek[**]
Bezpłatnie:
  .
 • 15 obr./min
 • 32 000 TPM
 • 1500 RPD
.
Pay-as-you-go:
 • 360 obr./min
 • 120 000 TPM
 • 30 000 RPD
Umiejętności

Instrukcje systemowe

Nieobsługiwane

Tryb JSON

Nieobsługiwane

Schemat JSON

Nieobsługiwane

Regulowane ustawienia bezpieczeństwa

Obsługiwane

Pamięć podręczna

Nieobsługiwane

Dostrajanie

Obsługiwane

Wywoływanie funkcji

Obsługiwane

Konfiguracja wywoływania funkcji

Nieobsługiwane

Wykonanie kodu

Nieobsługiwane

Najnowsza aktualizacja Luty 2024 r.

(Wycofano) Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision to model multimodalny zoptymalizowany pod kątem wydajności które pozwalają wykonywać zadania wizualne. Na przykład 1.0 Pro Vision generować opisy obrazów, identyfikować obiekty na obrazach, udostępniać informacje o miejscach lub obiektach na zdjęciach itp.

Szczegóły modelu

Właściwość Opis
– kod modelu models/gemini-pro-vision
Obsługiwane typy danych

Wejścia

Obrazy, filmy i tekst

Wyjście

Tekst

Limity tokenów[*]

Limit tokenów wejściowych

12 288

Limit tokenów wyjściowych

4096

Specyfikacje audiowizualne

Maksymalna długość filmu

2 minuty

Limity stawek[**] 60 żądań na minutę
Umiejętności

Instrukcje systemowe

Nieobsługiwane

Tryb JSON

Nieobsługiwane

Schemat JSON

Nieobsługiwane

Regulowane ustawienia bezpieczeństwa

Obsługiwane

Pamięć podręczna

Nieobsługiwane

Dostrajanie

Nieobsługiwane

Wywoływanie funkcji

Obsługiwane

Konfiguracja wywoływania funkcji

Nieobsługiwane

Wykonanie kodu

Nieobsługiwane

Najnowsza aktualizacja Grudzień 2023 r.

Umieszczanie i umieszczanie tekstu

Umieszczanie tekstu

Za pomocą modelu umieszczania tekstu możesz generować wektorów dystrybucyjnych tekstu dla tekst do wprowadzania danych. Więcej informacji o modelu umieszczania tekstu znajdziesz na stronie Dokumentacja generatywnej AI w Vertex AI o wektorach dystrybucyjnych.

Model umieszczania tekstu jest zoptymalizowany pod kątem tworzenia wektorów dystrybucyjnych za pomocą wersji 768 dla tekstu wynoszącego do 2048 tokenów. Umieszczanie tekstu zapewnia elastyczność o rozmiarach poniżej 768. Wektorów dystrybucyjnych elastycznych możesz używać do generowania mniejsze wymiary wyjściowe i potencjalnie mniejsze koszty związane z mocą obliczeniową i miejscem na dane z niewielką utratą skuteczności.

Szczegóły modelu
Właściwość Opis
– kod modelu

Gemini API,

models/text-embedding-004

Vertex AI,

text-embedding-preview-0409

Obsługiwane typy danych

Wejście

Tekst

Wyjście

Wektory dystrybucyjne tekstu

Limity tokenów[*]

Limit tokenów wejściowych

2 048

Rozmiar wymiaru wyjściowego

768

Limity stawek[**] 1500 żądań na minutę
Regulowane ustawienia bezpieczeństwa Nieobsługiwane
Najnowsza aktualizacja Kwiecień 2024 r.

Umieszczanie

Modelu umieszczania możesz użyć do wygenerowania wektorów dystrybucyjnych tekstu dla tekst do wprowadzania danych.

Model wektorów dystrybucyjnych jest zoptymalizowany do tworzenia wektorów dystrybucyjnych o wymiarach 768 dla tekstu maksymalnie 2048 tokenów.

Szczegóły modelu wektora dystrybucyjnego
Właściwość Opis
– kod modelu models/embedding-001
Obsługiwane typy danych

Wejście

Tekst

Wyjście

Wektory dystrybucyjne tekstu

Limity tokenów[*]

Limit tokenów wejściowych

2 048

Rozmiar wymiaru wyjściowego

768

Limity stawek[**] 1500 żądań na minutę
Regulowane ustawienia bezpieczeństwa Nieobsługiwane
Najnowsza aktualizacja Grudzień 2023 r.

AQA,

Modelu AQA można używać do Przypisywanie odpowiedzi na pytania zadań (AQA) nad dokumentem, korpusem lub zestawem fragmentów. Raport AQA model zwraca odpowiedzi na pytania oparte na podanych źródłach, wraz z szacowaniem prawdopodobieństwa odpowiedzi.

Szczegóły modelu

Właściwość Opis
– kod modelu models/aqa
Obsługiwane typy danych

Wejście

Tekst

Wyjście

Tekst

Obsługiwany język angielski
Limity tokenów[*]

Limit tokenów wejściowych

7168

Limit tokenów wyjściowych

1024

Limity stawek[**] 1500 żądań na minutę
Regulowane ustawienia bezpieczeństwa Obsługiwane
Najnowsza aktualizacja Grudzień 2023 r.

Zapoznaj się z przykładami, aby poznać możliwości tego modelu. odmian.

[*] W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 angielskich słów.

[**] RPM: liczba żądań na minutę
TPM: liczba tokenów na minutę
RPD: żądania dziennie
TPD: liczba tokenów dziennie

Ze względu na ograniczenia pojemności określone maksymalne limity szybkości nie są gwarantowane.

Wzorce nazw wersji modelu

Modele Gemini są dostępne w wersji podglądu i stabilnej. W kodu, możesz użyć jednego z poniższych formatów nazwy modelu, aby określić, który model i jej wersji, której chcesz użyć.

 • Najnowsza: wskazuje najnowocześniejszą wersję modelu danego obiektu. i wariant. Model bazowy jest regularnie aktualizowany i może wersji przedpremierowej. Należy używać tylko eksploracyjnych aplikacji testowych i prototypów użyć tego aliasu.

  Aby określić najnowszą wersję, użyj tego wzorca: <model>-<generation>-<variation>-latest Przykład: gemini-1.0-pro-latest

 • Najnowsza stabilna:wskazuje najnowszą wersję stabilną wydaną na określonego generowania i odmiany modelu.

  Aby określić najnowszą wersję stabilną, użyj tego wzorca: <model>-<generation>-<variation> Na przykład: gemini-1.0-pro.

 • Stabilny: wskazuje konkretny model stabilny. Modele stabilne się nie zmieniają. Większość aplikacji w wersji produkcyjnej powinna używać określonego stabilnego modelu.

  Aby określić wersję stabilną, użyj tego wzorca: <model>-<generation>-<variation>-<version> Przykład: gemini-1.0-pro-001

Dostępne języki

Modele Gemini są trenowane do pracy z tymi językami:

 • arabski (ar)
 • bengalski (bn)
 • bułgarski (bg)
 • chiński uproszczony i tradycyjny (zh)
 • chorwacki (hr)
 • czeski (cs)
 • duński (da)
 • niderlandzki (nl)
 • Angielski (en)
 • estoński (et)
 • fiński (fi)
 • francuski (fr)
 • niemiecki (de)
 • grecki (el)
 • hebrajski (iw)
 • hindi (hi)
 • węgierski (hu)
 • indonezyjski (id)
 • włoski (it)
 • japoński (ja)
 • koreański (ko)
 • łotewski (lv)
 • litewski (lt)
 • norweski (no)
 • polski (pl)
 • portugalski (pt)
 • rumuński (ro)
 • rosyjski (ru)
 • serbski (sr)
 • słowacki (sk)
 • słoweński (sl)
 • hiszpański (es)
 • suahili (sw)
 • szwedzki (sv)
 • tajski (th)
 • turecki (tr)
 • ukraiński (uk)
 • wietnamski (vi)