1.5 Flash
Nasz najszybszy i najbardziej ekonomiczny model multimodalny o wysokiej wydajności w przypadku zadań wymagających dużej częstotliwości
- Przekazuj dźwięk, obrazy, filmy i tekst oraz otrzymuj odpowiedzi tekstowe
- Generuj kod, wyodrębniaj dane, edytuj tekst i nie tylko
- Najlepiej sprawdza się w wąskich zadaniach o dużej częstotliwości
Warianty modelu
Gemini API oferuje różne modele zoptymalizowane pod kątem konkretnych zastosowań przypadków. Oto krótkie omówienie dostępnych wersji Gemini:
Wariant modelu | Dane wejściowe | Wyniki | Zoptymalizowany dla |
---|---|---|---|
Gemini 1.5 Pro
gemini-1.5-pro |
Dźwięk, obrazy, filmy i tekst | Tekst | złożone zadania rozumowania, takie jak kod i generowanie tekstu, edytowanie tekstu, rozwiązywanie problemów, wyodrębnianie i generowanie danych |
Gemini 1.5 Flash
gemini-1.5-flash |
Dźwięk, obrazy, filmy i tekst | Tekst | Szybkie i wszechstronne narzędzie do wykonywania różnorodnych zadań |
Gemini 1.0 Pro
gemini-1.0-pro |
Tekst | Tekst | zadania w języku naturalnym, wieloetapowy czat tekstowy i kodowy oraz kod; generacja |
(Wycofano) Gemini 1.0 Pro Vision
gemini-pro-vision
|
Obrazy, filmy i tekst | Tekst | Zadania związane z obrazem, np. generowanie obrazu opisów ani rozpoznawania obiektów na obrazach. |
Umieszczanie tekstu
text-embedding-004 |
Tekst | Wektory dystrybucyjne tekstu | Pomiar powiązania ciągów tekstowych |
AQA
aqa |
Tekst | Tekst | Udzielanie wiarygodnych źródeł odpowiedzi na pytania |
W tej tabeli opisano atrybuty modeli Gemini, które są wspólne dla wszystkich wersji modelu:
Atrybut | Opis |
---|---|
Dane treningowe | W przypadku Gemini limit dostępu do wiedzy upływa 2023 r. Wiedza o wydarzeniach po tym czasie jest ograniczona. |
Obsługiwane języki | Zobacz dostępne języki |
Konfigurowalne parametry modelu |
|
Zobacz parametry modelu sekcji Przewodnik po modelach generatywnych zawiera informacje o każdym z tych parametrów.
Gemini 1.5 Flash
Gemini 1.5 Flash to szybki i uniwersalny model multimodalny, który umożliwia skalowanie do różnych zadań.
Szczegóły modelu
Właściwość | Opis |
---|---|
– kod modelu | models/gemini-1.5-flash |
Obsługiwane typy danych |
Wejścia Dźwięk, obrazy, filmy i tekst Wyjście Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Specyfikacje audiowizualne |
Maksymalna liczba obrazów w prompcie 3,600 Maksymalna długość filmu 1 godzina Maksymalna długość ścieżki dźwiękowej Około 9,5 godziny |
[**] | Limity stawek
|
Umiejętności |
Instrukcje systemowe Obsługiwane Tryb JSON Obsługiwane Schemat JSON Nieobsługiwane Regulowane ustawienia bezpieczeństwa Obsługiwane Pamięć podręczna Obsługiwane Dostrajanie Nieobsługiwane Wywoływanie funkcji Obsługiwane Konfiguracja wywoływania funkcji Obsługiwane Wykonanie kodu Obsługiwane |
Najnowsza aktualizacja | Maj 2024 r. |
Gemini 1.5 Pro
Gemini 1.5 Pro to średniej wielkości model multimodalny, zoptymalizowany pod kątem do wielu zadań związanych z rozumowaniem. 1.5 Pro może przetwarzać duże ilości danych obejmujące 2 godziny filmów, 19 godzin audio, bazy kodu 60 000 wierszy kodu, czyli 2000 stron tekstu.
Szczegóły modelu
Właściwość | Opis |
---|---|
– kod modelu | models/gemini-1.5-pro |
Obsługiwane typy danych |
Wejścia Dźwięk, obrazy, filmy i tekst Wyjście Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 2 097 152 Limit tokenów wyjściowych 8192 |
Specyfikacje audiowizualne |
Maksymalna liczba obrazów w prompcie 7200 Maksymalna długość filmu 2 godziny Maksymalna długość ścieżki dźwiękowej Około 19 godzin |
[**] | Limity stawek
|
Umiejętności |
Instrukcje systemowe Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Regulowane ustawienia bezpieczeństwa Obsługiwane Pamięć podręczna Obsługiwane Dostrajanie Nieobsługiwane Wywoływanie funkcji Obsługiwane Konfiguracja wywoływania funkcji Obsługiwane Wykonanie kodu Obsługiwane |
Najnowsza aktualizacja | Maj 2024 r. |
Gemini 1.0 Pro
Gemini 1.0 Pro to model NLP, który obsługuje zadania takie jak wieloetapowe czatu i generowania kodu.
Szczegóły modelu
Właściwość | Opis |
---|---|
– kod modelu | models/gemini-1.0-pro |
Obsługiwane typy danych |
Wejście Tekst Wyjście Tekst |
[**] | Limity stawek
|
Umiejętności |
Instrukcje systemowe Nieobsługiwane Tryb JSON Nieobsługiwane Schemat JSON Nieobsługiwane Regulowane ustawienia bezpieczeństwa Obsługiwane Pamięć podręczna Nieobsługiwane Dostrajanie Obsługiwane Wywoływanie funkcji Obsługiwane Konfiguracja wywoływania funkcji Nieobsługiwane Wykonanie kodu Nieobsługiwane |
Najnowsza aktualizacja | Luty 2024 r. |
(Wycofano) Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision to model multimodalny zoptymalizowany pod kątem wydajności które pozwalają wykonywać zadania wizualne. Na przykład 1.0 Pro Vision generować opisy obrazów, identyfikować obiekty na obrazach, udostępniać informacje o miejscach lub obiektach na zdjęciach itp.
Szczegóły modelu
Właściwość | Opis |
---|---|
– kod modelu | models/gemini-pro-vision |
Obsługiwane typy danych |
Wejścia Obrazy, filmy i tekst Wyjście Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 12 288 Limit tokenów wyjściowych 4096 |
Specyfikacje audiowizualne |
Maksymalna długość filmu 2 minuty |
[**] | Limity stawek60 żądań na minutę |
Umiejętności |
Instrukcje systemowe Nieobsługiwane Tryb JSON Nieobsługiwane Schemat JSON Nieobsługiwane Regulowane ustawienia bezpieczeństwa Obsługiwane Pamięć podręczna Nieobsługiwane Dostrajanie Nieobsługiwane Wywoływanie funkcji Obsługiwane Konfiguracja wywoływania funkcji Nieobsługiwane Wykonanie kodu Nieobsługiwane |
Najnowsza aktualizacja | Grudzień 2023 r. |
Umieszczanie i umieszczanie tekstu
Umieszczanie tekstu
Za pomocą modelu umieszczania tekstu możesz generować wektorów dystrybucyjnych tekstu dla tekst do wprowadzania danych. Więcej informacji o modelu umieszczania tekstu znajdziesz na stronie Dokumentacja generatywnej AI w Vertex AI o wektorach dystrybucyjnych.
Model umieszczania tekstu jest zoptymalizowany pod kątem tworzenia wektorów dystrybucyjnych za pomocą wersji 768 dla tekstu wynoszącego do 2048 tokenów. Umieszczanie tekstu zapewnia elastyczność o rozmiarach poniżej 768. Wektorów dystrybucyjnych elastycznych możesz używać do generowania mniejsze wymiary wyjściowe i potencjalnie mniejsze koszty związane z mocą obliczeniową i miejscem na dane z niewielką utratą skuteczności.
Szczegóły modelu
Właściwość | Opis |
---|---|
– kod modelu |
Gemini API,
|
Obsługiwane typy danych |
Wejście Tekst Wyjście Wektory dystrybucyjne tekstu |
[*] | Limity tokenów
Limit tokenów wejściowych 2 048 Rozmiar wymiaru wyjściowego 768 |
[**] | Limity stawek1500 żądań na minutę |
Regulowane ustawienia bezpieczeństwa | Nieobsługiwane |
Najnowsza aktualizacja | Kwiecień 2024 r. |
Umieszczanie
Modelu umieszczania możesz użyć do wygenerowania wektorów dystrybucyjnych tekstu dla tekst do wprowadzania danych.
Model wektorów dystrybucyjnych jest zoptymalizowany do tworzenia wektorów dystrybucyjnych o wymiarach 768 dla tekstu maksymalnie 2048 tokenów.
Szczegóły modelu wektora dystrybucyjnego
Właściwość | Opis |
---|---|
– kod modelu |
models/embedding-001
|
Obsługiwane typy danych |
Wejście Tekst Wyjście Wektory dystrybucyjne tekstu |
[*] | Limity tokenów
Limit tokenów wejściowych 2 048 Rozmiar wymiaru wyjściowego 768 |
[**] | Limity stawek1500 żądań na minutę |
Regulowane ustawienia bezpieczeństwa | Nieobsługiwane |
Najnowsza aktualizacja | Grudzień 2023 r. |
AQA,
Modelu AQA można używać do Przypisywanie odpowiedzi na pytania zadań (AQA) nad dokumentem, korpusem lub zestawem fragmentów. Raport AQA model zwraca odpowiedzi na pytania oparte na podanych źródłach, wraz z szacowaniem prawdopodobieństwa odpowiedzi.
Szczegóły modelu
Właściwość | Opis |
---|---|
– kod modelu | models/aqa |
Obsługiwane typy danych |
Wejście Tekst Wyjście Tekst |
Obsługiwany język | angielski |
[*] | Limity tokenów
Limit tokenów wejściowych 7168 Limit tokenów wyjściowych 1024 |
[**] | Limity stawek1500 żądań na minutę |
Regulowane ustawienia bezpieczeństwa | Obsługiwane |
Najnowsza aktualizacja | Grudzień 2023 r. |
Zapoznaj się z przykładami, aby poznać możliwości tego modelu. odmian.
[*] W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 angielskich słów.
[**] RPM: liczba żądań na minutę
TPM: liczba tokenów na minutę
RPD: żądania dziennie
TPD: liczba tokenów dziennie
Ze względu na ograniczenia pojemności określone maksymalne limity szybkości nie są
gwarantowane.
Wzorce nazw wersji modelu
Modele Gemini są dostępne w wersji podglądu i stabilnej. W kodu, możesz użyć jednego z poniższych formatów nazwy modelu, aby określić, który model i jej wersji, której chcesz użyć.
Najnowsza: wskazuje najnowocześniejszą wersję modelu danego obiektu. i wariant. Model bazowy jest regularnie aktualizowany i może wersji przedpremierowej. Należy używać tylko eksploracyjnych aplikacji testowych i prototypów użyć tego aliasu.
Aby określić najnowszą wersję, użyj tego wzorca:
<model>-<generation>-<variation>-latest
Przykład:gemini-1.0-pro-latest
Najnowsza stabilna:wskazuje najnowszą wersję stabilną wydaną na określonego generowania i odmiany modelu.
Aby określić najnowszą wersję stabilną, użyj tego wzorca:
<model>-<generation>-<variation>
Na przykład:gemini-1.0-pro
.Stabilny: wskazuje konkretny model stabilny. Modele stabilne się nie zmieniają. Większość aplikacji w wersji produkcyjnej powinna używać określonego stabilnego modelu.
Aby określić wersję stabilną, użyj tego wzorca:
<model>-<generation>-<variation>-<version>
Przykład:gemini-1.0-pro-001
Dostępne języki
Modele Gemini są trenowane do pracy z tymi językami:
- arabski (
ar
) - bengalski (
bn
) - bułgarski (
bg
) - chiński uproszczony i tradycyjny (
zh
) - chorwacki (
hr
) - czeski (
cs
) - duński (
da
) - niderlandzki (
nl
) - Angielski (
en
) - estoński (
et
) - fiński (
fi
) - francuski (
fr
) - niemiecki (
de
) - grecki (
el
) - hebrajski (
iw
) - hindi (
hi
) - węgierski (
hu
) - indonezyjski (
id
) - włoski (
it
) - japoński (
ja
) - koreański (
ko
) - łotewski (
lv
) - litewski (
lt
) - norweski (
no
) - polski (
pl
) - portugalski (
pt
) - rumuński (
ro
) - rosyjski (
ru
) - serbski (
sr
) - słowacki (
sk
) - słoweński (
sl
) - hiszpański (
es
) - suahili (
sw
) - szwedzki (
sv
) - tajski (
th
) - turecki (
tr
) - ukraiński (
uk
) - wietnamski (
vi
)