2.0 Flash
Nasz najnowszy model multimodalny z funkcjami nowej generacji i ulepszonymi możliwościami
- Wprowadzanie dźwięku, obrazów, filmów i tekstu – uzyskiwanie odpowiedzi tekstowych, obrazowych i dźwiękowych
- Interfejs API Multimodal Live umożliwia konwersacyjne interakcje o krótkim czasie oczekiwania.
1.5 Flash
Nasz najbardziej zrównoważony model multimodalny o wysokiej wydajności w przypadku większości zadań
- Wprowadzanie dźwięku, obrazów, filmów i tekstu oraz uzyskiwanie odpowiedzi tekstowych
- generować kod, wyodrębniać dane, edytować tekst i wykonywać inne czynności.
- Najlepiej sprawdza się w przypadku zadań, w których równoważone są wydajność i koszt.
1.5 Pro
Nasz najlepszy model multimodalny z funkcjami do wykonywania różnych zadań związanych z wyciąganiem wniosków
- Wprowadzanie dźwięku, obrazów, filmów i tekstu oraz uzyskiwanie odpowiedzi tekstowych
- generować kod, wyodrębniać dane, edytować tekst i wykonywać inne czynności.
- Gdy potrzebujesz zwiększenia wydajności
Warianty modelu
Gemini API udostępnia różne modele zoptymalizowane pod kątem konkretnych zastosowań. Oto krótkie omówienie dostępnych wariantów Gemini:
Wariant modelu | Dane wejściowe | Wyniki | Zoptymalizowany dla |
---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash-exp |
Dźwięk, obrazy, filmy i tekst | tekst, obrazy (wkrótce) i dźwięk (wkrótce). | Funkcje nowej generacji, szybkość i generowanie multimodalne do różnych zadań |
Gemini 1.5 Flash
gemini-1.5-flash |
Dźwięk, obrazy, filmy i tekst | Tekst | Szybka i wszechstronna wydajność w różnych zastosowaniach |
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b |
Dźwięk, obrazy, filmy i tekst | Tekst | Zadania o dużej liczbie i mniejszym zaawansowaniu |
Gemini 1.5 Pro
gemini-1.5-pro |
Dźwięk, obrazy, filmy i tekst | Tekst | złożone zadania wymagające większej inteligencji; |
Gemini 1.0 Pro
gemini-1.0-pro
(wycofane 15 lutego 2025 r.) |
Tekst | Tekst | zadania związane z językiem naturalnym, czat wieloetapowy z tekstem i kodem oraz generowanie kodu; |
Wstawianie tekstu
text-embedding-004 |
Tekst | wektory tekstowe, | Pomiar podobieństwa ciągów tekstowych |
AQA
aqa |
Tekst | Tekst | udzielać odpowiedzi na pytania oparte na źródłach; |
Gemini 2.0 Flash (eksperymentalny)
Gemini 2.0 Flash oferuje funkcje nowej generacji i ulepszone możliwości, w tym większą szybkość, obsługę narzędzi natywnych, generowanie multimodalne i okno kontekstu z milionem tokenów. Więcej informacji o Gemini 2.0 Flash znajdziesz na stronie zestawienia.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-2.0-flash-exp |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe dźwięk (wkrótce), obrazy (wkrótce) i tekst; |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
[**] | Limity szybkości
|
Wyjścia uporządkowane Obsługiwane Zapisywanie w pamięci podręcznej Nieobsługiwane Dostrajanie Nieobsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Wyszukiwarka Obsługiwane Generowanie obrazów Obsługiwane Korzystanie z narzędzi natywnych Obsługiwane Generowanie dźwięku Obsługiwane Interfejs API multimodalnego na żywo Obsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Grudzień 2024 r. |
Ustawienie „Knowledge cutoff” | Sierpień 2024 r. |
Gemini 1.5 Flash
Gemini 1.5 Flash to szybki i wszechstronny model multimodalny do skalowania w różnych zadaniach.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-flash |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 3,600 Maksymalna długość filmu 1 godzina Maksymalna długość dźwięku Około 9,5 godziny |
[**] | Limity szybkości
|
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Zapisywanie w pamięci podręcznej Obsługiwane Dostrajanie Obsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Wrzesień 2024 r. |
Gemini 1.5 Flash-8B
Gemini 1.5 Flash-8B to mały model przeznaczony do zadań wymagających mniejszej inteligencji.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-flash-8b |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 3,600 Maksymalna długość filmu 1 godzina Maksymalna długość dźwięku Około 9,5 godziny |
[**] | Limity szybkości
|
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Zapisywanie w pamięci podręcznej Obsługiwane Dostrajanie Obsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Październik 2024 r. |
Gemini 1.5 Pro
Gemini 1.5 Pro to średniej wielkości multimodalny model zoptymalizowany pod kątem szerokiego zakresu zadań związanych z wyciąganiem wniosków. Wersja 1.5 Pro może przetwarzać duże ilości danych jednocześnie, w tym 2 godziny filmu, 19 godzin dźwięku, bazy kodów zawierające 60 tys. wierszy kodu lub 2000 stron tekstu.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-pro |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 2 097 152 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 7200 Maksymalna długość filmu 2 godziny Maksymalna długość dźwięku Około 19 godzin |
[**] | Limity szybkości
|
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Zapisywanie w pamięci podręcznej Obsługiwane Dostrajanie Nieobsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Wrzesień 2024 r. |
Gemini 1.0 Pro (wycofany)
Gemini 1.0 Pro to model NLP, który obsługuje zadania takie jak konwersacje tekstowe i z kodem oraz generowanie kodu.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.0-pro |
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe Tekst |
[**] | Limity szybkości
|
Instrukcje dotyczące systemu Nieobsługiwane Tryb JSON Nieobsługiwane Schemat JSON Nieobsługiwane Ustawienia bezpieczeństwa można dostosować Obsługiwane Zapisywanie w pamięci podręcznej Nieobsługiwane Dostrajanie Obsługiwane Połączenia z funkcjami Obsługiwane Konfiguracja wywoływania funkcji Nieobsługiwane Wykonywanie kodu Nieobsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
wersje |
|
Ostatnia aktualizacja | Luty 2024 r. |
Wektory dystrybucyjne tekstu
Wstawianie tekstu
Wkłady tekstowe służą do pomiaru podobieństwa ciągów znaków i są powszechnie stosowane w wielu zastosowaniach AI.
text-embedding-004
osiąga lepszą skuteczność wyszukiwania i przewyższa wyniki dotychczasowych modeli
przy porównywalnych wymiarach w ramach standardowych testów porównawczych w ramach MTEB.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu |
Gemini API
|
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe wektory tekstowe, |
[*] | Limity tokenów
Limit tokenów wejściowych 2048 Rozmiar wymiaru wyjściowego 768 |
[**] | Limity szybkości1500 żądań na minutę |
ustawienia bezpieczeństwa, | Nieobsługiwane |
Ostatnia aktualizacja | Kwiecień 2024 r. |
Umieszczanie
Możesz użyć modelu embeddingu, aby wygenerować embeddingi tekstu dla tekstu wejściowego.
Model embeddingu jest zoptymalizowany pod kątem tworzenia embeddingów o 768 wymiarach w przypadku tekstu zawierającego do 2048 tokenów.
Szczegóły modelu wektora dystrybucyjnego
Właściwość | Opis |
---|---|
Kod modelu |
models/embedding-001
|
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe wektory tekstowe, |
[*] | Limity tokenów
Limit tokenów wejściowych 2048 Rozmiar wymiaru wyjściowego 768 |
[**] | Limity szybkości1500 żądań na minutę |
ustawienia bezpieczeństwa, | Nieobsługiwane |
Ostatnia aktualizacja | Grudzień 2023 r. |
AQA
Model AQA możesz wykorzystać do wykonywania zadań związanych z przypisywaniem odpowiedzi na pytania (AQA) na podstawie dokumentu, korpusie lub zbioru fragmentów. Model AQA zwraca odpowiedzi na pytania oparte na podanych źródłach wraz z oszacowaniem prawdopodobieństwa odpowiedzi.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/aqa |
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe Tekst |
Obsługiwany język | angielski |
[*] | Limity tokenów
Limit tokenów wejściowych 7168 Limit tokenów wyjściowych 1024 |
[**] | Limity szybkości1500 żądań na minutę |
ustawienia bezpieczeństwa | Obsługiwane |
Ostatnia aktualizacja | Grudzień 2023 r. |
Aby poznać możliwości tych wariantów modeli, zapoznaj się z przykładami.
[*], token to około 4 znaków w przypadku modeli Gemini. 100 tokenów to około 60–80 słów po angielsku.
[**] RPM: żądania na minutę
TPM: tokeny na minutę
RPD: żądania na dzień
TPD: tokeny na dzień
Ze względu na ograniczenia pojemności nie gwarantujemy podanych maksymalnych limitów szybkości.
Wzorce nazw wersji modelu
Modele Gemini są dostępne w wersjach testowych lub stabilnych. W kodzie możesz użyć jednego z tych formatów nazwy modelu, aby określić, którego modelu i której wersji chcesz użyć.
Najnowsza:wskazuje najnowszą wersję modelu dla określonej generacji i wariantu. Model bazowy jest regularnie aktualizowany i może być wersją podglądową. Tego aliasu powinny używać tylko aplikacje do testów eksploracyjnych i prototypy.
Aby określić najnowszą wersję, użyj tego wzorca:
<model>-<generation>-<variation>-latest
. Na przykład:gemini-1.0-pro-latest
.Najnowsza stabilna wersja: wskazuje najnowszą stabilną wersję opublikowaną dla określonej generacji i wariantu modelu.
Aby określić najnowszą stabilną wersję, użyj tego wzoru:
<model>-<generation>-<variation>
. Na przykład:gemini-1.0-pro
.Stabilny: wskazuje konkretny stabilny model. Stabilne modele się nie zmieniają. Większość produkcyjnych aplikacji powinna używać konkretnego stabilnego modelu.
Aby określić wersję stabilną, użyj tego wzoru:
<model>-<generation>-<variation>-<version>
. Na przykład:gemini-1.0-pro-001
.Eksperymentalny: wskazuje model eksperymentalny dostępny w wersji testowej zgodnie z definicją w Warunkach, co oznacza, że nie jest on przeznaczony do użytku w środowisku produkcyjnym. Publikujemy modele eksperymentalne, aby zbierać opinie, szybko udostępniać deweloperom najnowsze aktualizacje i pokazywać tempo wprowadzania innowacji w Google. Dzięki opiniom użytkowników możemy wprowadzać kolejne ulepszenia, a publikując wcześniej modele eksperymentalne, możemy lepiej przygotować się na ich szersze wdrożenie. Model eksperymentalny można zastąpić innym bez wcześniejszego powiadomienia. Nie możemy zagwarantować, że model eksperymentalny stanie się w przyszłości modelem stabilnym.
Aby określić wersję eksperymentalną, użyj tego wzoru:
<model>-<generation>-<variation>-<version>
. Na przykład:gemini-exp-1121
.
Dostępne języki
Modele Gemini są trenowane pod kątem tych języków:
- arabski (
ar
), - bengali (
bn
) - bułgarski (
bg
), - chiński uproszczony i tradycyjny (
zh
), - Chorwacki (
hr
) - czeski (
cs
) - duński (
da
), - Holenderski (
nl
) - Angielski (
en
) - estoński (
et
), - fiński (
fi
), - Francuski (
fr
) - Niemiecki (
de
) - grecki (
el
) - hebrajski (
iw
), - hindi (
hi
), - węgierski (
hu
), - indonezyjski (
id
), - włoski (
it
), - japoński (
ja
) - koreański (
ko
), - łotewski (
lv
), - litewski (
lt
), - norweski (
no
), - Polski (
pl
) - Portugalski (
pt
) - rumuński (
ro
) - Rosyjski (
ru
) - serbski (
sr
) - słowacki (
sk
) - słoweński (
sl
), - hiszpański (
es
), - suahili (
sw
), - szwedzki (
sv
) - tajski (
th
), - turecki (
tr
), - ukraiński (
uk
) - wietnamski (
vi
),