2.0 Flash
Nasz najnowszy model multimodalny z funkcjami nowej generacji i ulepszonymi możliwościami
- Wprowadzanie dźwięku, obrazów, filmów i tekstu oraz uzyskiwanie odpowiedzi tekstowych
- generować kod, wyodrębniać dane, analizować pliki, generować wykresy itp.
- Niski poziom opóźnień, ulepszona wydajność, obsługa funkcji agenta
2.0 Flash-Lite
Model Gemini 2.0 Flash zoptymalizowany pod kątem niskich kosztów i niskiej latencji
- Wprowadzanie dźwięku, obrazów, filmów i tekstu oraz uzyskiwanie odpowiedzi tekstowych
- Wyższa wydajność niż w przypadku modelu 1.5 Flash w przypadku większości testów porównawczych
- Okno kontekstu o wielkości 1 mln tokenów i dane multimodalne, np. Flash 2.0
1.5 Flash
Nasz najbardziej zrównoważony model multimodalny o wysokiej wydajności w przypadku większości zadań
- Wprowadzanie dźwięku, obrazów, filmów i tekstu oraz uzyskiwanie odpowiedzi tekstowych
- generować kod, wyodrębniać dane, edytować tekst i wykonywać inne czynności.
- Najlepiej sprawdza się w przypadku zadań, które wymagają równowagi między wydajnością a kosztami.
Warianty modelu
Gemini API udostępnia różne modele zoptymalizowane pod kątem konkretnych zastosowań. Oto krótkie omówienie dostępnych wariantów Gemini:
Wariant modelu | Dane wejściowe | Wyniki | Zoptymalizowany dla |
---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash |
Dźwięk, obrazy, filmy i tekst | tekst, obrazy (wkrótce) i dźwięk (wkrótce). | Funkcje nowej generacji, szybkość i generowanie multimodalne do różnych zadań |
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite |
Dźwięk, obrazy, filmy i tekst | Tekst | Model Gemini 2.0 Flash zoptymalizowany pod kątem niskich kosztów i niskiej latencji |
Gemini 1.5 Flash
gemini-1.5-flash |
Dźwięk, obrazy, filmy i tekst | Tekst | szybkie i wszechstronne działanie podczas wykonywania różnych zadań; |
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b |
Dźwięk, obrazy, filmy i tekst | Tekst | Zadania o dużej liczbie i mniejszym zaawansowaniu |
Gemini 1.5 Pro
gemini-1.5-pro |
Dźwięk, obrazy, filmy i tekst | Tekst | złożone zadania wymagające większej inteligencji; |
Wstawianie tekstu
text-embedding-004 |
Tekst | wektory tekstowe, | Pomiar podobieństwa ciągów tekstowych |
Limity stawek dla poszczególnych modeli możesz sprawdzić na stronie z limitami stawek.
Gemini 2.0 Flash
Gemini 2.0 Flash oferuje funkcje nowej generacji i ulepszone możliwości, w tym większą szybkość, korzystanie z natywnego narzędzia, generowanie multimodalne i okno kontekstu z milionem tokenów.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-2.0-flash |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe dźwięk (wkrótce), obrazy (wkrótce) i tekst; |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Wyjścia uporządkowane Obsługiwane Pamięć podręczna Wkrótce Dostrajanie Nieobsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Wyszukiwarka Obsługiwane Generowanie obrazów Wkrótce Korzystanie z narzędzi natywnych Obsługiwane Generowanie dźwięku Wkrótce Interfejs API multimodalnego na żywo Wkrótce |
|
Wersje |
|
Ostatnia aktualizacja | Luty 2025 r. |
Ustawienie „Knowledge cutoff” | Sierpień 2024 r. |
Gemini 2.0 Flash-Lite
Model Gemini 2.0 Flash zoptymalizowany pod kątem niskich kosztów i małej latencji.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-2.0-flash-lite |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Wyjścia uporządkowane Obsługiwane Pamięć podręczna Nieobsługiwane Dostrajanie Nieobsługiwane Połączenia z funkcjami Nieobsługiwane Wykonywanie kodu Nieobsługiwane Wyszukiwarka Nieobsługiwane Generowanie obrazów Nieobsługiwane Korzystanie z narzędzi natywnych Nieobsługiwane Generowanie dźwięku Nieobsługiwane Interfejs API multimodalnego na żywo Nieobsługiwane |
|
Wersje |
|
Ostatnia aktualizacja | Luty 2025 r. |
Ustawienie „Knowledge cutoff” | Sierpień 2024 r. |
Gemini 1.5 Flash
Gemini 1.5 Flash to szybki i wszechstronny model multimodalny do skalowania na potrzeby różnych zadań.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-flash |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 3,600 Maksymalna długość filmu 1 godzina Maksymalna długość dźwięku Około 9,5 godziny |
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Pamięć podręczna Obsługiwane Dostrajanie Obsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
Wersje |
|
Ostatnia aktualizacja | Wrzesień 2024 r. |
Gemini 1.5 Flash-8B
Gemini 1.5 Flash-8B to mały model przeznaczony do zadań wymagających mniejszej inteligencji.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-flash-8b |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 1 048 576 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 3,600 Maksymalna długość filmu 1 godzina Maksymalna długość dźwięku Około 9,5 godziny |
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Pamięć podręczna Obsługiwane Dostrajanie Obsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
Wersje |
|
Ostatnia aktualizacja | Październik 2024 r. |
Gemini 1.5 Pro
Wypróbuj Gemini 2.0 Pro Experimental, nasz najbardziej zaawansowany model Gemini do tej pory.
Gemini 1.5 Pro to średniej wielkości multimodalny model zoptymalizowany pod kątem szerokiego zakresu zadań związanych z wyciąganiem wniosków. Wersja 1.5 Pro może przetwarzać duże ilości danych jednocześnie, w tym 2 godziny filmu, 19 godzin dźwięku, bazy kodów zawierające 60 tys. wierszy kodu lub 2000 stron tekstu.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-pro |
Obsługiwane typy danych |
Wejścia Dźwięk, obraz, film i tekst Dane wyjściowe Tekst |
[*] | Limity tokenów
Limit tokenów wejściowych 2 097 152 Limit tokenów wyjściowych 8192 |
Specyfikacja audiowizualna |
Maksymalna liczba obrazów na prompt 7200 Maksymalna długość filmu 2 godziny Maksymalna długość dźwięku Około 19 godzin |
Instrukcje dotyczące systemu Obsługiwane Tryb JSON Obsługiwane Schemat JSON Obsługiwane Ustawienia bezpieczeństwa Obsługiwane Pamięć podręczna Obsługiwane Dostrajanie Nieobsługiwane Połączenia z funkcjami Obsługiwane Wykonywanie kodu Obsługiwane Transmisja dwukierunkowa Nieobsługiwane |
|
Wersje |
|
Ostatnia aktualizacja | Wrzesień 2024 r. |
Wektory dystrybucyjne tekstu
Wstawianie tekstu
Wypróbuj nasz nowy eksperymentalny model osadzania Gemini, który osiąga najlepszą wydajność.
Wstawianie tekstu służy do pomiaru podobieństwa ciągów znaków i jest szeroko stosowane w wielu zastosowaniach AI.
text-embedding-004
osiąga lepszą skuteczność wyszukiwania i przewyższa wyniki dotychczasowych modeli
z porównywalnymi wymiarami w standardowych testach porównawczych w ramach MTEB.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu |
Gemini API
|
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe wektory tekstowe, |
[*] | Limity tokenów
Limit tokenów wejściowych 2048 Rozmiar wymiaru wyjściowego 768 |
[**] | Limity szybkości1500 żądań na minutę |
dostosowane ustawienia bezpieczeństwa | Nieobsługiwane |
Ostatnia aktualizacja | Kwiecień 2024 r. |
Umieszczanie
Możesz użyć modelu embeddingu, aby wygenerować embeddingi tekstu dla tekstu wejściowego.
Model embeddingu jest zoptymalizowany pod kątem tworzenia embeddingów o 768 wymiarach w przypadku tekstu zawierającego do 2048 tokenów.
Szczegóły modelu wektora dystrybucyjnego
Właściwość | Opis |
---|---|
Kod modelu |
models/embedding-001
|
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe wektory tekstowe, |
[*] | Limity tokenów
Limit tokenów wejściowych 2048 Rozmiar wymiaru wyjściowego 768 |
[**] | Limity szybkości1500 żądań na minutę |
dostosowane ustawienia bezpieczeństwa | Nieobsługiwane |
Ostatnia aktualizacja | Grudzień 2023 r. |
AQA
Model AQA możesz wykorzystać do wykonywania zadań związanych z przypisywaniem odpowiedzi na pytania (AQA) na podstawie dokumentu, korpusie lub zbioru fragmentów. Model AQA zwraca odpowiedzi na pytania oparte na podanych źródłach wraz z oszacowaniem prawdopodobieństwa odpowiedzi.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/aqa |
Obsługiwane typy danych |
Wejście Tekst Dane wyjściowe Tekst |
Obsługiwany język | angielski |
[*] | Limity tokenów
Limit tokenów wejściowych 7168 Limit tokenów wyjściowych 1024 |
[**] | Limity szybkości1500 żądań na minutę |
dostosowane ustawienia bezpieczeństwa | Obsługiwane |
Ostatnia aktualizacja | Grudzień 2023 r. |
Aby poznać możliwości tych wariantów modeli, zapoznaj się z przykładami.
[*], token to około 4 znaków w przypadku modeli Gemini. 100 tokenów to około 60–80 słów po angielsku.
Wzorce nazw wersji modelu
Modele Gemini są dostępne w wersjach testowych lub stabilnych. W kodzie możesz użyć jednego z tych formatów nazwy modelu, aby określić, którego modelu i której wersji chcesz użyć.
Najnowsza:wskazuje najnowszą wersję modelu dla określonej generacji i wariantu. Model bazowy jest regularnie aktualizowany i może być wersją podglądową. Tego aliasu powinny używać tylko aplikacje do testów eksploracyjnych i prototypy.
Aby określić najnowszą wersję, użyj tego wzorca:
<model>-<generation>-<variation>-latest
. Na przykład:gemini-1.0-pro-latest
.Najnowsza stabilna wersja: wskazuje najnowszą stabilną wersję opublikowaną dla określonego pokolenia i wariantu modelu.
Aby określić najnowszą stabilną wersję, użyj tego wzoru:
<model>-<generation>-<variation>
. Na przykład:gemini-1.0-pro
.Stabilny: wskazuje konkretny stabilny model. Stabilne modele się nie zmieniają. Większość produkcyjnych aplikacji powinna używać konkretnego stabilnego modelu.
Aby określić wersję stabilną, użyj tego wzoru:
<model>-<generation>-<variation>-<version>
. Na przykład:gemini-1.0-pro-001
.Eksperymentalny: wskazuje model eksperymentalny dostępny w wersji testowej zgodnie z definicją w Warunkach, co oznacza, że nie jest przeznaczony do użytku w produkcji. Wprowadzamy modele eksperymentalne, aby zbierać opinie, szybko udostępniać deweloperom najnowsze aktualizacje i pokazywać tempo wprowadzania innowacji w Google. Dzięki opiniom użytkowników możemy wprowadzać kolejne ulepszenia, a udostępniając wcześniej modele eksperymentalne, możemy lepiej przygotować się na ich szersze wdrożenie. Model eksperymentalny można zastąpić innym bez wcześniejszego powiadomienia. Nie możemy zagwarantować, że model eksperymentalny stanie się w przyszłości modelem stabilnym.
Aby określić wersję eksperymentalną, użyj tego wzoru:
<model>-<generation>-<variation>-<version>
. Na przykład:gemini-2.0-pro-exp-02-05
.Aby usprawnić proces tworzenia i testowania, możesz pominąć wersję i użyć tylko
-exp
, na przykładgemini-2.0-pro-exp
. Wskazuje ona zawsze najnowszą wersję modelu eksperymentalnego.
Dostępne języki
Modele Gemini są trenowane pod kątem tych języków:
- arabski (
ar
), - bengali (
bn
) - bułgarski (
bg
), - chiński uproszczony i tradycyjny (
zh
), - Chorwacki (
hr
) - czeski (
cs
) - duński (
da
), - Holenderski (
nl
) - Angielski (
en
) - estoński (
et
), - fiński (
fi
), - Francuski (
fr
) - Niemiecki (
de
) - grecki (
el
), - hebrajski (
iw
), - hindi (
hi
), - węgierski (
hu
), - indonezyjski (
id
), - włoski (
it
), - japoński (
ja
) - koreański (
ko
), - łotewski (
lv
), - litewski (
lt
), - norweski (
no
), - Polski (
pl
) - Portugalski (
pt
) - rumuński (
ro
) - rosyjski (
ru
), - serbski (
sr
) - słowacki (
sk
) - słoweński (
sl
), - hiszpański (
es
), - suahili (
sw
), - szwedzki (
sv
) - tajski (
th
), - turecki (
tr
), - ukraiński (
uk
) - wietnamski (
vi
),