Gemini to rodzina modeli generatywnej AI, która umożliwia programistom generowanie treści i rozwiązywanie problemów. Modele te są zaprojektowane i trenowane tak, aby obsługiwały zarówno tekst, jak i obrazy. Ten przewodnik zawiera informacje o każdym wariancie modelu, aby pomóc Ci zdecydować, który z nich najlepiej sprawdzi się w Twoim przypadku.
Dostępne języki
Modele Gemini są trenowane do pracy z tymi językami: arabskim (ar
), bengalskim (), arabskim (), polskim (), chińskim (uproszczonym i tradycyjnym (zh
),
chorwackim (hr
), czeskim (cs
), duńskim (da
), niderlandzkim (nl
), angielskim (en
), estońskim (et
), fińskim (fi
), francuskim (fr
), niemieckim (de
), francuskim (el
), niemieckim (de
), niemieckim (el
), niemieckim (de
), niemieckim (de
), rosyjskim (), niemieckim (), niemieckim (), niemieckim (), niemieckim (), koreańskim (), rosyjskim (), koreańskim (), francuskim (), rosyjskim (), niemieckim (), niemieckim (), koreańskim ().
bn
bg
iw
hi
hu
id
it
ja
ko
lv
lt
no
pl
pt
ro
ru
sr
sk
sl
es
sw
sv
th
tr
uk
vi
Modele PaLM działają dobrze tylko w języku angielskim. Używanie innych języków może dać nieoczekiwane rezultaty.
Warianty modelu
Gemini API oferuje różne modele zoptymalizowane pod kątem konkretnych przypadków użycia. Oto krótkie omówienie dostępnych wersji Gemini:
Wariant modelu | Dane wejściowe | Dane wyjściowe | Zoptymalizowany dla |
---|---|---|---|
Gemini 1.5 Pro (wersja przedpremierowa) | Dźwięk, obrazy, filmy i tekst | Tekst | Zadania uzasadniające m.in. generowanie kodu i tekstu, edytowanie tekstu, rozwiązywanie problemów, wyodrębnianie i generowanie danych |
Gemini 1.5 Flash (wersja testowa) | Dźwięk, obrazy, filmy i tekst | Tekst | Szybkie i wszechstronne narzędzie do wykonywania różnorodnych zadań |
Gemini 1.0 Pro | Tekst | Tekst | Zadania w języku naturalnym, wieloetapowy czat tekstowy i z kodem oraz generowanie kodu |
Gemini 1.0 Pro Vision | Obrazy, filmy i tekst | Tekst | Wydajność zoptymalizowana pod kątem zadań związanych z treściami wizualnymi, takich jak generowanie opisów obrazów lub identyfikowanie obiektów na obrazach |
Umieszczanie tekstu | Tekst | Wektory dystrybucyjne tekstu | Generuj elastyczne wektory dystrybucyjne tekstu o maksymalnie 768 wymiarach dla tekstu do 2048 tokenów |
Umieszczanie | Tekst | Wektory dystrybucyjne tekstu | Generuj wektory dystrybucyjne tekstu z 768 wymiarami dla tekstu do 2048 tokenów |
AQA | Tekst | Tekst | Wykonywanie zadań związanych z przypisanym udzielaniem odpowiedzi na pytania przy użyciu podanego tekstu |
W tej tabeli opisano atrybuty modeli Gemini, które są wspólne dla wszystkich wariantów:
Atrybut | Opis |
---|---|
Dane treningowe | Gemini ma limit dostępu do wiedzy na początku 2023 roku. Wiedza o wydarzeniach po tym czasie jest ograniczona. |
Obsługiwane języki | Zobacz dostępne języki |
Konfigurowalne parametry modelu |
|
Więcej informacji o każdym z tych parametrów znajdziesz w sekcji dotyczącej parametrów modelu w przewodniku po modelach generatywnych.
Gemini 1.5 Pro (wersja przedpremierowa)
Gemini 1.5 Pro to średniej wielkości model multimodalny zoptymalizowany do wykonywania wielu zadań rozumowania, takich jak:
- Generowanie kodu
- Generowanie tekstu
- Edytowanie tekstu
- Rozwiązywanie problemów
- Generowanie rekomendacji
- Wyodrębnianie informacji
- Wyodrębnianie lub generowanie danych
- Tworzenie agentów AI
1.5 Pro może jednocześnie przetworzyć duże ilości danych, w tym 1 godzinę filmów, 9,5 godziny dźwięku, bazy kodu z ponad 30 tys. wierszy lub ponad 700 tys. słów.
1.5 Pro radzi sobie z zadaniami edukacyjnymi „zero-shot”, „jeden” i „few-shot”.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-pro-latest |
Dane wejściowe | Dźwięk, obrazy, filmy i tekst |
Dane wyjściowe | Tekst |
Obsługiwane metody generowania |
generateContent
|
Limit tokenów wejściowych [**] | 1 048 576 |
Limit tokenów wyjściowych [**] | 8192 |
Maksymalna liczba obrazów na prompt | 3,600 |
Maksymalna długość filmu | 1 godzina |
Maksymalna długość ścieżki dźwiękowej | Około 9,5 godziny |
Maksymalna liczba plików audio na prompt | 1 |
Bezpieczeństwo modelu | Automatycznie stosowane ustawienia bezpieczeństwa, które deweloperzy mogą dostosować. Więcej informacji znajdziesz na naszej stronie dotyczącej ustawień bezpieczeństwa. |
Limity liczby żądań[*] |
|
Instrukcje systemowe | Obsługiwane |
Tryb JSON | Obsługiwane |
Najnowsza wersja | gemini-1.5-pro-latest |
Najnowsza stabilna wersja | gemini-1.5-pro |
Ostatnia modyfikacja | Kwiecień 2024 r. |
Gemini 1.5 Flash (wersja testowa)
Gemini 1.5 Flash to szybki i uniwersalny model multimodalny, który umożliwia skalowanie w różnych zadaniach.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | gemini-1.5-flash-latest |
Dane wejściowe | Dźwięk, obrazy, filmy i tekst |
Dane wyjściowe | Tekst |
Obsługiwane metody generowania |
generateContent
|
Limit tokenów wejściowych [**] | 1 048 576 |
Limit tokenów wyjściowych [**] | 8192 |
Maksymalna liczba obrazów na prompt | 3,600 |
Maksymalna długość filmu | 1 godzina |
Maksymalna długość ścieżki dźwiękowej | Około 9,5 godziny |
Maksymalna liczba plików audio na prompt | 1 |
Bezpieczeństwo modelu | Automatycznie stosowane ustawienia bezpieczeństwa, które deweloperzy mogą dostosować. Więcej informacji znajdziesz na naszej stronie dotyczącej ustawień bezpieczeństwa. |
Limity liczby żądań[*] |
|
Instrukcje systemowe | Obsługiwane |
Tryb JSON | Obsługiwane |
Najnowsza wersja | gemini-1.5-flash-latest |
Najnowsza stabilna wersja | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro to model NLP, który obsługuje takie zadania jak wieloetapowy czat tekstowy i z kodem oraz generowanie kodu.
1.0 Pro może radzić sobie z zadaniami edukacyjnymi „zero-shot”, „jedena” i „few-shot”.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-pro |
Dane wejściowe | Tekst |
Dane wyjściowe | Tekst |
Obsługiwane metody generowania |
generate_content
generateContent
|
Limity liczby żądań[*] |
|
Instrukcje systemowe | Nieobsługiwany |
Tryb JSON | Nieobsługiwany |
Najnowsza wersja | gemini-1.0-pro-latest |
Najnowsza stabilna wersja | gemini-1.0-pro |
Wersje stabilne | gemini-1.0-pro-001 |
Ostatnia modyfikacja | Luty 2024 r. |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision to model multimodalny zoptymalizowany pod kątem wydajności, który może wykonywać zadania wizualne. 1.0 Pro Vision może na przykład generować opisy obrazów, identyfikować obiekty na obrazach, przekazywać informacje o miejscach lub obiektach widocznych na obrazach.
1.0 Pro Vision umożliwia wykonywanie zadań „zero-shot”, „jeden” i „few-shot”.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-pro-vision |
Dane wejściowe | Tekst, filmy i obrazy |
Dane wyjściowe | Tekst |
Obsługiwane metody generowania |
generate_content
generateContent
|
Limit tokenów wejściowych[*] | 12 288 |
Limit tokenów wyjściowych[*] | 4096 |
Maksymalny rozmiar obrazu | Brak limitu |
Maksymalna liczba obrazów na prompt | 16 |
Maksymalna długość filmu | 2 minuty |
Maksymalna liczba filmów na prompt | 1 |
Bezpieczeństwo modelu | Automatycznie stosowane ustawienia bezpieczeństwa, które deweloperzy mogą dostosować. Więcej informacji znajdziesz na naszej stronie dotyczącej ustawień bezpieczeństwa. |
Limit liczby żądań[*] | 60 żądań na minutę |
Najnowsza wersja | gemini-1.0-pro-vision-latest |
Najnowsza stabilna wersja | gemini-1.0-pro-vision |
Ostatnia modyfikacja | Grudzień 2023 r. |
Umieszczanie i umieszczanie tekstu
Umieszczanie tekstu
Za pomocą modelu umieszczania tekstu możesz generować wektory dystrybucyjne tekstu dla tekstu wejściowego. Więcej informacji o modelu umieszczania tekstu znajdziesz w dokumentacji generatywnej AI w Vertex AI dotyczącej wektorów dystrybucyjnych tekstu.
Model umieszczania tekstu jest zoptymalizowany pod kątem tworzenia wektorów dystrybucyjnych o wymiarach 768 wymiarów w przypadku tekstu zawierającego maksymalnie 2048 tokenów. Umieszczanie tekstu zapewnia elastyczne rozmiary wektora dystrybucyjnego poniżej 768. Korzystając z elastycznych wektorów dystrybucyjnych, możesz generować mniejsze wymiary wyjściowe, a także potencjalnie zmniejszyć koszty przetwarzania i przechowywania danych przy niewielkiej utracie wydajności.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu |
models/text-embedding-004 (text-embedding-preview-0409 w Vertex AI)
|
Dane wejściowe | Tekst |
Dane wyjściowe | Wektory dystrybucyjne tekstu |
Limit tokenów wejściowych | 2 048 |
Rozmiar wymiaru wyjściowego | 768 |
Obsługiwane metody generowania |
embed_content
embedContent
|
Bezpieczeństwo modelu | Brak ustawień bezpieczeństwa, które można dostosować. |
Limit liczby żądań[*] | 1500 żądań na minutę |
Ostatnia modyfikacja | Kwiecień 2024 r. |
Wektor dystrybucyjny
Modelu umieszczania możesz używać do generowania wektorów dystrybucyjnych tekstu dla tekstu wejściowego.
Model wektora dystrybucyjnego jest zoptymalizowany pod kątem tworzenia wektorów dystrybucyjnych z 768 wymiarami w przypadku tekstu zawierającego maksymalnie 2048 tokenów.
Szczegóły modelu wektora dystrybucyjnego
Właściwość | Opis |
---|---|
Kod modelu | models/embedding-001 |
Dane wejściowe | Tekst |
Dane wyjściowe | Wektory dystrybucyjne tekstu |
Limit tokenów wejściowych | 2 048 |
Rozmiar wymiaru wyjściowego | 768 |
Obsługiwane metody generowania |
embed_content
embedContent
|
Bezpieczeństwo modelu | Brak ustawień bezpieczeństwa, które można dostosować. |
Limit liczby żądań[*] | 1500 żądań na minutę |
Ostatnia modyfikacja | Grudzień 2023 r. |
AQA,
Modelu AQA można używać do wykonywania zadań związanych z przypisanymi odpowiedziami na pytania (AQA) na dokumentach, korpusach lub zbiorze fragmentów. Model AQA zwraca odpowiedzi na pytania oparte na podanych źródłach oraz szacuje prawdopodobieństwo możliwych do uzyskania odpowiedzi.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/aqa |
Dane wejściowe | Tekst |
Dane wyjściowe | Tekst |
Obsługiwane metody generowania |
GenerateAnswerRequest
generateAnswer
|
Obsługiwane języki | angielski |
Limit tokenów wejściowych [**] | 7168 |
Limit tokenów wyjściowych [**] | 1024 |
Bezpieczeństwo modelu | Automatycznie stosowane ustawienia bezpieczeństwa, które deweloperzy mogą dostosować. Więcej informacji znajdziesz na naszej stronie dotyczącej ustawień bezpieczeństwa. |
Limit liczby żądań[*] | 60 żądań na minutę |
Ostatnia modyfikacja | Grudzień 2023 r. |
Zapoznaj się z przykładami, aby poznać możliwości tych odmian modelu.
[*] W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 angielskich słów.
[**] RPM: żądania na minutę
TPM: liczba tokenów na minutę
RPD: żądania dziennie
TPD: liczba tokenów dziennie
Ze względu na ograniczenia pojemności określone limity maksymalnej liczby żądań nie są gwarantowane.
Wzorce nazw wersji modelu
Modele Gemini są dostępne w wersji podglądu i stabilnej. W swoim kodzie możesz użyć jednego z poniższych formatów nazwy modelu, aby określić model i wersję, których chcesz używać.
Najnowsza: wskazuje najnowszą wersję modelu dla określonej generacji i wariantu. Model bazowy jest regularnie aktualizowany i może być wersją testową. Tego aliasu powinny używać tylko eksploracyjne aplikacje i prototypy.
Aby określić najnowszą wersję, użyj tego wzorca:
<model>-<generation>-<variation>-latest
. Przykład:gemini-1.0-pro-latest
.Najnowsza stabilna:wskazuje najnowszą wersję stabilną wydaną na potrzeby określonego generowania i odmiany modelu.
Aby określić najnowszą wersję stabilną, użyj tego wzorca:
<model>-<generation>-<variation>
. Na przykład:gemini-1.0-pro
.Stabilny: wskazuje konkretny model stabilny. Modele stabilne się nie zmieniają. Większość aplikacji w wersji produkcyjnej powinna używać określonego stabilnego modelu.
Aby określić wersję stabilną, użyj tego wzorca:
<model>-<generation>-<variation>-<version>
. Przykład:gemini-1.0-pro-001
.