Gemini to rodzina modeli generatywnej AI, która umożliwia deweloperom generowanie treści i rozwiązywanie problemów. Modele te są projektowane i trenowane pod kątem obsługi tekstu i obrazów jako danych wejściowych. W tym przewodniku znajdziesz informacje o każdej wersji modelu, co pomoże Ci wybrać, który najlepiej pasuje do Twojego przypadku użycia.
Bezpieczeństwo i przeznaczenie
Modele generatywnej sztucznej inteligencji to zaawansowane narzędzia, ale nie są bez ograniczeń. Ich uniwersalność i stosowanie może czasem prowadzić do nieoczekiwanych rezultatów, na przykład niedokładnych, stronniczych lub obraźliwych. Przetwarzanie końcowe i rygorystyczna ocena ręczna mają kluczowe znaczenie w ograniczaniu ryzyka pogorszenia wyników takich produktów. Dodatkowe sugestie dotyczące bezpiecznego korzystania znajdziesz w wskazówkach dotyczących bezpieczeństwa.
Modele udostępniane przez interfejs Gemini API mogą być używane w wielu różnych aplikacjach generatywnej AI i przetwarzania języka naturalnego (NLP). Z tych funkcji można korzystać tylko przez interfejs Gemini API lub aplikację internetową Google AI Studio. Korzystanie z interfejsu Gemini API podlega też Zasadom dotyczącym niedozwolonych zastosowań generatywnej AI oraz Warunkom korzystania z interfejsu API Gemini.
Warianty modelu
Interfejs Gemini API udostępnia różne modele zoptymalizowane pod kątem konkretnych przypadków użycia. Oto krótki przegląd dostępnych wersji Gemini:
Wariant modelu | Dane wejściowe | Wyniki | Zoptymalizowany dla |
---|---|---|---|
Gemini 1.5 Pro (wersja przedpremierowa) | Dźwięk, obrazy i tekst | Tekst | Zadania z rozumowaniem, w tym między innymi generowanie kodu i tekstu, edytowanie tekstu, rozwiązywanie problemów, wyodrębnianie i generowanie danych |
Gemini 1.5 Flash (wersja przedpremierowa) | Dźwięk, obrazy i tekst | Tekst | Szybkie i wszechstronne działanie w różnych zadaniach |
Gemini 1.0 Pro | Tekst | Tekst | Zadania w języku naturalnym, wieloetapowy czat tekstowy i kodowy oraz generowanie kodu |
Gemini 1.0 Pro Vision | obrazy i tekst, | Tekst | Wydajność zoptymalizowana pod kątem zadań wizualnych, takich jak generowanie opisów obrazów czy identyfikacja obiektów na obrazach |
Umieszczanie tekstu | Tekst | Wektory dystrybucyjne tekstu | Generuj elastyczne reprezentacje tekstu z 768 wymiarami dla tekstu do 2048 tokenów |
Umieszczanie | Tekst | Wektory dystrybucyjne tekstu | Generuj wektory dystrybucyjne tekstu z 768 wymiarami dla tekstu do 2048 tokenów |
AQA | Tekst | Tekst | Wykonywanie zadań związanych z przypisaniem odpowiedzi na pytania przy użyciu podanego tekstu |
W tabeli poniżej opisujemy atrybuty modeli Gemini, które są wspólne dla wszystkich wariantów:
Atrybut | Opis |
---|---|
Dane treningowe | Termin zbierania wiedzy dla Gemini to początek 2023 roku. Informacje o wydarzeniach po tym czasie są ograniczone. |
Obsługiwane języki | Zobacz dostępne języki |
Konfigurowalne parametry modelu |
|
Więcej informacji o każdym z tych parametrów znajdziesz w sekcji z parametrami modelu w przewodniku po modelach generatywnych.
Gemini 1.5 Pro (wersja przedpremierowa)
Gemini 1.5 Pro to multimodalny model średniej wielkości zoptymalizowany pod kątem wielu zadań związanych z rozumowaniem, takich jak:
- Generowanie kodu
- Generowanie tekstu
- Edytowanie tekstu
- Rozwiązywanie problemów
- Generowanie rekomendacji
- Wyodrębnianie informacji
- Wyodrębnianie lub generowanie danych
- Tworzenie agentów AI
1.5 Pro może przetwarzać duże ilości danych jednocześnie, w tym 1 godzinę filmu, 9,5 godziny dźwięku, bazy kodu z ponad 30 tys. wierszy kodu lub ponad 700 tys. słów.
1.5 Pro poradzi sobie z zadaniami edukacyjnymi typu „zero-shot”, „one-one” i „few-shot”.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-1.5-pro-latest |
Dane wejściowe | Dźwięk, obrazy i tekst |
Wyniki | Tekst |
Obsługiwane metody generowania |
generateContent
|
Wpisz limit tokenów[**] | 1 048 576 |
Limit tokenów wyjściowych[**] | 8192 |
Maksymalna liczba obrazów w prompcie | 3,600 |
Maksymalna długość filmu | 1 godzina |
Maksymalna długość ścieżki dźwiękowej | Około 9,5 godziny |
Maksymalna liczba plików audio na prompt | 1 |
Bezpieczeństwo modelu | Automatycznie stosowane ustawienia zabezpieczeń, które deweloperzy mogą zmienić. Więcej informacji znajdziesz na stronie ustawień bezpieczeństwa. |
Ograniczenia liczby żądań[*] |
|
Instrukcje systemowe | Obsługiwane |
Tryb JSON | Obsługiwane |
Najnowsza wersja | gemini-1.5-pro-latest |
Najnowsza stabilna wersja | gemini-1.5-pro |
Ostatnia modyfikacja | Kwiecień 2024 r. |
Gemini 1.5 Flash (wersja przedpremierowa)
Gemini 1.5 Flash to szybki i uniwersalny multimodalny model do skalowania w różnorodnych zadaniach.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | gemini-1.5-flash |
Dane wejściowe | Dźwięk, obrazy i tekst |
Wyniki | Tekst |
Obsługiwane metody generowania |
generateContent
|
Wpisz limit tokenów[**] | 1 048 576 |
Limit tokenów wyjściowych[**] | 8192 |
Maksymalna liczba obrazów w prompcie | 3,600 |
Maksymalna długość filmu | 1 godzina |
Maksymalna długość ścieżki dźwiękowej | Około 9,5 godziny |
Maksymalna liczba plików audio na prompt | 1 |
Bezpieczeństwo modelu | Automatycznie stosowane ustawienia zabezpieczeń, które deweloperzy mogą zmienić. Więcej informacji znajdziesz na stronie ustawień bezpieczeństwa. |
Ograniczenia liczby żądań[*] |
|
Instrukcje systemowe | Obsługiwane |
Tryb JSON | Obsługiwane |
Najnowsza wersja | gemini-1.5-flash-latest |
Najnowsza stabilna wersja | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro to model NLP, który obsługuje takie zadania jak wieloetapowy czat tekstowy i kod oraz generowanie kodu.
1.0 Pro pozwala na wykonywanie zadań szkoleniowych typu „zero-shot”, „one-one” i „few-shot”.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-pro |
Dane wejściowe | Tekst |
Wyniki | Tekst |
Obsługiwane metody generowania |
generate_content
generateContent
|
Ograniczenia liczby żądań[*] |
|
Instrukcje systemowe | Nieobsługiwany |
Tryb JSON | Nieobsługiwany |
Najnowsza wersja | gemini-1.0-pro-latest |
Najnowsza stabilna wersja | gemini-1.0-pro |
Wersje stabilne | gemini-1.0-pro-001 |
Ostatnia modyfikacja | Luty 2024 r. |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision to multimodalny model zoptymalizowany pod kątem wydajności, który może wykonywać zadania wizualne. Na przykład wersja 1.0 Pro Vision może generować opisy obrazów, identyfikować obiekty znajdujące się na obrazach, udostępniać informacje o miejscach lub obiektach widocznych na obrazach i wykonywać inne działania.
1.0 Pro Vision może obsługiwać zadania typu „zero-shot”, „jeden” lub „few-shot”.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/gemini-pro-vision |
Dane wejściowe | Tekst i obrazy |
Wyniki | Tekst |
Obsługiwane metody generowania |
generate_content
generateContent
|
Wpisz limit tokenów[*] | 12 288 |
Limit tokenów wyjściowych[*] | 4096 |
Maksymalny rozmiar obrazu | Brak limitu |
Maksymalna liczba obrazów w prompcie | 16 |
Maksymalna długość filmu | 2 minuty |
Maksymalna liczba filmów w prompcie | 1 |
Bezpieczeństwo modelu | Automatycznie stosowane ustawienia zabezpieczeń, które deweloperzy mogą zmienić. Więcej informacji znajdziesz na stronie ustawień bezpieczeństwa. |
Ograniczenie liczby żądań[*] | 60 żądań na minutę |
Najnowsza wersja | gemini-1.0-pro-vision-latest |
Najnowsza stabilna wersja | gemini-1.0-pro-vision |
Ostatnia modyfikacja | Grudzień 2023 r. |
Umieszczanie i umieszczanie tekstu
Umieszczanie tekstu
Za pomocą modelu umieszczania tekstu możesz generować wektory dystrybucyjne tekstu dla tekstu wejściowego. Więcej informacji o modelu umieszczania tekstu znajdziesz w dokumentacji generatywnej AI w Vertex AI dotyczącej umieszczania tekstu.
Model umieszczania tekstu jest zoptymalizowany pod kątem tworzenia reprezentacji właściwościowych o 768 wymiarach dla tekstu zawierającego maksymalnie 2048 tokenów. Umieszczanie tekstu oferuje elastyczne rozmiary mniejsze niż 768. Stosowanie elastycznych reprezentacji właściwościowych pozwala generować mniejsze wymiary wyjściowe i potencjalnie obniżyć koszty przetwarzania oraz przechowywania danych przy niewielkim spadku wydajności.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu |
models/text-embedding-004 (text-embedding-preview-0409 w Vertex AI)
|
Dane wejściowe | Tekst |
Wyniki | Wektory dystrybucyjne tekstu |
Limit tokenów wejściowych | 2048 |
Rozmiar wymiaru wyjściowego | 768 |
Obsługiwane metody generowania |
embed_content
embedContent
|
Bezpieczeństwo modelu | Brak możliwości dostosowania ustawień bezpieczeństwa. |
Ograniczenie liczby żądań[*] | 1500 żądań na minutę |
Ostatnia modyfikacja | Kwiecień 2024 r. |
Umieszczanie
Za pomocą modelu umieszczania możesz wygenerować wektory dystrybucyjne tekstu dla tekstu wejściowego.
Model umieszczania jest zoptymalizowany pod kątem tworzenia reprezentacji właściwościowych o 768 wymiarach dla tekstu zawierającego maksymalnie 2048 tokenów.
Umieszczanie szczegółów modelu
Właściwość | Opis |
---|---|
Kod modelu | models/embedding-001 |
Dane wejściowe | Tekst |
Wyniki | Wektory dystrybucyjne tekstu |
Limit tokenów wejściowych | 2048 |
Rozmiar wymiaru wyjściowego | 768 |
Obsługiwane metody generowania |
embed_content
embedContent
|
Bezpieczeństwo modelu | Brak możliwości dostosowania ustawień bezpieczeństwa. |
Ograniczenie liczby żądań[*] | 1500 żądań na minutę |
Ostatnia modyfikacja | Grudzień 2023 r. |
reakcja akustyczna
Modelu AQA możesz używać do wykonywania zadań związanych z przypisanym pytaniem (AQA) na dokumencie, korpusie lub zbiorze fragmentów. Model AQA zwraca odpowiedzi na pytania oparte na podanych źródłach, a także szacuje prawdopodobieństwo, na które można odpowiedzieć.
Szczegóły modelu
Właściwość | Opis |
---|---|
Kod modelu | models/aqa |
Dane wejściowe | Tekst |
Wyniki | Tekst |
Obsługiwane metody generowania |
GenerateAnswerRequest
generateAnswer
|
Obsługiwane języki | angielski |
Wpisz limit tokenów[**] | 7168 |
Limit tokenów wyjściowych[**] | 1024 |
Bezpieczeństwo modelu | Automatycznie stosowane ustawienia zabezpieczeń, które deweloperzy mogą zmienić. Więcej informacji znajdziesz na stronie ustawień bezpieczeństwa. |
Ograniczenie liczby żądań[*] | 60 żądań na minutę |
Ostatnia modyfikacja | Grudzień 2023 r. |
Możliwości tych wariantów modelu znajdziesz w przykładach.
[*] W przypadku modeli Gemini token jest odpowiednikiem około 4 znaków. 100 tokenów składa się z 60–80 angielskich słów.
[**] RPM: żądania na minutę
TPM: liczba tokenów na minutę
RPD: żądania dziennie
TPD: liczba tokenów dziennie
Ze względu na ograniczenia pojemności określone limity maksymalnej liczby żądań nie są gwarantowane.
Wzorce nazw wersji modelu
Modele Gemini są dostępne w wersjach podglądowych i stabilnych. Aby określić, którego modelu i wersji chcesz używać w kodzie, możesz użyć jednego z poniższych formatów nazwy modelu.
Najnowsze: wskazuje najnowocześniejszą wersję modelu na potrzeby określonej generacji i określonej odmiany. Model bazowy jest regularnie aktualizowany i może być wersją testową. Tego aliasu należy używać tylko w aplikacjach i prototypach do celów testowych.
Aby określić najnowszą wersję, użyj tego wzorca:
<model>-<generation>-<variation>-latest
. Przykład:gemini-1.0-pro-latest
.Najnowsza stabilna: wskazuje najnowszą wersję stabilną opublikowaną na potrzeby określonej generacji modelu i jej odmiany.
Aby określić najnowszą stabilną wersję, użyj tego wzorca:
<model>-<generation>-<variation>
. Na przykład:gemini-1.0-pro
.Stabilna: wskazuje konkretny model stabilny. Modele stabilne nie zmieniają się. Większość aplikacji produkcyjnych powinna używać określonego stabilnego modelu.
Aby określić stabilną wersję, użyj tego wzorca:
<model>-<generation>-<variation>-<version>
. Przykład:gemini-1.0-pro-001
.