Gemini

Gemini to rodzina modeli generatywnej AI, która umożliwia programistom generowanie treści i rozwiązywanie problemów. Modele te są zaprojektowane i trenowane tak, aby obsługiwały zarówno tekst, jak i obrazy. Ten przewodnik zawiera informacje o każdym wariancie modelu, aby pomóc Ci zdecydować, który z nich najlepiej sprawdzi się w Twoim przypadku.

Warianty modelu

Gemini API oferuje różne modele zoptymalizowane pod kątem konkretnych przypadków użycia. Oto krótkie omówienie dostępnych wersji Gemini:

Wariant modelu Dane wejściowe Dane wyjściowe Zoptymalizowany dla
Gemini 1.5 Pro
gemini-1.5-pro
Dźwięk, obrazy, filmy i tekst Tekst Złożone zadania rozumowania, takie jak kod i generowanie tekstu, edycja tekstu, rozwiązywanie problemów, wyodrębnianie i generowanie danych
Gemini 1.5 Flash
gemini-1.5-flash
Dźwięk, obrazy, filmy i tekst Tekst Szybkie i wszechstronne narzędzie do wykonywania różnorodnych zadań
Gemini 1.0 Pro
gemini-1.0-pro
Tekst Tekst Zadania w języku naturalnym, wieloetapowy czat tekstowy i z kodem oraz generowanie kodu
(Wycofano) Gemini 1.0 Pro Vision
gemini-pro-vision
Obrazy, filmy i tekst Tekst Zadania wizualne, np. generowanie opisów obrazów lub identyfikowanie obiektów na obrazach
Umieszczanie tekstu
text-embedding-004
Tekst Wektory dystrybucyjne tekstu Pomiar powiązania ciągów tekstowych

W tej tabeli opisano atrybuty modeli Gemini, które są wspólne dla wszystkich wariantów:

Atrybut Opis
Dane treningowe W przypadku Gemini limit dostępu do wiedzy upływa 2023 r. Wiedza o wydarzeniach po tym czasie jest ograniczona.
Obsługiwane języki Zobacz dostępne języki
Konfigurowalne parametry modelu
  • Górne P
  • Górne k
  • Temperatura
  • Zatrzymaj sekwencję
  • Maksymalna długość danych wyjściowych
  • Liczba kandydatów do odpowiedzi

Więcej informacji o każdym z tych parametrów znajdziesz w sekcji dotyczącej parametrów modelu w przewodniku po modelach generatywnych.

Gemini 1.5 Pro

Gemini 1.5 Pro to średniej wielkości model multimodalny zoptymalizowany do wykonywania wielu zadań rozumowania, takich jak:

  • Generowanie kodu
  • Generowanie tekstu
  • Edytowanie tekstu
  • Rozwiązywanie problemów
  • Generowanie rekomendacji
  • Wyodrębnianie informacji
  • Wyodrębnianie lub generowanie danych
  • Tworzenie agentów AI

1.5 Pro może jednocześnie przetworzyć duże ilości danych, w tym 1 godzinę filmów, 9,5 godziny dźwięku, bazy kodu z ponad 30 tys. wierszy lub ponad 700 tys. słów.

1.5 Pro radzi sobie z zadaniami edukacyjnymi „zero-shot”, „jeden” i „few-shot”.

Szczegóły modelu

Właściwość Opis
Kod modelu models/gemini-1.5-pro-latest
Dane wejściowe Dźwięk, obrazy, filmy i tekst
Dane wyjściowe Tekst
Obsługiwane metody generowania generateContent
Limit tokenów wejściowych [**] 1 048 576
Limit tokenów wyjściowych [**] 8192
Maksymalna liczba obrazów na prompt 3,600
Maksymalna długość filmu 1 godzina
Maksymalna długość ścieżki dźwiękowej Około 9,5 godziny
Maksymalna liczba plików audio na prompt 1
Bezpieczeństwo modelu Automatycznie stosowane ustawienia bezpieczeństwa, które deweloperzy mogą dostosować. Więcej informacji znajdziesz na naszej stronie dotyczącej ustawień bezpieczeństwa.
Limity liczby żądań[*]
Bezpłatnie:
  • 2 obr./min
  • 32 000 TPM
  • 50 RPD
  • 46 080 000 TPD
Pay-as-you-go:
  • 360 obr./min
  • 2 miliony TPM
  • 10 000 RPD
  • 14 400 000 000 TPD
Dwa miliony kontekstu:
  • 1 obr./min
  • 2 miliony TPM
  • 50 RPD
Instrukcje systemowe Obsługiwane
Tryb JSON Obsługiwane
Najnowsza wersja gemini-1.5-pro-latest
Najnowsza stabilna wersja gemini-1.5-pro
Wersje stabilne gemini-1.5-pro-001
Ostatnia modyfikacja Maj 2024 r.

Gemini 1.5 Flash

Gemini 1.5 Flash to szybki i uniwersalny model multimodalny, który umożliwia skalowanie w różnych zadaniach.

Szczegóły modelu

Właściwość Opis
Kod modelu gemini-1.5-flash-latest
Dane wejściowe Dźwięk, obrazy, filmy i tekst
Dane wyjściowe Tekst
Obsługiwane metody generowania generateContent
Limit tokenów wejściowych [**] 1 048 576
Limit tokenów wyjściowych [**] 8192
Maksymalna liczba obrazów na prompt 3,600
Maksymalna długość filmu 1 godzina
Maksymalna długość ścieżki dźwiękowej Około 9,5 godziny
Maksymalna liczba plików audio na prompt 1
Bezpieczeństwo modelu Automatycznie stosowane ustawienia bezpieczeństwa, które deweloperzy mogą dostosować. Więcej informacji znajdziesz na naszej stronie dotyczącej ustawień bezpieczeństwa.
Limity liczby żądań[*]
Bezpłatnie:
  • 15 obr./min
  • 1 milion TPM
  • 1500 RPD
Pay-as-you-go:
  • 1000 obr./min
  • 2 miliony TPM
Instrukcje systemowe Obsługiwane
Tryb JSON Obsługiwane
Dostrajanie modelu Wkrótce
Najnowsza wersja gemini-1.5-flash-latest
Najnowsza stabilna wersja gemini-1.5-flash
Wersje stabilne gemini-1.5-flash-001
Ostatnia modyfikacja Maj 2024 r.

Gemini 1.0 Pro

Gemini 1.0 Pro to model NLP, który obsługuje takie zadania jak wieloetapowy czat tekstowy i z kodem oraz generowanie kodu.

1.0 Pro może radzić sobie z zadaniami edukacyjnymi „zero-shot”, „jedena” i „few-shot”.

Szczegóły modelu

Właściwość Opis
Kod modelu models/gemini-1.0-pro
Dane wejściowe Tekst
Dane wyjściowe Tekst
Obsługiwane metody generowania
Python: generate_content
REST: generateContent
Limity liczby żądań[*]
Bezpłatnie:
  • 15 obr./min
  • 32 000 TPM
  • 1500 RPD
  • 46 080 000 TPD
Pay-as-you-go:
  • 360 obr./min
  • 120 000 TPM
  • 30 000 RPD
  • 172 800 000 TPD
Instrukcje systemowe Nieobsługiwany
Tryb JSON Nieobsługiwany
Dostrajanie modelu Obsługiwane: gemini-1.0-pro-001
Najnowsza wersja gemini-1.0-pro-latest
Najnowsza stabilna wersja gemini-1.0-pro
Wersje stabilne gemini-1.0-pro-001
Ostatnia modyfikacja Luty 2024 r.

(Wycofano) Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision to model multimodalny zoptymalizowany pod kątem wydajności, który może wykonywać zadania wizualne. 1.0 Pro Vision może na przykład generować opisy obrazów, identyfikować obiekty na obrazach, przekazywać informacje o miejscach lub obiektach widocznych na obrazach.

1.0 Pro Vision umożliwia wykonywanie zadań „zero-shot”, „jeden” i „few-shot”.

Szczegóły modelu

Właściwość Opis
Kod modelu models/gemini-pro-vision
Dane wejściowe Tekst, filmy i obrazy
Dane wyjściowe Tekst
Obsługiwane metody generowania
Python: generate_content
REST: generateContent
Limit tokenów wejściowych[*] 12 288
Limit tokenów wyjściowych[*] 4096
Maksymalny rozmiar obrazu Brak limitu
Maksymalna liczba obrazów na prompt 16
Maksymalna długość filmu 2 minuty
Maksymalna liczba filmów na prompt 1
Bezpieczeństwo modelu Automatycznie stosowane ustawienia bezpieczeństwa, które deweloperzy mogą dostosować. Więcej informacji znajdziesz na naszej stronie dotyczącej ustawień bezpieczeństwa.
Limit liczby żądań[*] 60 żądań na minutę
Najnowsza wersja gemini-1.0-pro-vision-latest
Najnowsza stabilna wersja gemini-1.0-pro-vision
Ostatnia modyfikacja Grudzień 2023 r.

Umieszczanie i umieszczanie tekstu

Umieszczanie tekstu

Za pomocą modelu umieszczania tekstu możesz generować wektory dystrybucyjne tekstu dla tekstu wejściowego. Więcej informacji o modelu umieszczania tekstu znajdziesz w dokumentacji generatywnej AI w Vertex AI dotyczącej wektorów dystrybucyjnych tekstu.

Model umieszczania tekstu jest zoptymalizowany pod kątem tworzenia wektorów dystrybucyjnych o wymiarach 768 wymiarów w przypadku tekstu zawierającego maksymalnie 2048 tokenów. Umieszczanie tekstu zapewnia elastyczne rozmiary wektora dystrybucyjnego poniżej 768. Korzystając z elastycznych wektorów dystrybucyjnych, możesz generować mniejsze wymiary wyjściowe, a także potencjalnie zmniejszyć koszty przetwarzania i przechowywania danych przy niewielkiej utracie wydajności.

Szczegóły modelu
Właściwość Opis
Kod modelu models/text-embedding-004 (text-embedding-preview-0409 w Vertex AI)
Dane wejściowe Tekst
Dane wyjściowe Wektory dystrybucyjne tekstu
Limit tokenów wejściowych 2 048
Rozmiar wymiaru wyjściowego 768
Obsługiwane metody generowania
Python: embed_content
REST: embedContent
Bezpieczeństwo modelu Brak ustawień bezpieczeństwa, które można dostosować.
Limit liczby żądań[*] 1500 żądań na minutę
Ostatnia modyfikacja Kwiecień 2024 r.

Wektor dystrybucyjny

Modelu umieszczania możesz używać do generowania wektorów dystrybucyjnych tekstu dla tekstu wejściowego.

Model wektora dystrybucyjnego jest zoptymalizowany pod kątem tworzenia wektorów dystrybucyjnych z 768 wymiarami w przypadku tekstu zawierającego maksymalnie 2048 tokenów.

Szczegóły modelu wektora dystrybucyjnego
Właściwość Opis
Kod modelu models/embedding-001
Dane wejściowe Tekst
Dane wyjściowe Wektory dystrybucyjne tekstu
Limit tokenów wejściowych 2 048
Rozmiar wymiaru wyjściowego 768
Obsługiwane metody generowania
Python: embed_content
REST: embedContent
Bezpieczeństwo modelu Brak ustawień bezpieczeństwa, które można dostosować.
Limit liczby żądań[*] 1500 żądań na minutę
Ostatnia modyfikacja Grudzień 2023 r.

AQA,

Modelu AQA można używać do wykonywania zadań związanych z przypisanymi odpowiedziami na pytania (AQA) na dokumentach, korpusach lub zbiorze fragmentów. Model AQA zwraca odpowiedzi na pytania oparte na podanych źródłach oraz szacuje prawdopodobieństwo możliwych do uzyskania odpowiedzi.

Szczegóły modelu

Właściwość Opis
Kod modelu models/aqa
Dane wejściowe Tekst
Dane wyjściowe Tekst
Obsługiwane metody generowania
Python: GenerateAnswerRequest
REST: generateAnswer
Obsługiwane języki angielski
Limit tokenów wejściowych [**] 7168
Limit tokenów wyjściowych [**] 1024
Bezpieczeństwo modelu Automatycznie stosowane ustawienia bezpieczeństwa, które deweloperzy mogą dostosować. Więcej informacji znajdziesz na naszej stronie dotyczącej ustawień bezpieczeństwa.
Limit liczby żądań[*] 60 żądań na minutę
Ostatnia modyfikacja Grudzień 2023 r.

Zapoznaj się z przykładami, aby poznać możliwości tych odmian modelu.

[*] W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 angielskich słów.

[**] RPM: żądania na minutę
TPM: liczba tokenów na minutę
RPD: żądania dziennie
TPD: liczba tokenów dziennie

Ze względu na ograniczenia pojemności określone limity maksymalnej liczby żądań nie są gwarantowane.

Wzorce nazw wersji modelu

Modele Gemini są dostępne w wersji podglądu i stabilnej. W swoim kodzie możesz użyć jednego z poniższych formatów nazwy modelu, aby określić model i wersję, których chcesz używać.

  • Najnowsza: wskazuje najnowszą wersję modelu dla określonej generacji i wariantu. Model bazowy jest regularnie aktualizowany i może być wersją testową. Tego aliasu powinny używać tylko eksploracyjne aplikacje i prototypy.

    Aby określić najnowszą wersję, użyj tego wzorca: <model>-<generation>-<variation>-latest. Przykład: gemini-1.0-pro-latest.

  • Najnowsza stabilna:wskazuje najnowszą wersję stabilną wydaną na potrzeby określonego generowania i odmiany modelu.

    Aby określić najnowszą wersję stabilną, użyj tego wzorca: <model>-<generation>-<variation>. Na przykład: gemini-1.0-pro.

  • Stabilny: wskazuje konkretny model stabilny. Modele stabilne się nie zmieniają. Większość aplikacji w wersji produkcyjnej powinna używać określonego stabilnego modelu.

    Aby określić wersję stabilną, użyj tego wzorca: <model>-<generation>-<variation>-<version>. Przykład: gemini-1.0-pro-001.

Dostępne języki

Modele Gemini są trenowane do pracy z tymi językami:

  • arabski (ar)
  • bengalski (bn)
  • bułgarski (bg)
  • chiński uproszczony i tradycyjny (zh)
  • chorwacki (hr)
  • czeski (cs)
  • duński (da)
  • niderlandzki (nl)
  • angielski (en),
  • estoński (et)
  • fiński (fi)
  • francuski (fr)
  • niemiecki (de)
  • grecki (el)
  • hebrajski (iw)
  • hindi (hi)
  • węgierski (hu)
  • indonezyjski (id)
  • włoski (it)
  • japoński (ja)
  • koreański (ko)
  • łotewski (lv),
  • litewski (lt)
  • norweski (no)
  • polski (pl)
  • portugalski (pt)
  • rumuński (ro)
  • rosyjski (ru)
  • serbski (sr)
  • słowacki (sk)
  • słoweński (sl)
  • hiszpański (es)
  • suahili (sw)
  • szwedzki (sv)
  • tajski (th)
  • turecki (tr)
  • ukraiński (uk)
  • wietnamski (vi)