Gemini

Gemini to rodzina modeli generatywnej AI, która umożliwia deweloperom generowanie treści i rozwiązywanie problemów. Modele te są projektowane i trenowane pod kątem obsługi tekstu i obrazów jako danych wejściowych. W tym przewodniku znajdziesz informacje o każdej wersji modelu, co pomoże Ci wybrać, który najlepiej pasuje do Twojego przypadku użycia.

Bezpieczeństwo i przeznaczenie

Modele generatywnej sztucznej inteligencji to zaawansowane narzędzia, ale nie są bez ograniczeń. Ich uniwersalność i stosowanie może czasem prowadzić do nieoczekiwanych rezultatów, na przykład niedokładnych, stronniczych lub obraźliwych. Przetwarzanie końcowe i rygorystyczna ocena ręczna mają kluczowe znaczenie w ograniczaniu ryzyka pogorszenia wyników takich produktów. Dodatkowe sugestie dotyczące bezpiecznego korzystania znajdziesz w wskazówkach dotyczących bezpieczeństwa.

Modele udostępniane przez interfejs Gemini API mogą być używane w wielu różnych aplikacjach generatywnej AI i przetwarzania języka naturalnego (NLP). Z tych funkcji można korzystać tylko przez interfejs Gemini API lub aplikację internetową Google AI Studio. Korzystanie z interfejsu Gemini API podlega też Zasadom dotyczącym niedozwolonych zastosowań generatywnej AI oraz Warunkom korzystania z interfejsu API Gemini.

Warianty modelu

Interfejs Gemini API udostępnia różne modele zoptymalizowane pod kątem konkretnych przypadków użycia. Oto krótki przegląd dostępnych wersji Gemini:

Wariant modelu Dane wejściowe Wyniki Zoptymalizowany dla
Gemini 1.5 Pro (wersja przedpremierowa) Dźwięk, obrazy i tekst Tekst Zadania z rozumowaniem, w tym między innymi generowanie kodu i tekstu, edytowanie tekstu, rozwiązywanie problemów, wyodrębnianie i generowanie danych
Gemini 1.5 Flash (wersja przedpremierowa) Dźwięk, obrazy i tekst Tekst Szybkie i wszechstronne działanie w różnych zadaniach
Gemini 1.0 Pro Tekst Tekst Zadania w języku naturalnym, wieloetapowy czat tekstowy i kodowy oraz generowanie kodu
Gemini 1.0 Pro Vision obrazy i tekst, Tekst Wydajność zoptymalizowana pod kątem zadań wizualnych, takich jak generowanie opisów obrazów czy identyfikacja obiektów na obrazach
Umieszczanie tekstu Tekst Wektory dystrybucyjne tekstu Generuj elastyczne reprezentacje tekstu z 768 wymiarami dla tekstu do 2048 tokenów
Umieszczanie Tekst Wektory dystrybucyjne tekstu Generuj wektory dystrybucyjne tekstu z 768 wymiarami dla tekstu do 2048 tokenów
AQA Tekst Tekst Wykonywanie zadań związanych z przypisaniem odpowiedzi na pytania przy użyciu podanego tekstu

W tabeli poniżej opisujemy atrybuty modeli Gemini, które są wspólne dla wszystkich wariantów:

Atrybut Opis
Dane treningowe Termin zbierania wiedzy dla Gemini to początek 2023 roku. Informacje o wydarzeniach po tym czasie są ograniczone.
Obsługiwane języki Zobacz dostępne języki
Konfigurowalne parametry modelu
  • Górne P
  • Górne K
  • Temperatura
  • Zatrzymaj sekwencję
  • Maksymalna długość wyjściowa
  • Liczba propozycji odpowiedzi

Więcej informacji o każdym z tych parametrów znajdziesz w sekcji z parametrami modelu w przewodniku po modelach generatywnych.

Gemini 1.5 Pro (wersja przedpremierowa)

Gemini 1.5 Pro to multimodalny model średniej wielkości zoptymalizowany pod kątem wielu zadań związanych z rozumowaniem, takich jak:

  • Generowanie kodu
  • Generowanie tekstu
  • Edytowanie tekstu
  • Rozwiązywanie problemów
  • Generowanie rekomendacji
  • Wyodrębnianie informacji
  • Wyodrębnianie lub generowanie danych
  • Tworzenie agentów AI

1.5 Pro może przetwarzać duże ilości danych jednocześnie, w tym 1 godzinę filmu, 9,5 godziny dźwięku, bazy kodu z ponad 30 tys. wierszy kodu lub ponad 700 tys. słów.

1.5 Pro poradzi sobie z zadaniami edukacyjnymi typu „zero-shot”, „one-one” i „few-shot”.

Szczegóły modelu

Właściwość Opis
Kod modelu models/gemini-1.5-pro-latest
Dane wejściowe Dźwięk, obrazy i tekst
Wyniki Tekst
Obsługiwane metody generowania generateContent
Wpisz limit tokenów[**] 1 048 576
Limit tokenów wyjściowych[**] 8192
Maksymalna liczba obrazów w prompcie 3,600
Maksymalna długość filmu 1 godzina
Maksymalna długość ścieżki dźwiękowej Około 9,5 godziny
Maksymalna liczba plików audio na prompt 1
Bezpieczeństwo modelu Automatycznie stosowane ustawienia zabezpieczeń, które deweloperzy mogą zmienić. Więcej informacji znajdziesz na stronie ustawień bezpieczeństwa.
Ograniczenia liczby żądań[*]
Bezpłatne:
  • 2 obr./min
  • 32 000 TPM
  • 50 RPD
  • 46 080 000 TPD
Pay-as-you-go:
  • 360 obr./min
  • 10 milionów TPM
  • 10 000 RPD
  • 14 400 000 000 TPD
2 miliony kontekstu:
  • 1 obr./min
  • 2 miliony TPM
  • 50 RPD
Instrukcje systemowe Obsługiwane
Tryb JSON Obsługiwane
Najnowsza wersja gemini-1.5-pro-latest
Najnowsza stabilna wersja gemini-1.5-pro
Ostatnia modyfikacja Kwiecień 2024 r.

Gemini 1.5 Flash (wersja przedpremierowa)

Gemini 1.5 Flash to szybki i uniwersalny multimodalny model do skalowania w różnorodnych zadaniach.

Szczegóły modelu

Właściwość Opis
Kod modelu gemini-1.5-flash
Dane wejściowe Dźwięk, obrazy i tekst
Wyniki Tekst
Obsługiwane metody generowania generateContent
Wpisz limit tokenów[**] 1 048 576
Limit tokenów wyjściowych[**] 8192
Maksymalna liczba obrazów w prompcie 3,600
Maksymalna długość filmu 1 godzina
Maksymalna długość ścieżki dźwiękowej Około 9,5 godziny
Maksymalna liczba plików audio na prompt 1
Bezpieczeństwo modelu Automatycznie stosowane ustawienia zabezpieczeń, które deweloperzy mogą zmienić. Więcej informacji znajdziesz na stronie ustawień bezpieczeństwa.
Ograniczenia liczby żądań[*]
Bezpłatne:
  • 15 obr./min
  • 1 milion TPM
  • 1500 RPD
Pay-as-you-go:
  • 360 obr./min
  • 10 milionów TPM
  • 10 000 RPD
Instrukcje systemowe Obsługiwane
Tryb JSON Obsługiwane
Najnowsza wersja gemini-1.5-flash-latest
Najnowsza stabilna wersja gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro to model NLP, który obsługuje takie zadania jak wieloetapowy czat tekstowy i kod oraz generowanie kodu.

1.0 Pro pozwala na wykonywanie zadań szkoleniowych typu „zero-shot”, „one-one” i „few-shot”.

Szczegóły modelu

Właściwość Opis
Kod modelu models/gemini-pro
Dane wejściowe Tekst
Wyniki Tekst
Obsługiwane metody generowania
Python: generate_content
REST: generateContent
Ograniczenia liczby żądań[*]
Bezpłatne:
  • 15 obr./min
  • 32 000 TPM
  • 1500 RPD
  • 46 080 000 TPD
Pay-as-you-go:
  • 360 obr./min
  • 120 000 TPM
  • 30 000 RPD
  • 172 800 000 TPD
Instrukcje systemowe Nieobsługiwany
Tryb JSON Nieobsługiwany
Najnowsza wersja gemini-1.0-pro-latest
Najnowsza stabilna wersja gemini-1.0-pro
Wersje stabilne gemini-1.0-pro-001
Ostatnia modyfikacja Luty 2024 r.

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision to multimodalny model zoptymalizowany pod kątem wydajności, który może wykonywać zadania wizualne. Na przykład wersja 1.0 Pro Vision może generować opisy obrazów, identyfikować obiekty znajdujące się na obrazach, udostępniać informacje o miejscach lub obiektach widocznych na obrazach i wykonywać inne działania.

1.0 Pro Vision może obsługiwać zadania typu „zero-shot”, „jeden” lub „few-shot”.

Szczegóły modelu

Właściwość Opis
Kod modelu models/gemini-pro-vision
Dane wejściowe Tekst i obrazy
Wyniki Tekst
Obsługiwane metody generowania
Python: generate_content
REST: generateContent
Wpisz limit tokenów[*] 12 288
Limit tokenów wyjściowych[*] 4096
Maksymalny rozmiar obrazu Brak limitu
Maksymalna liczba obrazów w prompcie 16
Maksymalna długość filmu 2 minuty
Maksymalna liczba filmów w prompcie 1
Bezpieczeństwo modelu Automatycznie stosowane ustawienia zabezpieczeń, które deweloperzy mogą zmienić. Więcej informacji znajdziesz na stronie ustawień bezpieczeństwa.
Ograniczenie liczby żądań[*] 60 żądań na minutę
Najnowsza wersja gemini-1.0-pro-vision-latest
Najnowsza stabilna wersja gemini-1.0-pro-vision
Ostatnia modyfikacja Grudzień 2023 r.

Umieszczanie i umieszczanie tekstu

Umieszczanie tekstu

Za pomocą modelu umieszczania tekstu możesz generować wektory dystrybucyjne tekstu dla tekstu wejściowego. Więcej informacji o modelu umieszczania tekstu znajdziesz w dokumentacji generatywnej AI w Vertex AI dotyczącej umieszczania tekstu.

Model umieszczania tekstu jest zoptymalizowany pod kątem tworzenia reprezentacji właściwościowych o 768 wymiarach dla tekstu zawierającego maksymalnie 2048 tokenów. Umieszczanie tekstu oferuje elastyczne rozmiary mniejsze niż 768. Stosowanie elastycznych reprezentacji właściwościowych pozwala generować mniejsze wymiary wyjściowe i potencjalnie obniżyć koszty przetwarzania oraz przechowywania danych przy niewielkim spadku wydajności.

Szczegóły modelu
Właściwość Opis
Kod modelu models/text-embedding-004 (text-embedding-preview-0409 w Vertex AI)
Dane wejściowe Tekst
Wyniki Wektory dystrybucyjne tekstu
Limit tokenów wejściowych 2048
Rozmiar wymiaru wyjściowego 768
Obsługiwane metody generowania
Python: embed_content
REST: embedContent
Bezpieczeństwo modelu Brak możliwości dostosowania ustawień bezpieczeństwa.
Ograniczenie liczby żądań[*] 1500 żądań na minutę
Ostatnia modyfikacja Kwiecień 2024 r.

Umieszczanie

Za pomocą modelu umieszczania możesz wygenerować wektory dystrybucyjne tekstu dla tekstu wejściowego.

Model umieszczania jest zoptymalizowany pod kątem tworzenia reprezentacji właściwościowych o 768 wymiarach dla tekstu zawierającego maksymalnie 2048 tokenów.

Umieszczanie szczegółów modelu
Właściwość Opis
Kod modelu models/embedding-001
Dane wejściowe Tekst
Wyniki Wektory dystrybucyjne tekstu
Limit tokenów wejściowych 2048
Rozmiar wymiaru wyjściowego 768
Obsługiwane metody generowania
Python: embed_content
REST: embedContent
Bezpieczeństwo modelu Brak możliwości dostosowania ustawień bezpieczeństwa.
Ograniczenie liczby żądań[*] 1500 żądań na minutę
Ostatnia modyfikacja Grudzień 2023 r.

reakcja akustyczna

Modelu AQA możesz używać do wykonywania zadań związanych z przypisanym pytaniem (AQA) na dokumencie, korpusie lub zbiorze fragmentów. Model AQA zwraca odpowiedzi na pytania oparte na podanych źródłach, a także szacuje prawdopodobieństwo, na które można odpowiedzieć.

Szczegóły modelu

Właściwość Opis
Kod modelu models/aqa
Dane wejściowe Tekst
Wyniki Tekst
Obsługiwane metody generowania
Python: GenerateAnswerRequest
REST: generateAnswer
Obsługiwane języki angielski
Wpisz limit tokenów[**] 7168
Limit tokenów wyjściowych[**] 1024
Bezpieczeństwo modelu Automatycznie stosowane ustawienia zabezpieczeń, które deweloperzy mogą zmienić. Więcej informacji znajdziesz na stronie ustawień bezpieczeństwa.
Ograniczenie liczby żądań[*] 60 żądań na minutę
Ostatnia modyfikacja Grudzień 2023 r.

Możliwości tych wariantów modelu znajdziesz w przykładach.

[*] W przypadku modeli Gemini token jest odpowiednikiem około 4 znaków. 100 tokenów składa się z 60–80 angielskich słów.

[**] RPM: żądania na minutę
TPM: liczba tokenów na minutę
RPD: żądania dziennie
TPD: liczba tokenów dziennie

Ze względu na ograniczenia pojemności określone limity maksymalnej liczby żądań nie są gwarantowane.

Wzorce nazw wersji modelu

Modele Gemini są dostępne w wersjach podglądowych i stabilnych. Aby określić, którego modelu i wersji chcesz używać w kodzie, możesz użyć jednego z poniższych formatów nazwy modelu.

  • Najnowsze: wskazuje najnowocześniejszą wersję modelu na potrzeby określonej generacji i określonej odmiany. Model bazowy jest regularnie aktualizowany i może być wersją testową. Tego aliasu należy używać tylko w aplikacjach i prototypach do celów testowych.

    Aby określić najnowszą wersję, użyj tego wzorca: <model>-<generation>-<variation>-latest. Przykład: gemini-1.0-pro-latest.

  • Najnowsza stabilna: wskazuje najnowszą wersję stabilną opublikowaną na potrzeby określonej generacji modelu i jej odmiany.

    Aby określić najnowszą stabilną wersję, użyj tego wzorca: <model>-<generation>-<variation>. Na przykład: gemini-1.0-pro.

  • Stabilna: wskazuje konkretny model stabilny. Modele stabilne nie zmieniają się. Większość aplikacji produkcyjnych powinna używać określonego stabilnego modelu.

    Aby określić stabilną wersję, użyj tego wzorca: <model>-<generation>-<variation>-<version>. Przykład: gemini-1.0-pro-001.