Interfejs Interactions API jest już ogólnie dostępny. Zalecamy korzystanie z tego interfejsu API, aby mieć dostęp do wszystkich najnowszych funkcji i modeli.

Google używa technologii AI do tłumaczenia treści na Twój preferowany język. Tłumaczenia wygenerowane przez AI mogą zawierać błędy.

Modele

W tym przewodniku znajdziesz informacje o wszystkich modelach dostępnych w interfejsie Gemini API.

Gemini 3

Stabilny

Gemini 3.5 Flash

Najbardziej inteligentny model, który zapewnia stałą, przełomową wydajność w przypadku zadań związanych z agentami i kodowaniem.

Stabilny

Gemini 3.1 Flash-Lite

Wydajność klasy Frontier porównywalna z większymi modelami przy ułamku kosztów.

Stabilny

Nano Banana 2

Wydajne generowanie i edytowanie obrazów o wysokiej jakości, zoptymalizowane pod kątem szybkości i dużej liczby przypadków użycia.

Stabilny

Nano Banana 2 Lite

Bardzo małe opóźnienie oraz ekonomiczne generowanie i edytowanie obrazów, zaprojektowane z myślą o interaktywnych przypadkach użycia wymagających dużych nakładów pracy.

Stabilny

Nano Banana Pro

Najnowocześniejsze modele do generowania i edytowania obrazów, które umożliwiają tworzenie wysoce kontekstowych obrazów natywnych.

Stabilny

Podgląd

Gemini 3.1 Pro

Zaawansowana inteligencja, umiejętności rozwiązywania złożonych problemów oraz zaawansowane możliwości kodowania agentów i vibe coding.

Podgląd

Gemini 3 Flash

Wydajność klasy Frontier porównywalna z większymi modelami przy ułamku kosztów.

Podgląd

Gemini 3.5 Live Translate

Model tłumaczenia mowy na mowę w czasie rzeczywistym o niskim opóźnieniu, który obsługuje ponad 70 języków.

Nowość Podgląd

Gemini 3.1 Flash Live

Wysokiej jakości model Live API o krótkim czasie oczekiwania do aplikacji AI opartych na głosie i dialogach w czasie rzeczywistym.

Nowość Podgląd

Gemini 3.1 Flash TTS

Zaawansowane generowanie mowy z niskim czasem oczekiwania.

Nowość Podgląd

Gemini Omni Flash

Szybkie, konwersacyjne generowanie i edytowanie filmów. Przekształcaj tekst i obrazy w filmy oraz dopracowuj wyniki za pomocą języka naturalnego.

Nowość Podgląd

Gemini 2.5 Flash

Nasz model o najlepszym stosunku ceny do wydajności w przypadku zadań wymagających krótkiego czasu oczekiwania i dużych nakładów pracy, które wymagają rozumowania.

Nano Banana

Najnowocześniejszy model do generowania i edytowania obrazów, zaprojektowany z myślą o szybkiej pracy twórczej.

Gemini 2.5 Flash Live (wersja testowa)

Zoptymalizowany pod kątem agentów konwersacyjnych działających w czasie rzeczywistym, którzy przesyłają strumieniowo dźwięk w czasie poniżej sekundy.

Gemini 2.5 Flash TTS (wersja testowa)

Kontrolowane generowanie dźwięku z zamiany tekstu na mowę z precyzyjną kontrolą stylu i tempa.

Gemini 2.5 Flash-Lite

Najszybszy i najbardziej przystępny cenowo model multimodalny z rodziny 2.5.

Gemini 2.5 Pro

Nasz najbardziej zaawansowany model do złożonych zadań, który ma zaawansowane możliwości rozumowania i kodowania.

Gemini 2.5 Pro TTS wersja testowa

Synteza mowy o wysokiej wierności zoptymalizowana pod kątem jakości w przypadku uporządkowanych przepływów pracy, takich jak podcasty i audiobooki.

Modele audio

Ta sekcja zawiera wszystkie modele audio, w tym te, które mogą być już wymienione w innych sekcjach.

Gemini 3.1 Flash Live (wersja testowa)

Nasz wysokiej jakości model audio-to-audio (A2A) o niskim czasie oczekiwania, zaprojektowany z myślą o dialogach w czasie rzeczywistym i aplikacjach AI opartych na głosie.

Gemini 3.1 Flash TTS (wersja testowa)

Zaawansowane generowanie mowy o niskim poziomie opóźnień, z naturalnymi wynikami, sterowanymi promptami i nowymi tagami audio, które umożliwiają precyzyjną kontrolę nad narracją.

Gemini 2.5 Flash Live (wersja testowa)

Nasz flagowy model Live API do dwukierunkowych agentów głosowych i wideo o krótkim czasie oczekiwania z natywnym rozumowaniem dźwięku.

Gemini 2.5 Flash TTS (wersja testowa)

Szybka i łatwa w obsłudze zamiana tekstu na mowę w przypadku aplikacji o krótkim czasie oczekiwania i niskich kosztach oraz asystentów działających w czasie rzeczywistym.

Gemini 2.5 Pro TTS wersja testowa

Synteza mowy o wysokiej wierności zoptymalizowana pod kątem jakości w przypadku uporządkowanych przepływów pracy, takich jak podcasty i audiobooki.

Generatywne modele multimedialne

Ta sekcja zawiera wszystkie modele generatywnych mediów, w tym te, które mogą być już wymienione w innych sekcjach.

Nano Banana 2

Wysokowydajne tworzenie wizualne na skalę produkcyjną, łączące inteligencję serii Gemini 3 z błyskawiczną szybkością generowania.

Nano Banana 2 Lite

Zaprojektowany jako specjalista od wydajności w rodzinie modeli do generowania obrazów, oferujący bardzo małe opóźnienie oraz opłacalne generowanie i edytowanie obrazów.

Veo 3.1 Podgląd

Najnowocześniejsza technologia generowania filmów o jakości kinowej z zaawansowanymi opcjami kreatywnymi i natywnie zsynchronizowanym dźwiękiem.

Nano Banana Pro

Profesjonalny silnik projektowania z rdzeniem rozumowania, który umożliwia tworzenie wizualizacji w jakości 4K, złożonych układów i precyzyjnego renderowania tekstu.

Veo 3.1 Lite – wersja testowa

Wysoka wydajność, niskie koszty, generowanie i edytowanie filmów oraz sterowanie kinowe z myślą o programistach – wszystko to w ramach rodziny Veo 3.1.

Gemini Omni Flash (wersja zapoznawcza)

Szybkie, konwersacyjne generowanie i edytowanie filmów. Przekształcaj tekst i obrazy w filmy oraz dopracowuj wyniki za pomocą języka naturalnego.

Nano Banana

Najnowocześniejszy model do generowania i edytowania obrazów, zaprojektowany z myślą o szybkiej pracy twórczej.

Imagen 4 Wycofany

Model do zamiany tekstu na obraz, który umożliwia szybkie i ultraszybkie generowanie obrazów o wyjątkowej wyrazistości w rozdzielczości do 2K.

Modele generowania muzyki

Ta sekcja zawiera wszystkie modele generowania muzyki, w tym te, które mogą być już wymienione w innych sekcjach.

Lyria 3 Pro – wersja przedpremierowa

Nasz flagowy model generowania muzyki zoptymalizowany pod kątem pełnych utworów o złożonej spójności strukturalnej.

Lyria 3 Clip Podgląd

Zoptymalizowany pod kątem generowania krótkich klipów muzycznych, pętli i podglądów o długości do 30 sekund.

Lyria RealTime (eksperymentalna)

Model do generowania muzyki w wysokiej jakości, który zapewnia szczegółową kontrolę kreatywną i możliwość przesyłania strumieniowego w czasie rzeczywistym.

Modele narzędzi i agentów

Korzystanie z komputera (wersja przedpremierowa)

Specjalistyczny model, który „widzi” ekran cyfrowy i wykonuje działania w interfejsie, takie jak klikanie, pisanie i nawigowanie, aby zautomatyzować złożone zadania w przeglądarce.

Gemini Deep Research (wersja zapoznawcza)

Model agentowy, który autonomicznie planuje i przeprowadza wieloetapowe poszukiwania w setkach źródeł, aby tworzyć interaktywne raporty z cytatami.

Gemini Deep Research Max (wersja podglądowa)

Maksymalna kompleksowość automatycznego zbierania i syntezy kontekstu z setek źródeł.

Agent Antigravity (wersja zapoznawcza)

Zarządzany agent do zwykłych obciążeń, który autonomicznie planuje, rozumuje, uruchamia kod, zarządza plikami i przegląda internet w bezpiecznej, odizolowanej piaskownicy Linux.

Modele do zadań specjalistycznych

Nasz pierwszy multimodalny model wektorów dystrybucyjnych, który mapuje tekst, obrazy, filmy, dźwięk i pliki PDF w ujednoliconej przestrzeni wektorów dystrybucyjnych na potrzeby zaawansowanego wyszukiwania semantycznego i systemów RAG.

Umieszczanie Gemini

Wielowymiarowe reprezentacje wektorowe do zaawansowanego wyszukiwania semantycznego, klasyfikacji tekstu i systemów RAG.

Gemini Robotics-ER 1.6wersja testowa

Zaawansowany model rozumowania przestrzennego, który rozumie przestrzenie fizyczne i planuje wieloetapowe zadania dla agentów robotycznych, z nowymi funkcjami, takimi jak odczytywanie przyrządów, ulepszone rozumowanie przestrzenne i fizyczne.

Poprzednie modele

Gemini 2.0 Flash wyłączone

Nasz model roboczy drugiej generacji z funkcjami nowej generacji i ulepszonymi możliwościami, w tym większą szybkością, natywnym korzystaniem z narzędzi i oknem kontekstu z milionem tokenów.

Gemini 2.0 Flash-Lite wyłączony

Nasz najszybszy model drugiej generacji zoptymalizowany pod kątem niskich kosztów i krótkiego czasu oczekiwania.

Gemini 3.1 Flash-Lite (wersja testowa) Wyłącz

Nasz najbardziej opłacalny model multimodalny, który zapewnia najszybsze działanie w przypadku częstych, nietrudnych zadań.

Gemini 3 Pro (wersja testowa) Wyłącz

Nasz najnowocześniejszy model rozumowania z zaawansowanym rozpoznawaniem multimodalnym.

Wzorce nazw wersji modelu

Modele Gemini są dostępne w wersjach stabilnej, testowej, najnowszej lub eksperymentalnej.

Stabilny

Wskazuje konkretny stabilny model. Modele stabilne zwykle się nie zmieniają. Większość aplikacji produkcyjnych powinna korzystać z określonego stabilnego modelu.

Przykład: gemini-3.5-flash.

Podgląd

Wskazuje model w wersji testowej, który może być używany w środowisku produkcyjnym. Modele w wersji testowej będą zwykle miały włączone rozliczenia, mogą mieć bardziej restrykcyjne limity stawek i zostaną wycofane z co najmniej 2-tygodniowym wyprzedzeniem.

Przykład: gemini-2.5-flash-preview-09-2025.

Najnowsze

Wskazuje najnowszą wersję konkretnego wariantu modelu. Może to być wersja stabilna, podglądowa lub eksperymentalna. Ten alias będzie wymieniany na gorąco z każdą nową wersją konkretnego wariantu modelu. W przypadku zmian powodujących niezgodność wsteczną wyślemy e-maila z 2-tygodniowym wyprzedzeniem przed zmianą wersji, która jest starsza od najnowszej.

Przykład: gemini-flash-latest.

Eksperymentalna

Wskazuje model eksperymentalny, który zwykle nie nadaje się do użytku produkcyjnego i ma bardziej restrykcyjne limity szybkości. Wypuszczamy modele eksperymentalne, aby zbierać opinie i szybko udostępniać deweloperom najnowsze aktualizacje.

Modele eksperymentalne nie są stabilne, a dostępność punktów końcowych modeli może się zmienić.

Wycofane modele

Informacje o wycofywaniu modeli znajdziesz na stronie Wycofywanie Gemini.