PaliGemma

Gemma 4 została udostępniona z możliwością wprowadzania tekstu, dźwięku i obrazów oraz długim oknem kontekstu (do 256 tys. tokenów). Więcej informacji

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 i Paligemma to lekkie, otwarte modele wizualno-językowe (VLM) inspirowane modelem PaLI-3 i oparte na otwartych komponentach, takich jak model wizualny SigLIP i model językowy Gemma. PaliGemma przyjmuje jako dane wejściowe zarówno obrazy, jak i tekst, i może odpowiadać na pytania dotyczące obrazów, podając szczegółowe informacje i kontekst. Oznacza to, że PaliGemma może przeprowadzać dogłębną analizę obrazów i dostarczać przydatnych informacji, takich jak podpisy do obrazów i krótkich filmów, wykrywanie obiektów i odczytywanie tekstu umieszczonego na obrazach.

PaliGemma 2 jest dostępna w rozmiarach parametrów 3B, 10B i 28B, które są oparte odpowiednio na modelach Gemma 2 2B, 9B i 27B. Pierwotne modele PaliGemma są dostępne w rozmiarze 3B. Więcej informacji o modelach Gemma znajdziesz na liście modeli Gemma. Różne warianty modelu PaliGemma obsługują różne rozdzielczości pikseli dla danych wejściowych w postaci obrazów, m.in. 224 x 224, 448 x 448 i 896 x 896 pikseli.

Modele PaliGemma możesz wyświetlać i pobierać z tych witryn:

Pobierz z Kaggle.
Pobierz z Hugging Face.

Istnieją 3 kategorie modeli PaliGemma:

PaliGemma PT – uniwersalne wytrenowane modele, które można dostroić do wykonywania różnych zadań.
PaliGemma FT – modele zorientowane na badania, które są dostrojone z użyciem konkretnych zbiorów danych do badań.
PaliGemma mix – modele dostosowane do różnych zadań, które można od razu wykorzystać w typowych przypadkach użycia.

Najważniejsze korzyści:

Możliwości multimodalne

Obsługuje jednocześnie obrazy i tekst.
Uniwersalny model podstawowy

Możliwość dostosowania do szerokiej gamy zadań związanych z językiem ducha.
Standardowa eksploracja

Zawiera punkt kontrolny dostosowany do różnych zadań, które można od razu wykorzystać w badaniu.

PaliGemma

Możliwości multimodalne

Uniwersalny model podstawowy

Standardowa eksploracja

Więcej informacji

Uruchom w Colab

Dostosowywanie w Colab

Zobacz w Kaggle