PaliGemma
PaliGemma to lekki, otwarty model języka Vision (VLM), który bazuje na PaLI-3 oparte na otwartych komponentach, takich jak SigLIP model wizyjny i język Gemma model. PaliGemma wykorzystuje jako dane wejściowe zarówno obrazy, jak i tekst, i odpowiada na pytania ze szczegółami i kontekstem, co oznacza, że PaliGemma może przeprowadzić dogłębną analizę grafiki i dostarczają przydatnych informacji, takich jak napisy do obrazów i krótkich filmów, wykrywanie obiektów i odczytywanie tekstu osadzonego w obrazach.
Dostępne są 2 zestawy modeli PaliGemmy: do ogólnego przeznaczenia i z zestawem zorientowanym na badania:
- PaliGemma – Wytrenowane modele do zwykłych obciążeń, które można dostrajać do różnych zadań.
- PaliGemma-FT – Modele ukierunkowane na badania, które są dostrojone na określonych zbiorach danych badawczych.
Najważniejsze korzyści:
-
Zrozumienie multimodalne
Jednocześnie rozumie zarówno obrazy, jak i tekst. -
Uniwersalny model podstawowy
Możliwość dostosowania do szerokiej gamy zadań związanych z językiem ducha. -
Standardowa eksploracja
Aplikacja zawiera punkt kontrolny dostosowany do różnych zadań, które można szybko wykorzystać do wyszukiwania informacji.