PaliGemma
PaliGemma to lekki, otwarty model wizyjny (VLM) oparty na PaLI-3 i opartych na otwartych komponentach, takich jak model wizyjny SigLIP i model językowy Gemma. PaliGemma pobiera zarówno obrazy, jak i tekst jako dane wejściowe i może udzielać szczegółowych odpowiedzi na pytania dotyczące obrazów. Dzięki temu PaliGemma może przeprowadzać szczegółową analizę obrazów i dostarczać przydatne statystyki, takie jak napisy do obrazów i krótkich filmów, wykrywanie obiektów i odczytywanie tekstu osadzonego w obrazach.
Istnieją 2 zbiory modeli PaliGemmy: ogólny i związany z badaniami:
- PaliGemma – wstępnie wytrenowane modele ogólnego przeznaczenia, które można dostroić do różnych zadań.
- PaliGemma-FT – modele oparte na badaniach, dostrojone na konkretnych zbiorach danych badawczych.
Najważniejsze korzyści:
-
Zrozumienie multimodalne
Jednocześnie rozumie zarówno obrazy, jak i tekst. -
Uniwersalny model podstawowy
Możliwość dostosowania do szerokiej gamy zadań związanych z językiem ducha. -
Standardowa eksploracja
Aplikacja zawiera punkt kontrolny dostosowany do różnych zadań, które można szybko wykorzystać do wyszukiwania informacji.