PaliGemma

PaliGemma to lekki, otwarty model wizyjny (VLM) oparty na PaLI-3 i opartych na otwartych komponentach, takich jak model wizyjny SigLIP i model językowy Gemma. PaliGemma pobiera zarówno obrazy, jak i tekst jako dane wejściowe i może udzielać szczegółowych odpowiedzi na pytania dotyczące obrazów. Dzięki temu PaliGemma może przeprowadzać szczegółową analizę obrazów i dostarczać przydatne statystyki, takie jak napisy do obrazów i krótkich filmów, wykrywanie obiektów i odczytywanie tekstu osadzonego w obrazach.

Istnieją 2 zbiory modeli PaliGemmy: ogólny i związany z badaniami:

  • PaliGemma – wstępnie wytrenowane modele ogólnego przeznaczenia, które można dostroić do różnych zadań.
  • PaliGemma-FT – modele oparte na badaniach, dostrojone na konkretnych zbiorach danych badawczych.

Najważniejsze korzyści:

  • Jednocześnie rozumie zarówno obrazy, jak i tekst.
  • Możliwość dostosowania do szerokiej gamy zadań związanych z językiem ducha.
  • Aplikacja zawiera punkt kontrolny dostosowany do różnych zadań, które można szybko wykorzystać do wyszukiwania informacji.

Więcej informacji

Karta modelu PaliGemma zawiera szczegółowe informacje o modelu, implementacji, ocenie, użyciu modelu i jego ograniczeniach, a także inne informacje.
Wyświetl więcej kodu, notatniki Colab, informacje i dyskusje dotyczące PaliGemma w Kaggle.
Uruchom przykład działania do dostrajania PaliGemma za pomocą JAX w Colab.