PaliGemma

PaliGemma to lekki, otwarty model języka Vision (VLM), który bazuje na PaLI-3 oparte na otwartych komponentach, takich jak SigLIP model wizyjny i język Gemma model. PaliGemma wykorzystuje jako dane wejściowe zarówno obrazy, jak i tekst, i odpowiada na pytania ze szczegółami i kontekstem, co oznacza, że PaliGemma może przeprowadzić dogłębną analizę grafiki i dostarczają przydatnych informacji, takich jak napisy do obrazów i krótkich filmów, wykrywanie obiektów i odczytywanie tekstu osadzonego w obrazach.

Dostępne są 2 zestawy modeli PaliGemmy: do ogólnego przeznaczenia i z zestawem zorientowanym na badania:

  • PaliGemma – Wytrenowane modele do zwykłych obciążeń, które można dostrajać do różnych zadań.
  • PaliGemma-FT – Modele ukierunkowane na badania, które są dostrojone na określonych zbiorach danych badawczych.

Najważniejsze korzyści:

  • Jednocześnie rozumie zarówno obrazy, jak i tekst.
  • Możliwość dostosowania do szerokiej gamy zadań związanych z językiem ducha.
  • Aplikacja zawiera punkt kontrolny dostosowany do różnych zadań, które można szybko wykorzystać do wyszukiwania informacji.

Więcej informacji

Karta modelu PaliGemma zawiera szczegółowe informacje o modelu, implementacji, ocenie, użyciu modelu i jego ograniczeniach, a także inne informacje.
Wyświetl więcej kodu, notatniki Colab, informacje i dyskusje dotyczące PaliGemma w Kaggle.
Uruchom przykład działania do dostrajania PaliGemma za pomocą JAX w Colab.