Rozpoznawanie obrazów

Gemma 4, najnowszy model z rodziny Gemma, może wykonywać szeroki zakres zadań związanych z analizą obrazów i tekstu, takich jak wykrywanie obiektów, optyczne rozpoznawanie znaków (OCR), odpowiadanie na pytania dotyczące obrazów, generowanie opisów obrazów i wnioskowanie na podstawie wielu obrazów. Obsługuje też przetwarzanie w różnych rozdzielczościach, co pozwala zachować równowagę między szybkością wnioskowania a dokładnością danych wyjściowych.

W tej sekcji dowiesz się, jak skutecznie przygotowywać i wykorzystywać dane wizualne w promptach.

Dane wizualne

Dane wizualne mogą mieć różne formaty i rozdzielczości. Obsługiwane formaty plików (np. JPEG i PNG) zależą od platformy, której używasz do przekształcania danych wizualnych w tensory.

Oto najważniejsze kwestie, które należy wziąć pod uwagę podczas przygotowywania danych wizualnych dla Gemy:

  • Koszt tokena: każdy obraz zwykle wykorzystuje 256 tokenów, chociaż koszt tokena obrazu PaliGemma różni się w zależności od wybranego modelu.
  • Rozdzielczość: interpretowana rozdzielczość, czyli liczba pikseli zakodowanych w tokenach i przetworzonych przez model, zależy od używanej wersji Gemmy:
    • Gemma 4: zmienna rozdzielczość w zależności od budżetu tokenów. Możesz wybrać budżet w wysokości 70, 140, 280, 560 lub 1120 tokenów, co określa, jak bardzo obraz wejściowy zostanie przeskalowany i przetworzony.
    • Gemma 3: (4B i wyższe) rozdzielczość 896 x 896, z opcjami kadrowania i skanowania większych obrazów.
    • Gemma 3n: rozdzielczość 256 x 256, 512 x 512 lub 768 x 768
    • PaliGemma 2: rozdzielczość 224x224, 448x448 lub 896x896

Obrazy o niższej rozdzielczości są przetwarzane szybciej, ale zawierają mniej szczegółów wizualnych. Aby zoptymalizować szybkość wnioskowania, warto dostarczać dane wizualne pasujące do jednej z wbudowanych interpretowanych rozdzielczości wybranego modelu Gemma.

Zmienna rozdzielczość i budżety tokenów

Modele Gemma 4 umożliwiają przetwarzanie obrazów w różnych rozdzielczościach, dzięki czemu możesz dostosować dane wejściowe do konkretnego zadania. Możesz na przykład wybrać wysoką rozdzielczość, aby precyzyjnie określić małe szczegóły w wykrywaniu obiektów, podczas gdy niższa rozdzielczość może być lepsza do analizowania poszczególnych klatek wideo w celu przyspieszenia przetwarzania. Ta funkcja pozwala zrównoważyć szybkość wnioskowania z dokładnością wizualizacji.

Możesz zarządzać tym kompromisem za pomocą budżetu tokenów. Ten budżet określa sztywny limit liczby tokenów wizualnych (znanych też jako osadzenia tokenów wizualnych), które model może wygenerować dla pojedynczego obrazu.

Możesz wybrać budżet w wysokości 70, 140, 280, 560 lub 1120 tokenów:

  • Wysokie budżety (np. 1120 tokenów): zachowują wyższą rozdzielczość obrazu. Generuje to więcej fragmentów do przetworzenia przez model, co sprawia, że idealnie nadaje się on do wychwytywania drobnych, skomplikowanych szczegółów.
  • Niskie budżety (np. 70 tokenów): zmniejsz rozmiar obrazu, co spowoduje mniejszą liczbę fragmentów. Znacznie przyspiesza to czas wnioskowania.

Jak działa budżet Budżet tokenów bezpośrednio kontroluje, o ile obraz jest zmieniany, poprzez określenie maksymalnej liczby początkowych fragmentów obrazu. System wygeneruje 9 razy więcej fragmentów niż w przypadku wybranego budżetu. Na przykład budżet 280 tokenów daje maksymalnie 2520 fragmentów (280 × 9).

Mnożnik 9 wynika ze sposobu kompresji fragmentów: podczas przetwarzania model bierze każdą siatkę 3x3 sąsiadujących fragmentów i oblicza ich średnią, aby utworzyć jeden wektor dystrybucyjny. Te skonsolidowane wektory staną się Twoimi ostatecznymi tokenami wizualnymi. W efekcie większy budżet tokenów zapewnia więcej końcowych wektorów osadzania, co pozwala modelowi wyodrębniać z danych wizualnych bogatsze i bardziej szczegółowe informacje.

Działania zalecane:

Oto kilka sprawdzonych metod, których warto przestrzegać podczas przekazywania do Gemy promptów z danymi wizualnymi.

  • Unikaj ogólników: jeśli masz konkretne zadania, podaj wystarczający kontekst i wskazówki. Zamiast „opisz ten obraz” spróbuj „opisz scenę na tym obrazie, skupiając się na relacji między ludźmi a obiektami”.

  • Podaj ograniczenia: aby uzyskać określony styl lub ton, podaj go w prompcie. Na przykład zamiast ogólnej prośby o opowiadanie poproś Gemmę o „napisanie krótkiego opowiadania o tym obrazie w stylu filmu noir”.

  • Iteracyjne dopracowywanie: uzyskanie zamierzonego wyniku często wymaga eksperymentowania i dopracowywania promptów. Zacznij od prostego prompta i stopniowo zwiększaj jego złożoność.

Nie

Oto czego warto unikać podczas przekazywania Gemmie promptów z danymi wizualnymi.

  • Oczekuj dokładnych wyników w przypadku bardzo gęstych obiektów: chociaż Gemma 4 doskonale radzi sobie z wykrywaniem obiektów i OCR, w przypadku bardzo gęstych lub małych obiektów (np. liczenia pojedynczych źdźbeł trawy) może podawać przybliżone, a nie dokładne wyniki. Aby uzyskać najlepszą dokładność w przypadku zadań wizualnych, użyj większego budżetu tokenów.

  • Niejasne lub niejednoznaczne prompty: zamiast ogólnych promptów, takich jak „Wygeneruj coś na podstawie tego obrazu”, podaj konkretne instrukcje, aby uzyskać zamierzone wyniki. Wyraźnie określ, czym jest „coś”. Może to być np. wiersz, przepis lub fragment kodu.