Görüntü yorumlama

Gemma ailesinin en yeni modeli Gemma 4; nesne algılama, optik karakter tanıma (OCR), görsel soru yanıtlama, görüntü açıklaması ve birden fazla görüntüde akıl yürütme gibi çok çeşitli görsel dil görevlerini gerçekleştirebilir. Ayrıca, çıkarım hızı ile çıkış doğruluğu arasında denge kurmanıza olanak tanıyan değişken çözünürlüklü işlemeyi de destekler.

Bu bölümde, istemlerinizde görsel verileri etkili bir şekilde hazırlama ve kullanma yöntemleri ele alınmaktadır.

Görsel veriler

Görsel veriler birçok biçimde ve çözünürlükte olabilir. Desteklenen belirli dosya biçimleri (ör. JPEG ve PNG), görsel verilerinizi tensörlere dönüştürmek için seçtiğiniz çerçeveye bağlıdır.

Gemma için görsel verileri hazırlarken dikkat etmeniz gereken önemli noktalar:

  • Token maliyeti: Her resim genellikle 256 token kullanır. Ancak PaliGemma resim token maliyetleri, seçilen modele göre değişir.
  • Çözünürlük: Yorumlanan çözünürlük (yani jetonlara kodlanmış ve model tarafından işlenmiş piksel sayısı), kullandığınız Gemma sürümüne bağlıdır:
    • Gemma 4: Jeton bütçesine göre değişken çözünürlük. Giriş resminin ne kadar yeniden boyutlandırılacağını ve işleneceğini belirleyen 70, 140, 280, 560 veya 1.120 jetonluk bütçe boyutları arasında seçim yapabilirsiniz.
    • Gemma 3: (4B ve üzeri) Daha büyük resimler için kaydırma ve tarama seçenekleriyle 896x896 çözünürlük.
    • Gemma 3n: 256x256, 512x512 veya 768x768 çözünürlük
    • PaliGemma 2: 224x224, 448x448 veya 896x896 çözünürlük

Daha düşük çözünürlüklü görüntüler daha hızlı işlenir ancak daha az görsel ayrıntı yakalar. Çıkarım hızını optimize etmek için seçtiğiniz Gemma modelinin yerleşik yorumlanmış çözünürlüklerinden biriyle eşleşen görsel veriler sağlamayı hedeflemelisiniz.

Değişken çözünürlük ve jeton bütçeleri

Gemma 4 modelleri, görüntüleri farklı çözünürlüklerde işleme özelliğini sunarak görsel girişi belirli görevinize göre uyarlamanıza olanak tanır. Örneğin, nesne algılamada küçük ayrıntıları belirlemek için yüksek çözünürlüğü tercih edebilirsiniz. İşleme hızını artırmak için ise tek tek video karelerini analiz ederken daha düşük bir çözünürlük tercih edilebilir. Sonuç olarak bu özellik, çıkarım hızı ile görsel temsilin doğruluğu arasında denge kurmanızı sağlar.

Bu dengeyi jeton bütçesi kullanarak yönetirsiniz. Bu bütçe, modelin tek bir görüntü için oluşturabileceği görsel jetonların (görsel jeton yerleştirmeleri olarak da bilinir) sayısına kesin bir sınır koyar.

70, 140, 280, 560 veya 1.120 jetonluk bir bütçe seçebilirsiniz:

  • Yüksek bütçeler (ör.1.120 jeton): Daha yüksek görüntü çözünürlüğü korunur. Bu sayede modelin işlemesi için daha fazla yama oluşturulur. Bu da modeli ince ve karmaşık ayrıntıları yakalamak için ideal hale getirir.
  • Düşük bütçeler (ör. 70 jeton): Resmin ölçeği küçültülür ve daha az yama elde edilir. Bu, çıkarım sürelerini önemli ölçüde hızlandırır.

Bütçenin işleyiş şekli: Jeton bütçesi, maksimum başlangıç görüntü yaması sayısını belirleyerek bir görüntünün ne kadar yeniden boyutlandırılacağını doğrudan kontrol eder. Sistem, seçtiğiniz bütçenin dokuz katı kadar yama oluşturur. Örneğin, 280 jetonluk bir bütçe 2.520 yama (280 × 9) sağlar.

Yama sıkıştırma yönteminden dolayı 9 çarpanı vardır: İşleme sırasında model, bitişik yamaların her 3x3 ızgarasını alır ve tek bir yerleştirme oluşturmak için bunları birlikte ortalamasını alır. Bu birleştirilmiş yerleştirmeler, nihai görsel jetonlarınız haline gelir. Sonuç olarak, daha yüksek bir jeton bütçesi daha fazla nihai yerleştirme sağlar ve modelin görsel verilerinizden daha zengin ve ayrıntılı bilgiler elde etmesine olanak tanır.

Şunları yapın:

Gemma'ya görsel verilerle istem yazarken izleyebileceğiniz bazı en iyi uygulamaları aşağıda bulabilirsiniz.

  • Net olun: Belirli görevleriniz varsa yeterli bağlam ve talimat sağlayın. "Bu resmi tanımla" yerine "Bu resimdeki sahneyi, insanlar ve nesneler arasındaki ilişkiye odaklanarak tanımla" yazmayı deneyin.

  • Kısıtlamalar ekleyin: Belirli bir stil veya ton elde etmek için isteminizde bunu belirttiğinizden emin olun. Örneğin, genel bir hikaye isteği yerine Gemma'dan "Bu görsel hakkında kara film tarzında kısa bir hikaye yaz" demesini isteyin.

  • Tekrarlı İyileştirme: Amaçlanan çıktıyı elde etmek genellikle deneme yapmayı ve istemleri iyileştirmeyi gerektirir. Basit bir istemle başlayın ve karmaşıklığı kademeli olarak artırın.

Yapılmaması gerekenler

Gemma'ya görsel verilerle istem girerken kaçınmanız gereken bazı noktalar aşağıda verilmiştir.

  • Çok Yoğun Nesneler İçin Tam Sayılar Bekleyin: Gemma 4, nesne algılama ve OCR konusunda mükemmel olsa da çok yoğun veya küçük nesneler için (ör. tek tek çim yapraklarını sayma) tam sayılar yerine yaklaşık değerler verebilir. Görsel görevlerde en iyi doğruluğu elde etmek için daha yüksek bir jeton bütçesi kullanın.

  • Belirsiz veya Anlaşılması Zor İstemler: "Bu resme göre bir şeyler üret" gibi genel istemler yerine, amaçlanan çıktıları elde etmek için net talimatlar verin. "Bir şey"in ne olduğunu net bir şekilde tanımlayın. Örneğin, şiir, yemek tarifi veya kod snippet'i.