Gemma 4 model kartı

Gemma 4 Banner

Hugging Face | GitHub | Lansman Blogu | Belgeler
Lisans: Apache 2.0 | Yazarlar: Google DeepMind

Gemma, Google DeepMind tarafından oluşturulan bir açık model ailesidir. Gemma 4 modelleri, metin ve görüntü girişini işleyen (küçük modellerde ses desteklenir) ve metin çıkışı oluşturan çok formatlı modellerdir. Bu sürüm, hem önceden eğitilmiş hem de talimatlara göre ayarlanmış varyantlarda açık ağırlıklı modeller içerir. Gemma 4, 256 bin parçaya kadar bağlam penceresi sunar ve 140'tan fazla dilde çok dilli desteği korur.

Hem Dense hem de Mixture-of-Experts (MoE) mimarilerine sahip olan Gemma 4; metin oluşturma, kodlama ve mantık yürütme gibi görevler için uygundur. Modeller E2B, E4B, 26B A4B ve 31B olmak üzere dört farklı boyutta mevcuttur. Çeşitli boyutları sayesinde üst düzey telefonlardan dizüstü bilgisayarlara ve sunuculara kadar farklı ortamlarda kullanılabilir. Bu sayede, en yeni yapay zeka teknolojisine erişim herkes için mümkün hale gelir.

Gemma 4, önemli yetenek ve mimari gelişmeler sunar:

  • Muhakeme (Reasoning): Ailedeki tüm modeller, yapılandırılabilir düşünme modlarıyla son derece yetenekli muhakeme araçları olarak tasarlanmıştır.

  • Genişletilmiş Çoklu Formatlar: Değişken en-boy oranı ve çözünürlük desteğiyle (tüm modeller) metin, resim, video ve ses işler (E2B ve E4B modellerinde yerel olarak bulunur).

  • Çeşitli ve Verimli Mimariler: Ölçeklenebilir dağıtım için farklı boyutlarda Dense ve Mixture-of-Experts (MoE) varyantları sunar.

  • Cihaz üzerinde kullanım için optimize edilmiş: Daha küçük modeller, dizüstü bilgisayarlarda ve mobil cihazlarda verimli yerel yürütme için özel olarak tasarlanmıştır.

  • Daha büyük bağlam penceresi: Küçük modellerde 128 bin, orta modellerde ise 256 bin parçalık bağlam penceresi bulunur.

  • Gelişmiş Kodlama ve Temsilci Özellikleri: Yerel işlev çağrısı desteğiyle birlikte kodlama karşılaştırmalarında önemli iyileştirmeler sağlar ve yüksek kapasiteli otonom temsilcilere güç verir.

  • Yerel Sistem İstemi Desteği: Gemma 4, system rolü için yerel destek sunarak daha yapılandırılmış ve kontrol edilebilir görüşmeler yapılmasını sağlar.

Modellere Genel Bakış

Gemma 4 modelleri, her boyutta en üst düzeyde performans sunmak üzere tasarlanmıştır. Mobil ve uç cihazlardan (E2B, E4B) tüketici GPU'larına ve iş istasyonlarına (26B A4B, 31B) kadar çeşitli dağıtım senaryolarını hedefler. Bu modeller; mantık yürütme, ajan tabanlı iş akışları, kodlama ve çok formatlı anlama için uygundur.

Modeller, yerel kayan pencere dikkatini tam global dikkatle iç içe geçiren hibrit bir dikkat mekanizması kullanır. Bu sayede son katmanın her zaman global olması sağlanır. Bu karma tasarım, karmaşık ve uzun bağlamlı görevler için gereken derin farkındalıktan ödün vermeden hafif bir modelin işleme hızını ve düşük bellek kullanımını sunar. Uzun bağlamlar için belleği optimize etmek amacıyla, genel katmanlar birleştirilmiş Anahtarlar ve Değerler içerir ve orantılı RoPE (p-RoPE) uygular.

Yoğun Modeller

Mülk E2B E4B 31B Dense
Toplam Parametre Sayısı 2,3 milyar etkili (5,1 milyar yerleştirmeyle) 4,5 milyar etkili (gömme işlemleriyle 8 milyar) 30,7 milyar
Katmanlar 35 42 60
Kayar Pencere 512 jeton 512 jeton 1.024 jeton
Bağlam Uzunluğu 128.000 jeton 128.000 jeton 256 bin jeton
Kelime Hazinesi Boyutu (Vocabulary Size) 262 B 262 B 262 B
Desteklenen Modlar Metin, Resim, Ses Metin, Resim, Ses Metin, Resim
Görsel Kodlayıcı Parametreleri ~150 milyon ~150 milyon ~550 Mn
Ses Kodlayıcı Parametreleri ~300 Mn ~300 Mn Ses yok

E2B ve E4B'deki "E", "etkili" parametreleri ifade eder. Daha küçük modeller, cihaz üzerinde dağıtımlarda parametre verimliliğini en üst düzeye çıkarmak için Katman Başına Yerleştirme (PLE) özelliğini kullanır. PLE, modele daha fazla katman veya parametre eklemek yerine her kod çözücü katmana her jeton için kendi küçük yerleştirmesini verir. Bu yerleştirme tabloları büyüktür ancak yalnızca hızlı aramalar için kullanılır. Bu nedenle, etkin parametre sayısı toplamdan çok daha küçüktür.

Uzman Karışımı (MoE) Modeli

Mülk 26B A4B MoE
Toplam Parametre Sayısı 25,2 Mr
Etkin parametreler 3,8 milyar
Katmanlar 30
Kayar Pencere 1.024 jeton
Bağlam Uzunluğu 256 bin jeton
Kelime Hazinesi Boyutu (Vocabulary Size) 262 B
Uzman Sayısı 8 etkin / 128 toplam ve 1 paylaşılan
Desteklenen Modlar Metin, Resim
Görsel Kodlayıcı Parametreleri ~550 Mn

26B A4B'deki "A", modelin içerdiği toplam parametre sayısının aksine "etkin parametreler" anlamına gelir. Çıkarım sırasında yalnızca 4 milyar parametrelik bir alt küme etkinleştirildiğinden, Uzman Karışımı modeli toplamda 26 milyar parametreye sahipmiş gibi görünse de çok daha hızlı çalışır. Bu nedenle, 4 milyar parametreli bir model kadar hızlı çalıştığı için 31 milyar parametreli yoğun modele kıyasla hızlı çıkarım için mükemmel bir seçimdir.

Karşılaştırma Sonuçları

Bu modeller, metin oluşturmanın farklı yönlerini kapsamak için farklı veri kümeleri ve metriklerden oluşan büyük bir koleksiyonla karşılaştırılarak değerlendirildi. Tabloda işaretlenen değerlendirme sonuçları, talimatlara göre ayarlanmış modeller içindir.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (no think)
MMLU Pro %85,2 %82,6 %69,4 %60,0 %67,6
AIME 2026 no tools %89,2 %88,3 %42,5 %37,5 %20,8
LiveCodeBench v6 %80,0 %77,1 %52,0 %44,0 %29,1
Codeforces ELO 2150 1718 940 633 110
GPQA Diamond %84,3 %82,3 %58,6 %43,4 %42,4
Tau2 (3 üzerinden ortalama) %76,9 %68,2 %42,2 %24,5 %16,2
HLE no tools %19,5 %8,7 - - -
Arama ile HLE %26,5 %17,2 - - -
BigBench Extra Hard %74,4 %64,8 %33,1 %21,9 %19,3
MMMLU %88,4 %86,3 %76,6 %67,4 %70,7
Görme
MMMU Pro %76,9 %73,8 %52,6 %44,2 %49,7
OmniDocBench 1.5 (ortalama düzenleme mesafesi, düşük değer daha iyidir) 0,131 0,149 0,181 0,290 0,365
MATH-Vision %85,6 %82,4 %59,5 %52,4 %46,0
MedXPertQA MM %61,3 %58,1 %28,7 %23,5 -
Ses
CoVoST - - 35,54 33,47 -
FLEURS (daha düşük değer daha iyidir) - - 0,08 0,09 -
Uzun Bağlam (Long Context)
MRCR v2 8 iğne 128k (ortalama) %66,4 %44,1 %25,4 %19,1 %13,5

Temel Özellikler

Gemma 4 modelleri; metin, görüntü ve sesle ilgili çok çeşitli görevleri yerine getirebilir. Temel özellikler:

  • Düşünme: Modelin yanıt vermeden önce adım adım düşünmesini sağlayan yerleşik akıl yürütme modu.
  • Uzun Bağlam: 128 bin parçaya (E2B/E4B) ve 256 bin parçaya (26B A4B/31B) kadar bağlam pencereleri.
  • Görüntü Anlama: Nesne algılama, doküman/PDF ayrıştırma, ekran ve kullanıcı arayüzü anlama, grafik yorumlama, OCR (çok dilli dahil), el yazısı tanıma ve işaretleme. Resimler, farklı en boy oranlarında ve çözünürlüklerde işlenebilir.
  • Video Anlama: Kare dizilerini işleyerek videoyu analiz edin.
  • Aralıklı Çok Formatlı Giriş: Tek bir istemde metin ve görüntüleri istediğiniz sırada serbestçe karıştırın.
  • İşlev Çağırma: Yapılandırılmış araç kullanımına yönelik yerel destek sunarak temsilci iş akışlarını etkinleştirir.
  • Kodlama: Kod oluşturma, tamamlama ve düzeltme.
  • Çok dilli: 35'ten fazla dil için kullanıma hazır destek. 140'tan fazla dilde önceden eğitilmiştir.
  • Ses (yalnızca E2B ve E4B) – Otomatik konuşma tanıma (ASR) ve birden fazla dilde konuşmayı çevrilmiş metne çevirme.

Başlarken

Tüm Gemma 4 modellerini Transformers'ın en yeni sürümüyle kullanabilirsiniz. Başlamak için ortamınıza gerekli bağımlılıkları yükleyin:

pip install -U transformers torch accelerate

Her şeyi yükledikten sonra aşağıdaki kodu kullanarak modeli yüklemeye devam edebilirsiniz:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

Model yüklendikten sonra çıkış oluşturmaya başlayabilirsiniz:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

Akıl yürütmeyi etkinleştirmek için enable_thinking=True değerini ayarlayın. parse_response işlevi, düşünme çıktısını ayrıştırma işlemini gerçekleştirir.

En iyi uygulamalar

En iyi performans için şu yapılandırmaları ve en iyi uygulamaları kullanın:

1. Örnekleme Parametreleri

Tüm kullanım alanlarında aşağıdaki standartlaştırılmış örnekleme yapılandırmasını kullanın:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. Düşünme Modu Yapılandırması

Modeller, Gemma 3'e kıyasla standart system, assistant ve user rollerini kullanır. Düşünme sürecini düzgün bir şekilde yönetmek için aşağıdaki kontrol jetonlarını kullanın:

  • Düşünme Tetikleme: Düşünme, sistem isteminin başına <|think|> jetonu eklenerek etkinleştirilir. Düşünme işlevini devre dışı bırakmak için jetonu kaldırın.
  • Standart Üretim: Düşünme etkinleştirildiğinde model, bu yapıyı kullanarak nihai yanıtın ardından kendi içindeki muhakemesini verir: <|channel>thought\n[İç muhakeme]<channel|>
  • Düşünme Davranışı Devre Dışı: E2B ve E4B varyantları hariç tüm modellerde düşünme devre dışı bırakılırsa model yine de etiket oluşturur ancak düşünce bloğu boş olur: <|channel>thought\n<channel|>[Son yanıt]

Transformers ve llama.cpp gibi birçok kitaplığın, sohbet şablonunun karmaşıklıklarını sizin için ele aldığını unutmayın.

3. Çok turlu görüşmeler

  • Geçmişte Düşünme İçeriği Yok: Çok turlu sohbetlerde, geçmiş model çıktısı yalnızca son yanıtı içermelidir. Önceki model dönüşlerindeki düşünceler, sonraki kullanıcı dönüşü başlamadan önce eklenmemelidir.

4. Yöntem sırası

  • Çok formatlı girişlerle optimum performans için isteminizdeki metinden önce resim ve/veya ses içeriği yerleştirin.

5. Değişken görüntü çözünürlüğü

Gemma 4, değişken en boy oranlarının yanı sıra, bir resmi temsil etmek için kaç jetonun kullanılacağını kontrol eden yapılandırılabilir bir görsel jeton bütçesi aracılığıyla değişken görüntü çözünürlüğünü de destekler. Daha yüksek bir jeton bütçesi, ek işlem maliyetiyle daha fazla görsel ayrıntıyı korurken daha düşük bir bütçe, ayrıntılı anlayış gerektirmeyen görevler için daha hızlı çıkarım sağlar.

  • Desteklenen jeton bütçeleri: 70, 140, 280, 560 ve 1.120.
    • Daha hızlı çıkarım ve çok sayıda karenin işlenmesinin ayrıntılı bilgiden daha önemli olduğu sınıflandırma, altyazı ekleme veya video anlama için daha düşük bütçeler kullanın.
    • OCR, doküman ayrıştırma veya küçük metinleri okuma gibi görevler için daha yüksek bütçeler kullanın.

6. Ses

Ses işleme için aşağıdaki istem yapılarını kullanın:

  • Sesli Konuşma Tanıma (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • Otomatik Konuşma Çevirisi (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Ses ve Video Uzunluğu

Tüm modeller, resim girişlerini destekler ve videoları kare olarak işleyebilir. E2B ve E4B modelleri ise ses girişlerini de destekler. Sesin maksimum uzunluğu 30 saniye olabilir. Görüntülerin saniyede bir kare hızında işlendiği varsayıldığında video en fazla 60 saniye uzunluğunda olabilir.

Model Verileri

Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.

Eğitim Veri Kümesi

Ön eğitim veri kümemiz, Ocak 2025'te sona eren, web belgeleri, kod, resim, ses gibi çok çeşitli alanları ve modaliteleri kapsayan büyük ölçekli ve çeşitli bir veri koleksiyonudur. Temel bileşenler şunlardır:

  • Web Belgeleri: Çeşitli web metinleri, modelin çok çeşitli dil stillerine, konulara ve kelime dağarcığına maruz kalmasını sağlar. Eğitim veri kümesi, 140'tan fazla dildeki içerikleri kapsar.
  • Kod: Modele kod göstermek, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma ve kodla ilgili soruları anlama becerisini geliştirir.
  • Matematik: Matematiksel metinler üzerinde eğitim, modelin mantıksal akıl yürütmeyi, sembolik temsili öğrenmesine ve matematiksel sorguları yanıtlamasına yardımcı olur.
  • Resimler: Çok çeşitli resimler, modelin resim analizi ve görsel veri çıkarma görevlerini gerçekleştirmesini sağlar.

Bu çeşitli veri kaynaklarının birleşimi, çok çeşitli farklı görevleri ve veri biçimlerini işleyebilen güçlü bir çok formatlı modelin eğitilmesi için çok önemlidir.

Veri Ön İşleme

Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:

  • CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulmasını sağlamak için veri hazırlama sürecinin birden fazla aşamasında titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
  • Hassas Veri Filtreleme: Gemma önceden eğitilmiş modellerini güvenli ve güvenilir hale getirmek için eğitim kümelerinden belirli kişisel bilgileri ve diğer hassas verileri filtrelemek üzere otomatik teknikler kullanılmıştır.
  • Ek yöntemler: Politikalarımız doğrultusunda içerik kalitesine ve güvenliğine göre filtreleme.

Etik ve Güvenlik (Ethics and Safety)

Açık modeller kurumsal altyapının merkezine yerleştikçe, köken ve güvenlik büyük önem kazanıyor. Google DeepMind tarafından geliştirilen Gemma 4, tescilli Gemini modellerimizle aynı titiz güvenlik değerlendirmelerinden geçer.

Değerlendirme Yaklaşımı

Gemma 4 modelleri, şirket içi güvenlik ve sorumlu yapay zeka ekipleriyle iş ortaklığı içinde geliştirildi. Model güvenliğinin artırılması için hem otomatik hem de uzman değerlendirmeleri yapıldı. Bu değerlendirmeler, Google'ın Yapay Zeka İlkeleri'nin yanı sıra üretken yapay zeka modellerimizin aşağıdakiler de dahil olmak üzere zararlı içerik üretmesini önlemeyi amaçlayan güvenlik politikalarıyla uyumludur:

  • Çocuğun cinsel istismarı nitelikli materyaller ve çocuk istismarı ile ilgili içerikler
  • Tehlikeli içerikler (ör. intiharı teşvik etme veya gerçek dünyada zarara yol açabilecek etkinliklerle ilgili talimatlar verme)
  • Müstehcen içerik
  • Nefret söylemi (ör. koruma altındaki grupların üyelerini insanlıktan çıkarma)
  • Taciz (ör. insanlara karşı şiddeti teşvik etme)

Değerlendirme Sonuçları

Güvenlik testinin tüm alanlarında, önceki Gemma modellerine kıyasla içerik güvenliğinin tüm kategorilerinde önemli iyileştirmeler gördük. Genel olarak, Gemma 4 modelleri, güvenlik konusunda iyileştirme yaparken gereksiz retleri düşük tutma konusunda Gemma 3 ve 3n modellerinden önemli ölçüde daha iyi performans gösteriyor. Tüm testler, modelin yeteneklerini ve davranışlarını değerlendirmek için güvenlik filtreleri olmadan yapıldı. Hem metinden metne hem de resimden metne görevlerinde ve tüm model boyutlarında, model minimum düzeyde politika ihlali üretti ve önceki Gemma modellerinin performansına kıyasla önemli iyileşmeler gösterdi.

Kullanım ve Sınırlamalar

Bu modellerin, kullanıcıların bilmesi gereken belirli sınırlamaları vardır.

Kullanım Amacı

Çok formatlı modeller (görsel, dil ve/veya ses işleyebilen) çeşitli sektörlerde ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanım alanları listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirme sürecinde dikkate aldığı olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.

  • İçerik Oluşturma ve İletişim
    • Metin Oluşturma: Bu modeller; şiir, senaryo, kod, pazarlama metni ve e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
    • Chatbot'lar ve Etkileşimli Yapay Zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri destekleyin.
    • Metin Özetleme: Metin korpuslarının, araştırma makalelerinin veya raporların kısa özetlerini oluşturun.
    • Görüntü Verisi Çıkarma: Bu modeller, metin iletişimleri için görsel verileri çıkarmak, yorumlamak ve özetlemek amacıyla kullanılabilir.
    • Ses İşleme ve Etkileşim: Daha küçük modeller (E2B ve E4B), ses girişlerini analiz edip yorumlayarak sesle etkileşim ve transkripsiyon yapılmasını sağlar.
  • Araştırma ve Eğitim
    • Doğal Dil İşleme (NLP) ve VLM Araştırması: Bu modeller, araştırmacıların VLM ve NLP teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel olarak kullanılabilir.
    • Dil Öğrenme Araçları: Dil öğrenenlere yönelik etkileşimli dil öğrenme deneyimlerini destekleyerek dil bilgisi düzeltme veya yazma alıştırması yapma konusunda yardımcı olur.
      • Bilgi Keşfi: Özetler oluşturarak veya belirli konularla ilgili soruları yanıtlayarak araştırmacıların büyük metinleri incelemesine yardımcı olun.

Sınırlamalar

  • Eğitim Verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verisindeki önyargılar veya eksikler, modelin yanıtlarında sınırlamalara yol açabilir.
    • Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde ele alabileceği konu alanlarını belirler.
  • Bağlam ve Görev Karmaşıklığı
    • Modeller, net istemler ve talimatlarla çerçevelenebilen görevlerde iyi performans gösterir. Açık uçlu veya çok karmaşık görevler zorlayıcı olabilir.
    • Bir modelin performansı, sağlanan bağlam miktarıyla etkilenebilir (daha uzun bağlam genellikle belirli bir noktaya kadar daha iyi sonuçlar verir).
  • Dilin Belirsizliği ve İnce Anlam Farkları
    • Doğal dil, doğası gereği karmaşıktır. Modeller, ince ayrıntıları, alaycı ifadeleri veya mecazlı dili anlamakta zorlanabilir.
  • Doğruluk
    • Modeller, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya eski olgusal ifadeler üretebilirler.
  • Common Sense
    • Modeller, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu muhakeme yapma yeteneğine sahip olmayabilirler.

Etik hususlar ve riskler

Görsel-dil modellerinin (VLMs) geliştirilmesi, etik açıdan çeşitli endişelere yol açmaktadır. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:

  • Önyargı ve Adalet
    • Büyük ölçekli, gerçek dünyadaki metin ve resim verileriyle eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu kartta belirtildiği gibi, Gemma 4 modelleri bu önyargıların riskini azaltmak için dikkatli bir inceleme, giriş verisi ön işleme ve eğitim sonrası değerlendirmelerden geçirilmiştir.
  • Yanlış Bilgilendirme ve Kötüye Kullanım
    • Çok büyük dil modelleri, yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelin sorumlu kullanımıyla ilgili yönergeler için Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
  • Şeffaflık ve Sorumluluk
    • Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleriyle ilgili ayrıntılar özetlenmektedir.
    • Sorumlu bir şekilde geliştirilen açık model, yapay zeka ekosistemindeki geliştiricilerin ve araştırmacıların VLM teknolojisine erişmesini sağlayarak yenilikleri paylaşma fırsatı sunar.

Belirlenen riskler ve azaltma önlemleri:

  • Zararlı içerik oluşturma: İçerik güvenliği için mekanizmalar ve kurallar gereklidir. Geliştiricilerin dikkatli olmaları ve belirli ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri uygulamaları önerilir.
  • Kötü amaçlı kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, VLMs'nin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcılara, kötüye kullanımı işaretlemeleri için eğitim kaynakları ve bildirme mekanizmaları sağlanır.
  • Gizlilik ihlalleri: Modeller, belirli kişisel bilgilerin ve diğer hassas verilerin kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilikle ilgili yönetmeliklere uymaları önerilir.
  • Önyargıların devam etmesi: Model eğitimi, ince ayar ve diğer kullanım alanlarında sürekli izleme (değerlendirme metrikleri, inceleme uzmanı incelemesi kullanılarak) ve önyargı giderme tekniklerinin araştırılması önerilir.

Avantajlar

Bu model ailesi, yayınlandığı sırada benzer boyutlu modellere kıyasla sorumlu yapay zeka geliştirme için baştan sona tasarlanmış yüksek performanslı açık vizyon-dil modeli uygulamaları sunar.