Metin, ses ve resim girişi ile 256 bin parçaya kadar uzun bağlam penceresi sunan Gemma 4 yayınlandı. Daha fazla bilgi

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 model kartı

Gemma 4 Banner

Hugging Face | GitHub | Lansman Blogu | Belgeler
Lisans: Apache 2.0 | Yazarlar: Google DeepMind

Gemma, Google DeepMind tarafından geliştirilen açık modellerden oluşan bir model ailesidir. Gemma 4 modelleri çok formatlıdır. Metin ve görüntü girişini işler (E2B, E4B ve 12B modellerinde ses desteklenir) ve metin çıkışı oluşturur. Bu sürüm, hem önceden eğitilmiş hem de talimatlara göre ayarlanmış varyantlarda açık ağırlıklı modeller içerir. Gemma 4, 256 bin parçaya kadar bağlam penceresi sunar ve 140'tan fazla dilde çok dilli desteği korur.

Hem Dense hem de Mixture-of-Experts (MoE) mimarilerine sahip olan Gemma 4; metin oluşturma, kodlama ve mantık yürütme gibi görevler için uygundur. Modeller beş farklı boyutta mevcuttur: E2B, E4B, 12B, 26B A4B ve 31B. Farklı boyutları sayesinde üst düzey telefonlardan dizüstü bilgisayarlara ve sunuculara kadar çeşitli ortamlarda kullanılabilir. Bu sayede, en gelişmiş yapay zekaya erişim herkes için mümkün olur.

Gemma 4, önemli yetenek ve mimari gelişmeler sunar:

Akıl yürütme: Ailedeki tüm modeller, yapılandırılabilir düşünme modlarıyla yüksek düzeyde akıl yürütme yeteneğine sahip olacak şekilde tasarlanmıştır.
Genişletilmiş Çoklu Formatlar: Değişken en-boy oranı ve çözünürlük desteğiyle (tüm modeller) metin, resim, video ve ses işler (E2B, E4B ve 12B modellerinde yerel olarak bulunur).
Çeşitli ve Verimli Mimariler: Ölçeklenebilir dağıtım için farklı boyutlarda Dense ve Mixture-of-Experts (MoE) varyantları sunar.
Cihaz üzerinde kullanım için optimize edilmiştir: Daha küçük modeller, dizüstü bilgisayarlarda ve mobil cihazlarda verimli yerel yürütme için özel olarak tasarlanmıştır.
Daha büyük bağlam penceresi: Küçük modellerde 128 bin parçalık bağlam penceresi, orta modellerde ise 256 bin parçalık bağlam penceresi bulunur.
Gelişmiş Kodlama ve Ajan Tabanlı Özellikler: Yerel işlev çağrısı desteğinin yanı sıra kodlama karşılaştırmalarında önemli iyileştirmeler sağlar ve yüksek kapasiteli otonom ajanlara güç verir.
Yerel Sistem İstemi Desteği: Gemma 4, system rolü için yerel destek sunarak daha yapılandırılmış ve kontrol edilebilir görüşmeler yapılmasını sağlar.

Modellere Genel Bakış

Gemma 4 modelleri, her boyutta en üst düzeyde performans sunmak üzere tasarlanmıştır. Bu modeller, mobil ve uç cihazlardan (E2B, E4B) tüketici GPU'larına ve iş istasyonlarına (12B, 26B A4B, 31B) kadar çeşitli dağıtım senaryolarını hedefler. Bu modeller; akıl yürütme, ajan tabanlı iş akışları, kodlama ve çok formatlı anlama için uygundur.

Modeller, yerel kayan pencere dikkatini tam global dikkatle iç içe geçiren hibrit bir dikkat mekanizması kullanır. Bu sayede son katmanın her zaman global olması sağlanır. Bu hibrit tasarım, karmaşık ve uzun bağlamlı görevler için gereken derin farkındalıktan ödün vermeden hafif bir modelin işlem hızını ve düşük bellek kullanımını sunar. Uzun bağlamlar için belleği optimize etmek amacıyla, genel katmanlar birleştirilmiş anahtarlar ve değerler içerir ve orantılı RoPE (p-RoPE) uygular.

Yoğun Modeller

Mülk	E2B	E4B	12B Unified	31B Dense
Toplam Parametre Sayısı	2,3 milyar etkili (yerleştirmelerle birlikte 5,1 milyar)	4,5 milyar etkili (gömme işlemleriyle 8 milyar)	11,95B	30,7 milyar
Katmanlar	35	42	48	60
Kayar Pencere	512 jeton	512 jeton	1.024 jeton	1.024 jeton
Bağlam Uzunluğu	128 bin parça	128 bin parça	256 bin parça	256 bin parça
Kelime Hazinesi Boyutu (Vocabulary Size)	262 B	262 B	262 B	262 B
Desteklenen Modlar	Metin, Resim, Ses	Metin, Resim, Ses	Metin, Resim, Ses	Metin, Resim
Vision Encoder Parameters (Görsel Kodlayıcı Parametreleri)	~150 milyon	~150 milyon	-	~550 Mn
Ses Kodlayıcı Parametreleri	~300 Mn	~300 Mn	-	Ses yok

E2B ve E4B'deki "E", "etkili" parametreleri ifade eder. Daha küçük modeller, cihaz üzerinde dağıtımlarda parametre verimliliğini en üst düzeye çıkarmak için Katman Başına Yerleştirme (PLE) özelliğini kullanır. PLE, modele daha fazla katman veya parametre eklemek yerine her kod çözücü katmana her jeton için kendi küçük yerleştirmesini verir. Bu yerleştirme tabloları büyüktür ancak yalnızca hızlı aramalar için kullanılır. Bu nedenle, etkin parametre sayısı toplamdan çok daha küçüktür.

Gemma 4 12B Birleşik'teki "Birleşik" ifadesi, kodlayıcı içermeyen mimarisini ifade eder. Diğer Gemma 4 modelleri, çok formatlı verileri LLM'ye iletmeden önce işlemek için özel kodlayıcılar kullanır. Gemma 4 12B, bu kodlayıcıları tamamen ortadan kaldırarak ham görüntü yamalarını ve ses dalga biçimlerini doğrudan LLM'nin yerleştirme alanına hafif doğrusal katmanlar aracılığıyla yansıtır. Bu birleştirilmiş yaklaşım, tüm modalitelerin doğrudan tek bir yalnızca kod çözücü transformere akması anlamına gelir. Bu sayede çok formatlı gecikme azaltılır ve modelin tamamının tek geçişte ince ayarlanmasına olanak tanınır.

Uzman Karışımı (MoE) Modeli

Mülk	26B A4B MoE
Toplam Parametre Sayısı	25,2 Mr
Etkin Parametreler	3,8 milyar
Katmanlar	30
Kayar Pencere	1.024 jeton
Bağlam Uzunluğu	256 bin parça
Kelime Hazinesi Boyutu (Vocabulary Size)	262 B
Uzman Sayısı	8 etkin / 128 toplam ve 1 paylaşılan
Desteklenen Modlar	Metin, Resim
Vision Encoder Parameters (Görsel Kodlayıcı Parametreleri)	~550 Mn

26B A4B ifadesindeki "A", modelin içerdiği toplam parametre sayısının aksine "etkin parametreler" anlamına gelir. Çıkarım sırasında yalnızca 4 milyar parametrelik bir alt küme etkinleştirildiğinden, Uzman Karışımı modeli toplamda 26 milyar parametreye sahip olmasına rağmen çok daha hızlı çalışır. Bu nedenle, 4 milyar parametreli bir model kadar hızlı çalıştığı için 31 milyar parametreli yoğun modele kıyasla hızlı çıkarım için mükemmel bir seçimdir.

Karşılaştırma Sonuçları

Bu modeller, metin oluşturmanın farklı yönlerini kapsamak için farklı veri kümeleri ve metriklerden oluşan büyük bir koleksiyonla değerlendirildi. Tabloda işaretlenen değerlendirme sonuçları, talimatlara göre ayarlanmış modeller içindir.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 12B Unified	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (no think)
MMLU Pro	%85,2	%82,6	%77,2	%69,4	%60,0	%67,6
AIME 2026 no tools	%89,2	%88,3	%77,5	%42,5	%37,5	%20,8
LiveCodeBench v6	%80,0	%77,1	%72,0	%52,0	%44,0	%29,1
Codeforces ELO	2150	1718	1659	940	633	110
GPQA Diamond	%84,3	%82,3	%78,8	%58,6	%43,4	%42,4
Tau2 (3 üzerinden ortalama)	%76,9	%68,2	%69,0	%42,2	%24,5	%16,2
HLE no tools	%19,5	%8,7	%5,2	-	-	-
Arama ile HLE	%26,5	%17,2	-	-	-	-
BigBench Extra Hard	%74,4	%64,8	%53,0	%33,1	%21,9	%19,3
MMMLU	%88,4	%86,3	%83,4	%76,6	%67,4	%70,7
Görme
MMMU Pro	%76,9	%73,8	%69,1	%52,6	%44,2	%49,7
OmniDocBench 1.5 (ortalama düzenleme mesafesi, düşük olması daha iyidir)	0,131	0,149	0,164	0,181	0,290	0,365
MATH-Vision	%85,6	%82,4	%79,7	%59,5	%52,4	%46,0
MedXPertQA MM	%61,3	%58,1	%48,7	%28,7	%23,5	-
Ses
CoVoST	-	-	38,5^*	35,54	33,47	-
FLEURS (daha düşük değer daha iyidir)	-	-	0,069^*	0,08	0,09	-
Uzun Bağlam (Long Context)
MRCR v2 8 iğne 128k (ortalama)	%66,4	%44,1	%43,4	%25,4	%19,1	%13,5

^*Çince hariç.

Temel Özellikler

Gemma 4 modelleri; metin, görüntü ve sesle ilgili çok çeşitli görevleri yerine getirebilir. Temel özellikler:

Düşünme: Modelin yanıt vermeden önce adım adım düşünmesini sağlayan yerleşik akıl yürütme modu.
Uzun Bağlam: 128 bin parçaya (E2B/E4B) ve 256 bin parçaya (12B/26B A4B/31B) kadar bağlam pencereleri.
Görüntü yorumlama: Nesne algılama, doküman/PDF ayrıştırma, ekran ve kullanıcı arayüzü yorumlama, grafik yorumlama, OCR (çok dilli dahil), el yazısı tanıma ve işaretleme. Resimler, değişken en boy oranlarında ve çözünürlüklerde işlenebilir.
Video Anlama: Kare dizilerini işleyerek videoyu analiz edin.
Aralıklı Çok Formatlı Giriş: Tek bir istemde metin ve görüntüleri istediğiniz sırada serbestçe karıştırın.
İşlev Çağırma: Yapılandırılmış araç kullanımına yönelik yerel destek sunarak bağımsız iş akışlarını etkinleştirir.
Kodlama: Kod oluşturma, tamamlama ve düzeltme.
Çok dilli: 35'ten fazla dil için kullanıma hazır destek. 140'tan fazla dilde önceden eğitilmiştir.
Ses (yalnızca E2B, E4B ve 12B Unified) – Otomatik konuşma tanıma (ASR) ve konuşmayı çevrilmiş metne dönüştürme.

En iyi uygulamalar

En iyi performans için aşağıdaki yapılandırmaları ve en iyi uygulamaları kullanın:

1. Örnekleme Parametreleri

Tüm kullanım alanlarında aşağıdaki standartlaştırılmış örnekleme yapılandırmasını kullanın:

temperature=1.0
top_p=0.95
top_k=64

2. Düşünme Modu Yapılandırması

Modeller, Gemma 3'e kıyasla standart system, assistant ve user rollerini kullanır. Düşünme sürecini düzgün bir şekilde yönetmek için aşağıdaki kontrol jetonlarını kullanın:

Düşünme Tetikleyicisi: Düşünme, sistem isteminin başına <|think|> simgesi eklenerek etkinleştirilir. Düşünme özelliğini devre dışı bırakmak için jetonu kaldırın.
Standart Üretim: Düşünme etkinleştirildiğinde model, bu yapıyı kullanarak nihai yanıtın ardından kendi içindeki muhakeme sürecini gösterir: <|channel>thought\n[İç muhakeme]<channel|>
Düşünme Davranışı Devre Dışı: E2B ve E4B varyantları hariç tüm modellerde düşünme devre dışı bırakılırsa model yine de etiketleri oluşturur ancak düşünce bloğu boş olur: <|channel>thought\n<channel|>[Son yanıt]

Transformers ve llama.cpp gibi birçok kitaplığın, sohbet şablonunun karmaşıklıklarını sizin için ele aldığını unutmayın.

3. Çok Aşamalı Etkileşimler

Geçmişte Düşünme İçeriği Yok: Çok aşamalı etkileşimlerde, geçmiş model çıktısı yalnızca son yanıtı içermelidir. Önceki model dönüşlerindeki düşünceler, sonraki kullanıcı dönüşü başlamadan önce eklenmemelidir.

4. Yöntem sırası

Çok formatlı girişlerle optimum performans için şunları yerleştirin:

İsteminizdeki metinden önceki resim içeriği.
İsteminizdeki metinden sonraki sesli içerik

5. Değişken görüntü çözünürlüğü

Gemma 4, değişken en boy oranlarının yanı sıra, bir görseli temsil etmek için kaç jetonun kullanılacağını kontrol eden yapılandırılabilir bir görsel jeton bütçesi aracılığıyla değişken görüntü çözünürlüğünü de destekler. Daha yüksek bir jeton bütçesi, ek hesaplama maliyetiyle daha fazla görsel ayrıntıyı korurken daha düşük bir bütçe, ayrıntılı anlayış gerektirmeyen görevler için daha hızlı çıkarım sağlar.

Desteklenen jeton bütçeleri: 70, 140, 280, 560 ve 1.120.
- Daha hızlı çıkarım ve çok sayıda karenin işlenmesinin ayrıntılı bilgiden daha önemli olduğu sınıflandırma, altyazı ekleme veya video anlama için daha düşük bütçeler kullanın.
- OCR, doküman ayrıştırma veya küçük metinleri okuma gibi görevler için daha yüksek bütçeler kullanın.

6. Ses

Ses işleme için aşağıdaki istem yapılarını kullanın:

Sesli Konuşma Tanıma (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Otomatik Konuşma Çevirisi (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Ses ve Video Uzunluğu

Tüm modeller görüntü girişlerini destekler ve videoları kare olarak işleyebilir. E2B, E4B ve 12B modelleri ise ses girişlerini de destekler. Ses, maksimum 30 saniye uzunluğunda olabilir. Görüntülerin saniyede bir kare hızında işlendiği varsayıldığında video en fazla 60 saniye uzunluğunda olabilir.

Model Verileri

Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.

Eğitim Veri Kümesi

Ön eğitim veri setimiz, Ocak 2025'te sona eren ve web belgeleri, kod, resim, ses gibi çok çeşitli alan ve biçimleri kapsayan büyük ölçekli ve çeşitli bir veri koleksiyonudur. Temel bileşenler şunlardır:

Web Belgeleri: Çeşitli web metinleri, modelin çok çeşitli dil stillerine, konulara ve kelime dağarcığına maruz kalmasını sağlar. Eğitim veri kümesi, 140'tan fazla dildeki içerikleri kapsar.
Kod: Modele kod göstermek, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma ve kodla ilgili soruları anlama becerisini geliştirir.
Matematik: Matematiksel metinlerle eğitim, modelin mantıksal akıl yürütmeyi, sembolik temsili ve matematiksel sorguları ele almayı öğrenmesine yardımcı olur.
Görüntüler: Çok çeşitli görüntüler, modelin görüntü analizi ve görsel veri çıkarma görevlerini gerçekleştirmesini sağlar.

Bu çeşitli veri kaynaklarının birleştirilmesi, çok çeşitli görevleri ve veri biçimlerini işleyebilen güçlü bir çok formatlı modelin eğitilmesi için çok önemlidir.

Veri Ön İşleme

Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:

CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulmasını sağlamak için veri hazırlama sürecinin birden fazla aşamasında titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
Hassas Veri Filtreleme: Gemma önceden eğitilmiş modellerini güvenli ve güvenilir hale getirmek için eğitim kümelerinden belirli kişisel bilgileri ve diğer hassas verileri filtrelemek üzere otomatik teknikler kullanılmıştır.
Ek yöntemler: Politikalarımız doğrultusunda içerik kalitesine ve güvenliğine göre filtreleme.

Etik ve Güvenlik (Ethics and Safety)

Açık modeller kurumsal altyapının merkezine yerleştikçe, köken ve güvenlik büyük önem kazanıyor. Google DeepMind tarafından geliştirilen Gemma 4, tescilli Gemini modellerimizle aynı titiz güvenlik değerlendirmelerinden geçer.

Değerlendirme Yaklaşımı

Gemma 4 modelleri, kurum içi güvenlik ve sorumlu yapay zeka ekipleriyle ortaklaşa geliştirildi. Model güvenliğinin artırılması için hem otomatik hem de uzman değerlendirmeleri yapıldı. Bu değerlendirmeler, Google'ın yapay zeka ilkelerinin yanı sıra üretken yapay zeka modellerimizin aşağıdakiler de dahil olmak üzere zararlı içerik üretmesini önlemeyi amaçlayan güvenlik politikalarıyla uyumludur:

Çocukların cinsel istismarı nitelikli materyaller ve çocuk istismarı ile ilgili içerikler
Tehlikeli içerikler (ör. intiharı teşvik etme veya gerçek dünyada zarara yol açabilecek faaliyetlerle ilgili talimatlar verme)
Müstehcen içerik
Nefret söylemi (ör. koruma altındaki grupların üyelerini insanlıktan çıkarma)
Taciz (ör. insanlara karşı şiddeti teşvik etme)

Değerlendirme Sonuçları

Güvenlik testinin tüm alanlarında, önceki Gemma modellerine kıyasla içerik güvenliğinin tüm kategorilerinde önemli iyileştirmeler gördük. Genel olarak, Gemma 4 modelleri, güvenlik konusunda iyileştirme yaparken gereksiz retleri düşük tutma konusunda Gemma 3 ve 3n modellerinden önemli ölçüde daha iyi performans gösteriyor. Tüm testler, modelin yeteneklerini ve davranışlarını değerlendirmek için güvenlik filtreleri olmadan yapıldı. Hem metinden metne hem de resimden metne görevlerde ve tüm model boyutlarında, model minimum düzeyde politika ihlali üretti ve önceki Gemma modellerinin performansına kıyasla önemli iyileşmeler gösterdi.

Kullanım ve Sınırlamalar

Bu modellerin, kullanıcıların bilmesi gereken belirli sınırlamaları vardır.

Kullanım Amacı

Çok formatlı modeller (görüntü, dil ve/veya ses işleyebilen) çeşitli sektörlerde ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanım alanları listesi kapsamlı değildir. Bu listenin amacı, model eğitiminin ve geliştirilmesinin bir parçası olarak model oluşturucuların dikkate aldığı olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.

İçerik Oluşturma ve İletişim
- Metin Oluşturma: Bu modeller; şiir, senaryo, kod, pazarlama metni ve e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
- Chatbot'lar ve Etkileşimli Yapay Zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri destekleyin.
- Metin Özetleme: Metin korpuslarının, araştırma makalelerinin veya raporların kısa özetlerini oluşturun.
- Görüntü Verisi Çıkarma: Bu modeller, metin iletişimleri için görsel verileri çıkarmak, yorumlamak ve özetlemek amacıyla kullanılabilir.
- Ses İşleme ve Etkileşim: E2B, E4B ve 12B modelleri, ses girişlerini analiz edip yorumlayarak sesle etkileşim ve transkripsiyon yapılmasını sağlar.
Araştırma ve Eğitim
- Doğal Dil İşleme (NLP) ve VLM Araştırması: Bu modeller, araştırmacıların VLM ve NLP teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel oluşturabilir.
- Dil Öğrenme Araçları: Dil öğrenme deneyimlerini destekleyerek dil bilgisi düzeltme veya yazma alıştırması yapma konusunda yardımcı olur.
- Bilgi Keşfi: Araştırmacıların büyük metinleri keşfetmesine yardımcı olmak için özetler oluşturun veya belirli konularla ilgili soruları yanıtlayın.

Sınırlamalar

Eğitim Verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verisindeki önyargılar veya eksikler, modelin yanıtlarında sınırlamalara yol açabilir.
- Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde ele alabileceği konu alanlarını belirler.
Bağlam ve Görev Karmaşıklığı
- Modeller, net istemler ve talimatlarla çerçevelenebilen görevlerde iyi performans gösterir. Açık uçlu veya çok karmaşık görevler zorlayıcı olabilir.
- Bir modelin performansı, sağlanan bağlam miktarıyla etkilenebilir (daha uzun bağlamlar genellikle belirli bir noktaya kadar daha iyi sonuçlar verir).
Dil Belirsizliği ve İnce Anlamlar
- Doğal dil, doğası gereği karmaşıktır. Modeller, ince ayrıntıları, alaycı ifadeleri veya mecazlı dili anlamakta zorlanabilir.
Doğruluk
- Modeller, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya eski olgusal ifadeler üretebilirler.
Common Sense
- Modeller, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu muhakeme yapma yeteneğine sahip olmayabilirler.

Etik hususlar ve riskler

Görüntü-dil modellerinin (VLMs) geliştirilmesi, etik açıdan çeşitli endişelere yol açmaktadır. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:

Önyargı ve Adalet
- Büyük ölçekli, gerçek dünya metin ve resim verileriyle eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu kartta belirtildiği gibi, Gemma 4 modelleri bu önyargıların riskini azaltmak için dikkatli bir inceleme, giriş verilerinin ön işlenmesi ve eğitim sonrası değerlendirmelerden geçmiştir.
Yanlış Bilgilendirme ve Kötüye Kullanım
- VLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelin sorumlu kullanımıyla ilgili yönergeler için Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
Şeffaflık ve Sorumluluk
- Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleriyle ilgili ayrıntılar özetlenmektedir.
- Sorumlu bir şekilde geliştirilen açık model, yapay zeka ekosistemindeki geliştiricilerin ve araştırmacıların VLM teknolojisine erişmesini sağlayarak yenilikleri paylaşma fırsatı sunar.

Belirlenen riskler ve azaltma önlemleri:

Zararlı içerik oluşturma: İçerik güvenliği için mekanizmalar ve kurallar gereklidir. Geliştiricilerin dikkatli olmaları ve belirli ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri uygulamaları önerilir.
Kötü amaçlı kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, VLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcılara, kötüye kullanımı işaretlemeleri için eğitici kaynaklar ve bildirme mekanizmaları sağlanır.
Gizlilik ihlalleri: Modeller, belirli kişisel bilgilerin ve diğer hassas verilerin kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilikle ilgili yönetmeliklere uymaları önerilir.
Önyargıların devam etmesi: Model eğitimi, ince ayar ve diğer kullanım alanlarında sürekli izleme (değerlendirme metrikleri, inceleme uzmanı incelemesi kullanılarak) ve önyargı giderme tekniklerinin araştırılması önerilir.

Avantajlar

Bu model ailesi, yayınlandığı sırada benzer boyutlu modellere kıyasla sorumlu yapay zeka geliştirme için baştan sona tasarlanmış yüksek performanslı açık vizyon-dil modeli uygulamaları sunar.