
Hugging Face |
GitHub |
Lansman Blogu |
Belgeler
Lisans: Apache 2.0 | Yazarlar: Google DeepMind
Gemma, Google DeepMind tarafından geliştirilen açık modellerin oluşturduğu model ailesidir. Gemma 4 modelleri çok formatlıdır. Metin ve görüntü girişini işler (E2B, E4B ve 12B modellerinde ses desteklenir) ve metin çıkışı oluşturur. Bu sürümde, hem önceden eğitilmiş hem de talimatlara göre ayarlanmış varyantlarda açık ağırlıklı modeller bulunur. Gemma 4, 256 bin jetona kadar bağlam penceresine sahiptir ve 140'tan fazla dilde çok dilli desteği korur.
Hem yoğun hem de uzman karışımı (MoE) mimarilerine sahip olan Gemma 4; metin oluşturma, kodlama ve akıl yürütme gibi görevler için uygundur. Modeller beş farklı boyutta sunulur: E2B, E4B, 12B, 26B A4B ve 31B. Farklı boyutları sayesinde üst düzey telefonlardan dizüstü bilgisayarlara ve sunuculara kadar çeşitli ortamlarda kullanılabilir. Böylece, son teknoloji yapay zekaya erişim herkes için mümkün olur.
Gemma 4, temel yetenek ve mimari geliştirmeler sunar:
Gerekçe: Ailedeki tüm modeller, yapılandırılabilir düşünme modlarıyla son derece yetenekli akıl yürütücüler olarak tasarlanmıştır.
Genişletilmiş Çoklu Formatlar: Değişken en-boy oranı ve çözünürlük desteğiyle (tüm modeller) metin, resim, video ve ses işler (E2B, E4B ve 12B modellerinde yerel olarak bulunur).
Çeşitli ve Verimli Mimariler: Ölçeklenebilir dağıtım için farklı boyutlarda Dense ve Mixture-of-Experts (MoE) varyantları sunar.
Cihaz üzerinde kullanım için optimize edilmiştir: Daha küçük modeller, dizüstü bilgisayarlarda ve mobil cihazlarda verimli yerel yürütme için özel olarak tasarlanmıştır.
Daha büyük bağlam penceresi: Küçük modellerde 128 bin parçalık bağlam penceresi, orta modellerde ise 256 bin parçalık bağlam penceresi bulunur.
Gelişmiş Kodlama ve Temsilci Özellikleri: Yerel işlev çağrısı desteğinin yanı sıra kodlama karşılaştırmalarında önemli iyileştirmeler sağlar ve yüksek kapasiteli otonom temsilcilere güç verir.
Yerel Sistem İstemi Desteği: Gemma 4,
systemrolü için yerel destek sunarak daha yapılandırılmış ve kontrol edilebilir görüşmeler yapılmasını sağlar.
Modellere Genel Bakış
Gemma 4 modelleri, her boyutta en üst düzeyde performans sunacak şekilde tasarlanmıştır. Mobil ve uç cihazlardan (E2B, E4B) tüketici GPU'larına ve iş istasyonlarına (12B, 26B A4B, 31B) kadar çeşitli dağıtım senaryolarını hedefler. Bu modeller; akıl yürütme, ajan tabanlı iş akışları, kodlama ve çok formatlı anlama için uygundur.
Modeller, yerel kayan pencere dikkatini tam küresel dikkatle iç içe geçiren hibrit bir dikkat mekanizması kullanır ve son katmanın her zaman küresel olmasını sağlar. Bu hibrit tasarım, karmaşık ve uzun bağlamlı görevler için gereken derin farkındalıktan ödün vermeden hafif bir modelin işlem hızını ve düşük bellek kullanımını sağlar. Uzun bağlamlar için belleği optimize etmek amacıyla küresel katmanlar, birleştirilmiş anahtarlar ve değerler içerir ve orantılı RoPE (p-RoPE) uygular.
Yoğun Modeller
| Mülk | E2B | E4B | 12B Unified | 31B Dense |
|---|---|---|---|---|
| Toplam Parametre Sayısı | 2,3 milyar etkili (yerleştirmelerle birlikte 5,1 milyar) | 4,5 milyar etkili (gömme işlemleriyle 8 milyar) | 11,95B | 30,7 milyar |
| Katmanlar | 35 | 42 | 48 | 60 |
| Kayar Pencere | 512 jeton | 512 jeton | 1.024 jeton | 1.024 jeton |
| Bağlam Uzunluğu | 128 bin parça | 128 bin parça | 256 bin parça | 256 bin parça |
| Kelime Hazinesi Boyutu (Vocabulary Size) | 262 B | 262 B | 262 B | 262 B |
| Desteklenen Modlar | Metin, Resim, Ses | Metin, Resim, Ses | Metin, Resim, Ses | Metin, Resim |
| Vision Encoder Parameters (Görsel Kodlayıcı Parametreleri) | ~150 milyon | ~150 milyon | - | ~550 Mn |
| Ses Kodlayıcı Parametreleri | ~300 Mn | ~300 Mn | - | Ses yok |
E2B ve E4B'deki "E", "etkili" parametreleri ifade eder. Daha küçük modeller, cihaz üzerinde dağıtımlarda parametre verimliliğini en üst düzeye çıkarmak için Katman Başına Yerleştirme (PLE) özelliğini kullanır. PLE, modele daha fazla katman veya parametre eklemek yerine her kod çözücü katmanına her jeton için kendi küçük yerleştirmesini verir. Bu yerleştirme tabloları büyüktür ancak yalnızca hızlı aramalar için kullanılır. Bu nedenle, etkin parametre sayısı toplamdan çok daha küçüktür.
Gemma 4 12B Unified'daki "Unified" (Birleşik), kodlayıcı içermeyen mimarisini ifade eder. Diğer Gemma 4 modelleri, çok formatlı verileri LLM'ye iletmeden önce işlemek için özel kodlayıcılar kullanır. Gemma 4 12B, bu kodlayıcıları tamamen ortadan kaldırarak ham görüntü yamalarını ve ses dalga biçimlerini doğrudan LLM'nin yerleştirme alanına hafif doğrusal katmanlar aracılığıyla yansıtır. Bu birleştirilmiş yaklaşım, tüm modalitelerin doğrudan tek bir yalnızca kod çözücü transformere akması anlamına gelir. Bu sayede çok formatlı gecikme azaltılır ve modelin tamamının tek geçişte ince ayar yapılması sağlanır.
Uzman Karışımı (MoE) Modeli
| Mülk | 26B A4B MoE |
|---|---|
| Toplam Parametre Sayısı | 25,2 Mr |
| Etkin Parametreler | 3,8 milyar |
| Katmanlar | 30 |
| Kayar Pencere | 1.024 jeton |
| Bağlam Uzunluğu | 256 bin parça |
| Kelime Hazinesi Boyutu (Vocabulary Size) | 262 B |
| Uzman Sayısı | 8 etkin / 128 toplam ve 1 paylaşılan |
| Desteklenen Modlar | Metin, Resim |
| Vision Encoder Parameters (Görsel Kodlayıcı Parametreleri) | ~550 Mn |
26B A4B'deki "A", modelin içerdiği toplam parametre sayısının aksine "etkin parametreler" anlamına gelir. Mixture-of-Experts modeli, çıkarım sırasında yalnızca 4B parametre alt kümesini etkinleştirerek toplam 26B parametreye kıyasla çok daha hızlı çalışır. Bu nedenle, 4B parametreli bir model kadar hızlı çalıştığı için yoğun 31B modele kıyasla hızlı çıkarım için mükemmel bir seçimdir.
Karşılaştırma Sonuçları
Bu modeller, metin oluşturmanın farklı yönlerini kapsamak için farklı veri kümeleri ve metriklerden oluşan büyük bir koleksiyonla değerlendirildi. Tabloda işaretlenen değerlendirme sonuçları, talimatlara göre ayarlanmış modeller içindir.
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 12B Unified | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (no think) | |
|---|---|---|---|---|---|---|
| MMLU Pro | %85,2 | %82,6 | %77,2 | %69,4 | %60,0 | %67,6 |
| AIME 2026 no tools | %89,2 | %88,3 | %77,5 | %42,5 | %37,5 | %20,8 |
| LiveCodeBench v6 | %80,0 | %77,1 | %72,0 | %52,0 | %44,0 | %29,1 |
| Codeforces ELO | 2150 | 1718 | 1659 | 940 | 633 | 110 |
| GPQA Diamond | %84,3 | %82,3 | %78,8 | %58,6 | %43,4 | %42,4 |
| Tau2 (3 üzerinden ortalama) | %76,9 | %68,2 | %69,0 | %42,2 | %24,5 | %16,2 |
| HLE no tools | %19,5 | %8,7 | %5,2 | - | - | - |
| Arama ile HLE | %26,5 | %17,2 | - | - | - | - |
| BigBench Extra Hard | %74,4 | %64,8 | %53,0 | %33,1 | %21,9 | %19,3 |
| MMMLU | %88,4 | %86,3 | %83,4 | %76,6 | %67,4 | %70,7 |
| Görme | ||||||
| MMMU Pro | %76,9 | %73,8 | %69,1 | %52,6 | %44,2 | %49,7 |
| OmniDocBench 1.5 (ortalama düzenleme mesafesi, düşük değer daha iyidir) | 0,131 | 0,149 | 0,164 | 0,181 | 0,290 | 0,365 |
| MATH-Vision | %85,6 | %82,4 | %79,7 | %59,5 | %52,4 | %46,0 |
| MedXPertQA MM | %61,3 | %58,1 | %48,7 | %28,7 | %23,5 | - |
| Ses | ||||||
| CoVoST | - | - | 38.5 | 35,54 | 33,47 | - |
| FLEURS (düşük değer daha iyidir) | - | - | 0,069 | 0,08 | 0,09 | - |
| Uzun Bağlam (Long Context) | ||||||
| MRCR v2 8 iğne 128k (ortalama) | %66,4 | %44,1 | %43,4 | %25,4 | %19,1 | %13,5 |
Temel Özellikler
Gemma 4 modelleri; metin, görüntü ve sesle ilgili çok çeşitli görevleri yerine getirebilir. Temel özellikler:
- Düşünme: Modelin yanıt vermeden önce adım adım düşünmesini sağlayan yerleşik akıl yürütme modu.
- Uzun Bağlam: 128 bin parçaya (E2B/E4B) ve 256 bin parçaya (12B/26B A4B/31B) kadar bağlam pencereleri.
- Görüntü yorumlama: Nesne algılama, doküman/PDF ayrıştırma, ekran ve kullanıcı arayüzü yorumlama, grafik yorumlama, OCR (çok dilli dahil), el yazısı tanıma ve işaretleme. Resimler, değişken en boy oranlarında ve çözünürlüklerde işlenebilir.
- Video Anlama: Kare dizilerini işleyerek videoyu analiz edin.
- Aralıklı Çok Formatlı Giriş: Tek bir istemde metin ve görüntüleri istediğiniz sırada serbestçe karıştırın.
- İşlev Çağırma: Yapılandırılmış araç kullanımına yönelik yerel destek sunarak bağımsız iş akışlarını etkinleştirir.
- Kodlama: Kod oluşturma, tamamlama ve düzeltme.
- Çok dilli: 35'ten fazla dil için kullanıma hazır destek. 140'tan fazla dilde önceden eğitilmiştir.
- Ses (yalnızca E2B, E4B ve 12B Unified) – Otomatik konuşma tanıma (ASR) ve konuşmayı çevrilmiş metne dönüştürme.
En iyi uygulamalar
En iyi performans için aşağıdaki yapılandırmaları ve en iyi uygulamaları kullanın:
1. Örnekleme Parametreleri
Tüm kullanım alanlarında aşağıdaki standartlaştırılmış örnekleme yapılandırmasını kullanın:
temperature=1.0top_p=0.95top_k=64
2. Düşünme Modu Yapılandırması
Modeller, Gemma 3'e kıyasla standart system, assistant ve user rollerini kullanır. Düşünme sürecini düzgün bir şekilde yönetmek için aşağıdaki kontrol jetonlarını kullanın:
- Düşünme Tetikleyicisi: Düşünme, sistem isteminin başına
<|think|>simgesi eklenerek etkinleştirilir. Düşünme özelliğini devre dışı bırakmak için jetonu kaldırın. - Standart Üretim: Düşünme etkinleştirildiğinde model, bu yapıyı kullanarak nihai yanıtın ardından kendi içindeki muhakeme sürecini gösterir:
<|channel>thought\n[İç muhakeme]<channel|> - Düşünme Davranışı Devre Dışı Bırakıldığında: E2B ve E4B varyantları hariç tüm modellerde düşünme devre dışı bırakılırsa model yine de etiket oluşturur ancak düşünce bloğu boş olur:
<|channel>thought\n<channel|>[Nihai yanıt]
Transformers ve llama.cpp gibi birçok kitaplığın, sohbet şablonunun karmaşıklıklarını sizin için ele aldığını unutmayın.
3. Çok Aşamalı Etkileşimler
- Geçmişte Düşünme İçeriği Yok: Çok aşamalı etkileşimlerde, geçmiş model çıktısı yalnızca son yanıtı içermelidir. Önceki model dönüşlerindeki düşünceler, sonraki kullanıcı dönüşü başlamadan önce eklenmemelidir.
4. Yöntem sırası
Çok formatlı girişlerle optimum performans için şunları yerleştirin:
- İsteminizdeki metinden önceki resim içeriği.
- İsteminizdeki metinden sonraki sesli içerik
5. Değişken görüntü çözünürlüğü
Gemma 4, değişken en-boy oranlarının yanı sıra, bir görseli temsil etmek için kaç jetonun kullanıldığını kontrol eden yapılandırılabilir bir görsel jeton bütçesi aracılığıyla değişken görüntü çözünürlüğünü de destekler. Daha yüksek bir jeton bütçesi, ek hesaplama maliyetiyle daha fazla görsel ayrıntıyı korurken daha düşük bir bütçe, ayrıntılı anlayış gerektirmeyen görevler için daha hızlı çıkarım sağlar.
- Desteklenen jeton bütçeleri: 70, 140, 280, 560 ve 1.120.
- Daha hızlı çıkarım ve çok sayıda karenin işlenmesinin ayrıntılı bilgiden daha önemli olduğu sınıflandırma, altyazı ekleme veya video anlama için daha düşük bütçeler kullanın.
- OCR, doküman ayrıştırma veya küçük metinleri okuma gibi görevler için daha yüksek bütçeler kullanın.
6. Ses
Ses işleme için aşağıdaki istem yapılarını kullanın:
- Sesli Konuşma Tanıma (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- Otomatik Konuşma Çevirisi (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. Ses ve Video Uzunluğu
Tüm modeller görüntü girişlerini destekler ve videoları kare olarak işleyebilir. E2B, E4B ve 12B modelleri ise ses girişlerini de destekler. Ses, maksimum 30 saniye uzunluğunda olabilir. Görüntülerin saniyede bir kare hızında işlendiği varsayıldığında video en fazla 60 saniye uzunluğunda olabilir.
Model Verileri
Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.
Eğitim Veri Kümesi
Ön eğitim veri setimiz, Ocak 2025'te sona eren ve web belgeleri, kod, resim, ses gibi çok çeşitli alan ve biçimleri kapsayan büyük ölçekli ve çeşitli bir veri koleksiyonudur. Temel bileşenler şunlardır:
- Web Belgeleri: Çeşitli web metinleri, modelin çok çeşitli dil stillerine, konulara ve kelime dağarcığına maruz kalmasını sağlar. Eğitim veri kümesi, 140'tan fazla dildeki içerikleri kapsar.
- Kod: Modele kod göstermek, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma ve kodla ilgili soruları anlama becerisini geliştirir.
- Matematik: Matematiksel metinlerle eğitim, modelin mantıksal akıl yürütmeyi, sembolik temsili öğrenmesine ve matematiksel sorguları yanıtlamasına yardımcı olur.
- Görüntüler: Çok çeşitli görüntüler, modelin görüntü analizi ve görsel veri çıkarma görevlerini gerçekleştirmesini sağlar.
Bu çeşitli veri kaynaklarının birleştirilmesi, çok çeşitli görevleri ve veri biçimlerini işleyebilen güçlü bir çok formatlı modelin eğitilmesi için çok önemlidir.
Veri Ön İşleme
Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:
- CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulmasını sağlamak için veri hazırlama sürecinin birden fazla aşamasında titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
- Hassas Veri Filtreleme: Gemma önceden eğitilmiş modellerini güvenli ve güvenilir hale getirmek için eğitim kümelerinden belirli kişisel bilgileri ve diğer hassas verileri filtrelemek üzere otomatik teknikler kullanılmıştır.
- Ek yöntemler: Politikalarımız doğrultusunda içerik kalitesine ve güvenliğine göre filtreleme.
Etik ve Güvenlik (Ethics and Safety)
Açık modeller kurumsal altyapının merkezine yerleştikçe, köken ve güvenlik büyük önem kazanıyor. Google DeepMind tarafından geliştirilen Gemma 4, tescilli Gemini modellerimizle aynı titiz güvenlik değerlendirmelerinden geçer.
Değerlendirme Yaklaşımı
Gemma 4 modelleri, şirket içindeki güvenlik ve sorumlu yapay zeka ekipleriyle iş ortaklığı içinde geliştirilmiştir. Model güvenliğini artırmak için çeşitli otomatik ve insan değerlendirmeleri yapılmıştır. Bu değerlendirmeler, Google'ın yapay zeka ilkelerinin yanı sıra üretken yapay zeka modellerimizin aşağıdakiler de dahil olmak üzere zararlı içerik oluşturmasını önlemeyi amaçlayan güvenlik politikalarıyla uyumludur:
- Çocukların cinsel istismarı nitelikli materyal ve çocuk istismarı ile ilgili içerikler
- Tehlikeli içerikler (ör. intiharı teşvik etme veya gerçek dünyada zarara yol açabilecek faaliyetlerle ilgili talimatlar verme)
- Müstehcen içerik
- Nefret söylemi (ör. koruma altındaki grupların üyelerini insanlıktan çıkarma)
- Taciz (ör. insanlara karşı şiddeti teşvik etme)
Değerlendirme Sonuçları
Güvenlik testinin tüm alanlarında, önceki Gemma modellerine kıyasla içerik güvenliğinin tüm kategorilerinde önemli iyileştirmeler gördük. Genel olarak, Gemma 4 modelleri, güvenlik konusunda iyileştirme yaparken gereksiz retleri düşük tutarak Gemma 3 ve 3n modellerinden önemli ölçüde daha iyi performans gösteriyor. Tüm testler, modelin yeteneklerini ve davranışlarını değerlendirmek için güvenlik filtreleri olmadan yapıldı. Hem metinden metne hem de resimden metne görevlerde ve tüm model boyutlarında model, minimum düzeyde politika ihlali üretti ve önceki Gemma modellerinin performansına kıyasla önemli ölçüde iyileşme gösterdi.
Kullanım ve Sınırlamalar
Bu modellerin, kullanıcıların bilmesi gereken belirli sınırlamaları vardır.
Kullanım Amacı
Çok formatlı modeller (görüntü, dil ve/veya ses işleyebilir) çeşitli sektörlerde ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanım alanları listesi kapsamlı değildir. Bu listenin amacı, model geliştiricilerin model eğitimi ve geliştirme sürecinde dikkate aldığı olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır.
- İçerik Oluşturma ve İletişim
- Metin Oluşturma: Bu modeller; şiir, senaryo, kod, pazarlama metni ve e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
- Chatbot'lar ve Etkileşimli Yapay Zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri destekleyin.
- Metin Özetleme: Metin korpusu, araştırma makaleleri veya raporların kısa özetlerini oluşturun.
- Görüntü Verisi Ayıklama: Bu modeller, metin iletişimleri için görsel verileri ayıklamak, yorumlamak ve özetlemek amacıyla kullanılabilir.
- Ses İşleme ve Etkileşim: E2B, E4B ve 12B modelleri, ses girişlerini analiz edip yorumlayarak sesle etkileşim ve transkripsiyon yapılmasını sağlar.
- Araştırma ve Eğitim
- Doğal Dil İşleme (NLP) ve VLM Araştırması: Bu modeller, araştırmacıların VLM ve NLP teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel oluşturabilir.
- Dil Öğrenme Araçları: Dil öğrenme deneyimlerini destekleyerek dil bilgisi düzeltme veya yazma alıştırması yapma konusunda yardımcı olur.
- Bilgi Keşfi: Araştırmacıların büyük metinleri keşfetmesine yardımcı olmak için özetler oluşturun veya belirli konularla ilgili soruları yanıtlayın.
Sınırlamalar
- Eğitim Verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verisindeki önyargılar veya eksikler, modelin yanıtlarında sınırlamalara yol açabilir.
- Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde ele alabileceği konu alanlarını belirler.
- Bağlam ve Görev Karmaşıklığı
- Modeller, net istemler ve talimatlarla çerçevelenebilen görevlerde iyi performans gösterir. Açık uçlu veya çok karmaşık görevler zorlayıcı olabilir.
- Bir modelin performansı, sağlanan bağlam miktarıyla etkilenebilir (daha uzun bağlamlar genellikle belirli bir noktaya kadar daha iyi sonuçlar verir).
- Dil Belirsizliği ve İnce Anlamlar
- Doğal dil, doğası gereği karmaşıktır. Modeller, ince ayrıntıları, alaycı ifadeleri veya mecazlı dili anlamakta zorlanabilir.
- Doğruluk
- Modeller, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar üretir ancak bilgi tabanı değildir. Bu nedenle, yanlış veya güncel olmayan olgusal ifadeler üretebilirler.
- Common Sense
- Modeller, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu muhakeme yapma yeteneğine sahip olmayabilirler.
Etik hususlar ve riskler
Görüntü-dil modellerinin (VLMs) geliştirilmesi, etik açıdan çeşitli endişelere yol açmaktadır. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:
- Önyargı ve Adalet
- Büyük ölçekli, gerçek dünya metin ve resim verileriyle eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu kartta belirtildiği gibi, Gemma 4 modelleri bu önyargıların riskini azaltmak için dikkatli bir inceleme, giriş verilerinin ön işlenmesi ve eğitim sonrası değerlendirmelerden geçmiştir.
- Yanlış Bilgilendirme ve Kötüye Kullanım
- VLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelin sorumlu kullanımıyla ilgili yönergeler için Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
- Şeffaflık ve Sorumluluk
- Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleriyle ilgili ayrıntılar özetlenmektedir.
- Sorumlu bir şekilde geliştirilen açık model, yapay zeka ekosistemindeki geliştiricilerin ve araştırmacıların VLM teknolojisine erişmesini sağlayarak yenilikleri paylaşma fırsatı sunar.
Belirlenen riskler ve azaltma önlemleri:
- Zararlı içerik üretimi: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin dikkatli olması ve kendi ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri uygulaması önerilir.
- Kötü amaçlı kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, VLMs'nin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcılara, kötüye kullanımı işaretlemeleri için eğitici kaynaklar ve bildirme mekanizmaları sağlanır.
- Gizlilik ihlalleri: Modeller, belirli kişisel bilgilerin ve diğer hassas verilerin kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilikle ilgili yönetmeliklere uymaları önerilir.
- Önyargıların devam etmesi: Model eğitimi, ince ayar ve diğer kullanım alanlarında sürekli izleme (değerlendirme metrikleri, inceleme uzmanı incelemesi kullanılarak) ve önyargı giderme tekniklerinin araştırılması önerilir.
Avantajlar
Bu model ailesi, yayınlandığı sırada benzer boyutlu modellere kıyasla sorumlu yapay zeka geliştirme için baştan sona tasarlanmış yüksek performanslı açık vizyon-dil modeli uygulamaları sunar.