Gemma model kartı

Model Sayfası: Gemma

Kaynaklar ve Teknik Dokümanlar:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model Bilgisi

Giriş ve çıkışların özet açıklaması ve kısa tanımı.

Açıklama

Gemma, Google'ın Gemini modellerini oluşturmak için kullanılan aynı araştırma ve teknolojiden geliştirilmiş, hafif ve son teknoloji açık modellerden oluşan bir ailedir. Bunlar, metinden metne, yalnızca kod çözücü olan büyük dil modelleridir. Açık ağırlıklar, önceden eğitilmiş varyantlar ve talimatla ayarlanmış varyantlarla İngilizce olarak kullanılabilir. Gemma modelleri; soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için idealdir. Nispeten küçük boyutları, bunları dizüstü bilgisayar, masaüstü bilgisayar veya kendi bulut altyapınız gibi sınırlı kaynaklara sahip ortamlarda dağıtmayı mümkün kılar. Böylece en son yapay zeka modellerine erişimi demokratikleştirir ve herkes için yeniliği teşvik etmeye yardımcı olur.

Girdiler ve çıktılar

  • Giriş: Özetlenecek soru, istem veya doküman gibi metin dizesi.
  • Çıkış: Girişe yanıt olarak oluşturulan İngilizce metin (ör. bir soruya verilen yanıt veya bir dokümanın özeti).

Alıntı

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Model verileri

Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.

Eğitim Veri Kümesi

Bu modeller, toplam 6 trilyon jeton içeren çok çeşitli kaynaklardan oluşan bir metin veri kümesiyle eğitildi. Temel bileşenler şunlardır:

  • Web dokümanları: Çeşitli web metinlerinden oluşan bir koleksiyon, modelin çeşitli dil üslupları, konular ve kelime dağarcığına maruz kalmasını sağlar. İçeriklerin büyük kısmı İngilizcedir.
  • Kod: Modeli koda maruz bırakmak, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma veya kodla ilgili soruları anlama becerisini geliştirir.
  • Matematik: Matematiksel metinlerle eğitim, modelin mantıksal akıl yürütmeyi, sembolik temsili öğrenmesine ve matematiksel sorguları ele almasına yardımcı olur.

Bu çeşitli veri kaynaklarının bir araya getirilmesi, çok çeşitli farklı görevleri ve metin biçimlerini işleyebilecek güçlü bir dil modeli eğitmek için çok önemlidir.

Veri Ön İşleme

Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:

  • CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulması için veri hazırlama sürecindeki birden fazla aşamada titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
  • Hassas Veri Filtreleme: Gemma önceden eğitilmiş modellerini güvenli ve güvenilir hale getirmek için, belirli kişisel bilgileri ve diğer hassas verileri eğitim veri kümelerinden filtrelemek amacıyla otomatik teknikler kullanıldı.
  • Ek yöntemler: Politikalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme

Uygulama Bilgileri

Modelin iç yapısıyla ilgili ayrıntılar.

Donanım

Gemma, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitildi.

Büyük dil modellerini eğitmek için önemli miktarda işlem gücü gerekir. Özellikle makine öğrenimindeki yaygın matris işlemleri için tasarlanan TPU'lar bu alanda çeşitli avantajlar sunar:

  • Performans: TPU'lar, özellikle LLM'leri eğitmeyle ilgili devasa hesaplamaları gerçekleştirmek için tasarlanmıştır. GPU'lar, CPU'lara kıyasla eğitimi önemli ölçüde hızlandırabilir.
  • Bellek: TPU'lar genellikle büyük miktarlarda yüksek bant genişliğine sahip bellekle birlikte gelir. Bu sayede eğitim sırasında büyük modeller ve toplu boyutlar kullanılabilir. Bu, model kalitesinin iyileşmesine yol açabilir.
  • Ölçeklenebilirlik: TPU kapsülleri (büyük TPU kümeleri), büyük temel modellerin artan karmaşıklığını yönetmek için ölçeklenebilir bir çözüm sağlar. Daha hızlı ve daha verimli işleme için eğitimi birden fazla TPU cihazına dağıtabilirsiniz.
  • Uygun maliyet: TPU'lar, birçok senaryoda büyük modelleri eğitmek için CPU tabanlı altyapıya kıyasla daha uygun maliyetli bir çözüm sunabilir. Özellikle de daha hızlı eğitim sayesinde zamandan ve kaynaklardan tasarruf edildiği düşünüldüğünde bu durum geçerlidir.
  • Bu avantajlar, Google'ın sürdürülebilir bir şekilde faaliyet göstermeye yönelik taahhütleriyle uyumludur.

Yazılım

Eğitim, JAX ve ML Pathways kullanılarak gerçekleştirildi.

JAX, araştırmacıların büyük modelleri daha hızlı ve verimli bir şekilde eğitmek için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına olanak tanır.

ML Pathways, Google'ın birden fazla görevde genelleme yapabilen yapay zeka sistemleri oluşturma konusundaki en son çalışmasıdır. Bu, özellikle bu gibi büyük dil modelleri de dahil olmak üzere temel modeller için uygundur.

JAX ve ML Pathways birlikte, Gemini model ailesiyle ilgili makalede açıklandığı şekilde kullanılır: "JAX ve Pathways'in "tek denetleyici" programlama modeli, tek bir Python sürecinin tüm eğitim çalıştırmasını koordine etmesine olanak tanıyarak geliştirme iş akışını önemli ölçüde basitleştirir."

Değerlendirme

Model değerlendirme metrikleri ve sonuçları.

Karşılaştırma Sonuçları

Bu modeller, metin oluşturmanın farklı yönlerini kapsayacak şekilde büyük bir farklı veri kümesi ve metrik koleksiyonuyla değerlendirildi:

Karşılaştırma Metrik Gemma PT 2B Gemma PT 7B
MMLU 5 kare, en iyi 1 42,3 64,3
HellaSwag 0 atış 71,4 81,2
PIQA 0 atış 77,3 81,2
SocialIQA 0 atış 49,7 51,8
BoolQ 0 atış 69,4 83,2
WinoGrande kısmi puan 65,4 72,3
CommonsenseQA 7 atış 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42.1 53,2
TriviaQA 5 atış 53,2 63,4
Doğal Sorular 5 atış 12,5 %
HumanEval pass@1 22,0 32,3
MBPP 3 çekimli 29,2 44,4
GSM8K maj@1 17,7 46,4
MATH 4 çekimli 11,8 24,3
AGIEval 24,2 41,7
BIG-Bench 35,2 55.1
Ortalama 44,9 56,4

Etik ve Güvenlik

Etik ve güvenlik değerlendirmesi yaklaşımı ve sonuçları.

Değerlendirme Yaklaşımı

Değerlendirme yöntemlerimiz arasında yapılandırılmış değerlendirmeler ve ilgili içerik politikalarının şirket içinde yapılan testleri yer alır. Kırmızı takım çalışması, her biri farklı hedeflere ve insan değerlendirme metriklerini kullanan çeşitli ekipler tarafından yürütüldü. Bu modeller, etik ve güvenlikle ilgili çeşitli kategoriler açısından değerlendirildi. Örneğin:

  • Metin-metin içerik güvenliği: Çocuğun cinsel istismarı ve istismarı, taciz, şiddet ve kanlı görüntüler, nefret söylemi gibi güvenlik politikalarını kapsayan istemler için gerçek kişiler tarafından değerlendirme.
  • Metinden metne temsili zararlar: WinoBias ve BBQ veri kümesi gibi alakalı akademik veri kümeleriyle karşılaştırma.
  • Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski dahil olmak üzere eğitim verilerinin ezberlenmesini otomatik olarak değerlendirme.
  • Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (KBRN) riskler gibi "tehlikeli özellikler" için testler.

Değerlendirme Sonuçları

Etik ve güvenlik değerlendirmelerinin sonuçları, çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme, geniş ölçekli zararlar gibi kategorilerde dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir. Güçlü dahili değerlendirmelerin yanı sıra BBQ, BOLD, Winogender, Winobias, RealToxicity ve TruthfulQA gibi iyi bilinen güvenlik karşılaştırmalarının sonuçları da burada gösterilir.

Gemma 1.0

Karşılaştırma Metrik Gemma 1.0 BT 2B Gemma 1.0 IT 7B
RealToxicity ortalama 6,86 7,90
BOLD 45,57 49,08
CrowS-Pairs top-1 45,82 51,33
BBQ Ambig 1 atış, en iyi 1 62,58 92,54
BBQ Disambig top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxigen 29,77 39,59

Gemma 1.1

Karşılaştırma Metrik Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity ortalama 7,03 8.04
BOLD 47,76
CrowS-Pairs top-1 45,89 49,67
BBQ Ambig 1 atış, en iyi 1 58,97 86,06
BBQ Disambig top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigen 29,64 38,75

Kullanım ve Sınırlılıklar

Bu modellerin kullanıcıların bilmesi gereken belirli sınırlamaları vardır.

Kullanım Amacı

Açık büyük dil modelleri (LLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır.

  • İçerik Oluşturma ve İletişim
    • Metin Oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni ve e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
    • Chatbot'lar ve Etkileşimli Yapay Zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri güçlendirin.
    • Metin Özetleme: Metin kümesi, araştırma makaleleri veya raporların kısa özetlerini oluşturun.
  • Araştırma ve Eğitim
    • Doğal Dil İşleme (NLP) Araştırması: Bu modeller, araştırmacıların NLP tekniklerini denemeleri, algoritmalar geliştirmeleri ve alanın ilerlemesine katkıda bulunmaları için temel oluşturabilir.
    • Dil Öğrenim Araçları: Dil bilgisi düzeltmelerine yardımcı olarak veya yazma alıştırması sunarak etkileşimli dil öğrenme deneyimlerini destekler.
    • Bilgi Keşfi: Özet oluşturarak veya belirli konularla ilgili soruları yanıtlayarak araştırmacıların büyük metin gruplarını keşfetmesine yardımcı olun.

Sınırlamalar

  • Eğitim Verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, modelin özelliklerini önemli ölçüde etkiler. Eğitim verilerindeki ön yargılar veya boşluklar, modelin yanıtlarında sınırlamalara neden olabilir.
    • Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde işleyebileceği konu alanlarını belirler.
  • Bağlam ve Görev Karmaşıklığı
    • LLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir (daha uzun bağlam genellikle belirli bir noktaya kadar daha iyi sonuçlara yol açar).
  • Dildeki belirsizlik ve nüanslar
    • Doğal dil doğası gereği karmaşıktır. LLM'ler ince nüansları, iğneleyici ifadeleri veya mecazi ifadeleri anlamakta zorluk çekebilir.
  • Doğruluk
    • LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya güncel olmayan gerçek beyanları oluşturabilirler.
  • Common Sense
    • LLM'ler, dildeki istatistiksel kalıplardan yararlanır. Belirli durumlarda sağduyulu düşünme yeteneğinden yoksun olabilirler.

Etik Konular ve Riskler

Büyük dil modellerinin (LLM'ler) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:

  • Önyargı ve Adalet
    • Gerçek dünyadan büyük ölçekli metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel ön yargıları yansıtabilir. Bu modeller dikkatli bir incelemeden geçirildi, giriş verileri ön işleme alındı ve bu kartta açıklanan ve raporlanan sonraki değerlendirmeler yapıldı.
  • Yanlış bilgilendirme ve kötüye kullanım
    • LLM'ler, yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
  • Şeffaflık ve Sorumluluk:
    • Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
    • Sorumluluk bilinciyle geliştirilmiş açık bir model, LLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.

Tespit edilen riskler ve azaltma önlemleri:

  • Eğilimlerin devamı: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişi incelemesi kullanılarak) ve önyargı giderme tekniklerinin keşfedilmesi önerilir.
  • Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini almaları önerilir.
  • Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarına karşı önlem alınmasına yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemeleri için eğitici kaynaklar ve bildirim mekanizmaları sağlanır. Gemma modellerinin yasaklanmış kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.
  • Gizlilik ihlalleri: Modeller, PII'nin (kimliği tanımlayabilecek bilgiler) kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.

Avantajları

Bu model ailesi, kullanıma sunulduğunda benzer büyüklükteki modellere kıyasla sorumlu yapay zeka geliştirme için sıfırdan tasarlanmış yüksek performanslı açık büyük dil modeli uygulamaları sunar.

Bu dokümanda açıklanan karşılaştırma değerlendirme metriklerini kullanarak bu modellerin, benzer boyutta diğer açık model alternatiflerine kıyasla üstün performans sağladığı gösterilmiştir.