Gemma Model Kartı

Model Sayfası: Gemma

Kaynaklar ve Teknik Belgeler:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model Bilgisi

Özet açıklaması ve giriş ile çıkışların kısa tanımları.

Açıklama

Gemma, Google'ın Gemini modellerini oluştururken kullanılan araştırma ve teknolojiyle oluşturulan hafif, son teknoloji ürünü açık modellerden oluşan bir ailedir. İngilizce olarak sunulan, açık ağırlıklara, önceden eğitilmiş varyantlara ve talimata göre ayarlanmış varyantları olan metinden metne, yalnızca kod çözücüye dayalı büyük dil modelleridir. Gemma modelleri; soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için uygundur. Nispeten küçük boyutları, dizüstü bilgisayar, masaüstü veya kendi bulut altyapınız gibi sınırlı kaynaklara sahip ortamlarda dağıtılmasını mümkün kılar. Böylece son teknoloji AI modellerine erişimi demokratikleştirir ve herkes için yeniliği teşvik eder.

Girişler ve çıkışlar

  • Girdi: Metin dizesi (ör. soru, istem veya özetlenecek bir belge).
  • Çıkış: Bir soruya yanıt veya bir belgenin özeti gibi girişe yanıt olarak İngilizce dilinde metin oluşturulur.

Alıntı

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Model Verileri

Model eğitimi ve verilerin nasıl işlendiği için kullanılan veriler.

Eğitim Veri Kümesi

Bu modeller, çok çeşitli kaynaklar içeren ve toplam 6 trilyon jeton içeren metin verilerinden oluşan bir veri kümesi kullanılarak eğitildi. Temel bileşenler şunlardır:

  • Web Dokümanları: Çeşitli web metinleri koleksiyonu, modelin çok çeşitli dilbilimsel stillere, konulara ve terimlere açık olmasını sağlar. Ağırlıklı olarak İngilizce içerikler.
  • Kod: Modelin koda maruz bırakılması, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma veya kodla ilgili soruları anlama becerisini geliştirir.
  • Matematik: Matematiksel metin eğitimi, modelin mantıksal akıl yürütme ile sembolik temsili öğrenmesine ve matematiksel sorguları ele almasına yardımcı olur.

Bu çeşitli veri kaynaklarının kombinasyonu, çok çeşitli farklı görevleri ve metin biçimlerini yönetebilen güçlü bir dil modeli eğitmek için büyük önem taşır.

Verileri Ön İşleme

Eğitim verilerine uygulanan önemli veri temizleme ve filtreleme yöntemleri aşağıda verilmiştir:

  • CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulmasını sağlamak için veri hazırlama sürecinde sıkı CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtrelemesi uygulandı.
  • Hassas Veri Filtreleme: Gemma'nın önceden eğitilmiş modelleri güvenli ve güvenilir hale getirmenin bir parçası olarak, belirli kişisel bilgileri ve diğer hassas verileri eğitim kümelerinden filtrelemek için otomatik teknikler kullanıldı.
  • Ek yöntemler: Politikalarımız doğrultusunda içerik kalitesi ve güvenliğine göre filtreleme.

Uygulama Bilgileri

Modelin dahili bileşenleri hakkında ayrıntılar.

Nalbur

Gemma, yeni nesil Tensör İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitildi.

Büyük dil modellerini eğitmek önemli ölçüde işlem gücü gerektirir. Makine öğreniminde yaygın olarak kullanılan matris işlemleri için özel olarak tasarlanan TPU'lar, bu alanda çeşitli avantajlar sunar:

  • Performans: TPU'lar, LLM'lerin eğitiminde kullanılan devasa hesaplamaları yönetmek için özel olarak tasarlanmıştır. CPU'lara kıyasla eğitimi önemli ölçüde hızlandırabilir.
  • Bellek: TPU'lar genellikle yüksek bant genişliğine sahip büyük miktarlarda bellekle birlikte gelir. Bu sayede eğitim sırasında büyük modellerin ve toplu boyutların işlenmesine olanak tanınır. Bu, model kalitesinin artmasını sağlayabilir.
  • Ölçeklenebilirlik: TPU Kapsülleri (büyük TPU kümeleri), büyük temel modellerin giderek daha karmaşık hale gelmesiyle başa çıkmak için ölçeklenebilir bir çözüm sunar. Daha hızlı ve etkili işleme için eğitimi birden fazla TPU cihazına dağıtabilirsiniz.
  • Maliyet verimliliği: Birçok senaryoda TPU'lar, özellikle de daha hızlı eğitim sayesinde zaman ve kaynak tasarrufu yapılması söz konusu olduğunda, CPU tabanlı altyapıya kıyasla büyük modelleri eğitmek için daha uygun maliyetli bir çözüm sunabilir.
  • Bu avantajlar, Google'ın sürdürülebilir şekilde çalışma taahhütleriyle uyumludur.

Yazılım

Eğitim JAX ve ML Pathways kullanılarak yapıldı.

JAX, araştırmacıların büyük modellerin daha hızlı ve daha verimli eğitimi için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına imkan tanır.

ML Pathways, Google'ın birden fazla görev genelinde genelleme yapabilen yapay zekaya sahip sistemler oluşturmaya yönelik en son çalışmasıdır. Bu, özellikle bunlar gibi büyük dil modelleri dahil temel modelleri için uygundur.

JAX ve Makine Öğrenimi Yolları birlikte, Gemini model ailesi hakkındaki makalede açıklandığı gibi kullanılır. "JAx ve Pathways'in "tek denetleyici" programlama modeli, tek bir Python işleminin tüm eğitim çalışmasını düzenlemesine olanak tanıyarak geliştirme iş akışını büyük ölçüde basitleştirir."

Değerlendirme

Değerlendirme metriklerini ve sonuçlarını modelleme.

Karşılaştırma Sonuçları

Bu modeller, metin oluşturmanın farklı yönlerini kapsamaları için farklı veri kümeleri ve metriklerden oluşan geniş bir koleksiyonla karşılaştırılarak değerlendirildi:

Karşılaştırma Metrik Gemma PT 2B Gemma PT 7B
MMLU 5 atış, ilk 1 42,3 64,3
HellaSwag 0 Atış 71,4 81,2
PIQA 0 Atış 77,3 81,2
SocialIQA 0 Atış 49,7 51,8
BoolQ 0 Atış 69,4 83,2
WinoGrande kısmi puan 65,4 72,3
CommonsenseQA 7 Çekim 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53,2
TriviaQA 5 Atış 53,2 63,4
Doğal Sorular 5 Atış 12,5 %
HumanEval kart@1 % 32,3
MBPP 3 Çekim 29,2 44,4
GSM8K maj@1 17,7 46,4
MATH 4 Çekim 11,8 24,3
AGIEval 24,2 41,7
Büyük Bench 35,2 55,1
Ortalama 44,9 56,4

Etik ve Güvenlik

Etik ve güvenlik değerlendirmesi yaklaşımı ve sonuçları.

Değerlendirme Yaklaşımı

Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve ilgili içerik politikalarına yönelik şirket içi genel değerlendirmeler yer alır. Kırmızı ekip oluşturma, her biri farklı hedeflere ve insan değerlendirme metriklerine sahip farklı ekipler tarafından yürütülmüştür. Bu modeller, etik ve güvenlikle ilgili bir dizi farklı kategoriye göre değerlendirilmiştir. Bu kategorilerden bazıları:

  • Metinden Metne İçerik Güvenliği: Çocuğun cinsel istismarı ve istismarı, taciz, şiddet, kan ve nefret söylemi gibi güvenlik politikalarının ele alındığı istemler için gerçek kişiler tarafından yapılan değerlendirmeler.
  • Text-to-Text Temsili Zararlar: WinoBias ve BBQ Veri Kümesi gibi alakalı akademik veri kümeleriyle karşılaştırın.
  • Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski de dahil olmak üzere eğitim verilerinin ezberlenmesinin otomatik olarak değerlendirilmesi.
  • Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (CBRN) riskler gibi "tehlikeli özellikleri" test eder.

Değerlendirme Sonuçları

Etik ve güvenlik değerlendirmelerinin sonuçları; çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme ve büyük ölçekli zararlar gibi kategoriler için dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir. Güçlü dahili değerlendirmelerin yanı sıra barbekü, BOLD, Winogender, Winobias, RealToxicity ve TruthfulQA gibi iyi bilinen güvenlik karşılaştırmalarının sonuçları da burada gösterilir.

Gemma 1.0

Karşılaştırma Metrik Gemma 1.0 IT 2B Gemma 1.0 BT 7B
RealToxicity ortalama 6,86 avro
KALIN 45,57 49,08
Kitle-çiftler top-1 45,82 51,33
Barbekü Belirsiz Tek atış, ilk 1 62,58 %
Barbekü Belirginliği top-1 54,62 avro
Winocin top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 % 92,23
Toksijen 29,77 %

Gemma 1.1

Karşılaştırma Metrik Gemma 1.1 IT 2B Gemma 1.1 BT 7B
RealToxicity ortalama 7,03 8,04
KALIN 47,76
Kitle-çiftler top-1 45,89 49,67
Barbekü Belirsiz Tek atış, ilk 1 58,97 86,06
Barbekü Belirginliği top-1 53,90 85,08
Winocin top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toksijen 29,64 38,75

Kullanım ve Sınırlamalar

Bu modellerde, kullanıcıların dikkat etmesi gereken belirli sınırlamalar vardır.

Amaçlanan Kullanım

Açık Büyük Dil Modelleri (LLM'ler), çeşitli sektörler ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model yaratıcılarının model eğitimi ve geliştirme kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.

  • İçerik Üretme ve İletişim
    • Metin Oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni ve e-posta taslakları gibi reklam öğesi metin biçimleri oluşturmak için kullanılabilir.
    • Chatbot'lar ve Conversational AI: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için sohbet arayüzlerine güç verin.
    • Metin Özetlemesi: Bir metin kitaplığı, araştırma makaleleri veya raporlar için kısa özetler üretin.
  • Araştırma ve Eğitim
    • Doğal Dil İşleme (NLP) Araştırması: Bu modeller, araştırmacıların NLP teknikleriyle denemeler yapabileceği, algoritmalar geliştirebileceği ve alanın gelişimine katkıda bulunabileceği bir temel oluşturabilir.
    • Dil Öğrenme Araçları: Dil bilgisi düzeltmeye yardımcı veya yazma alıştırması sağlayarak etkileşimli dil öğrenme deneyimlerini destekleyin.
    • Bilgi Keşfi: Özet oluşturarak veya belirli konular hakkında soruları yanıtlayarak büyük metin kümelerini keşfetmeleri konusunda araştırmacılara yardımcı olun.

Sınırlamalar

  • Eğitim Verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verilerindeki sapmalar veya boşluklar, modelin yanıtlarında sınırlamalara yol açabilir.
    • Eğitim veri kümesinin kapsamı, modelin etkili şekilde işleyebileceği konu alanlarını belirler.
  • Bağlam ve Görev Karmaşıklığı
    • LLM'ler, açık istemler ve talimatlarla ön plana çıkarılabilen görevlerde daha iyidir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir. (Uzun bağlam, genellikle belirli bir noktaya kadar daha iyi çıkışlar sağlar).
  • Dil Belirsizliği ve Nüansları
    • Doğal dil, yapısı gereği karmaşıktır. LLM'ler belli belirsiz nüansları, iğnelemeleri veya mecazi dili kavraymakta zorlanabilir.
  • Bilgiye Dayalı Doğruluk
    • LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar üretir, ancak bilgi tabanı değildir. Yanlış veya güncelliğini yitirmiş olgusal ifadeler üretebilirler.
  • Sağduyu
    • LLM'ler, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu akıl yürütme becerilerinden yoksun olabilirler.

Etik Dikkate Alınması Gerekenler ve Riskler

Büyük dil modellerinin (LLM) geliştirilmesi, çeşitli etik kaygıları beraberinde getirmektedir. Açık bir model oluştururken aşağıdakileri dikkatle düşündük:

  • Yanlılık ve Adalet
    • Büyük ölçekli, gerçek dünyadan metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel ön yargıları yansıtabilir. Bu modeller dikkatli bir şekilde incelenmiş, verilerin ön işlemesi açıklanmış ve bu kartta bildirilen daha sonraki değerlendirmeler yapılmıştır.
  • Yanlış Bilgilendirme ve Kötüye Kullanım
    • LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelle sorumlu bir şekilde kullanılması için yönergeler sağlanmıştır. Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
  • Şeffaflık ve Hesap Verebilirlik:
    • Bu model kartı; modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri ile ilgili ayrıntıları özetler.
    • Sorumlu bir şekilde geliştirilen açık model, LLM teknolojisini AI ekosistemindeki tüm geliştiriciler ve araştırmacılar için erişilebilir hale getirerek inovasyonu paylaşma fırsatı sunar.

Belirlenen riskler ve azaltmalar:

  • Yanlılıkların sürdürülmesi: Model eğitimi, ince ayarlamalar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri ile gerçek kişiler tarafından yapılan incelemelerin yardımıyla) ve önyargı giderme tekniklerinin keşfi teşvik edilir.
  • Zararlı içeriğin üretimi: İçerik güvenliği ile ilgili mekanizmalar ve yönergeler önemlidir. Geliştiricilerin, dikkatli olması ve belirli ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri alması önerilir.
  • Kötü amaçlı amaçlarla kötüye kullanım: Teknik sınırlamalar, geliştirici ve son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemesi için eğitim kaynakları ve bildirim mekanizmaları sağlanır. Gemma modellerinin yasaklanmış kullanımları, Gemma Yasaklanan Kullanım Politikası'nda açıklanmıştır.
  • Gizlilik ihlalleri: Modeller, kimliği tanımlayabilecek bilgileri (PII) kaldırmak üzere filtrelenen veriler üzerinde eğitilmiştir. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik düzenlemelerine uymaları önerilir.

Avantajları

Bu model ailesi, piyasaya sürüldüğü sırada benzer boyutlu modellere kıyasla Sorumlu AI geliştirme için en baştan tasarlanan yüksek performanslı, açık ve büyük dil modeli uygulamalarını sağlar.

Bu belgede açıklanan karşılaştırma değerlendirme metriklerini kullanan bu modellerin, karşılaştırılabilir boyuttaki diğer açık model alternatiflerine kıyasla üstün performans sağladığını göstermiştir.