Model Sayfası: Gemma
Kaynaklar ve Teknik Belgeler:
Kullanım Şartları: Şartlar
Yazarlar: Google
Model Bilgisi
Özet açıklaması ve giriş ile çıkışların kısa tanımları.
Açıklama
Gemma, Google'ın Gemini modellerini oluştururken kullanılan araştırma ve teknolojiyle oluşturulan hafif, son teknoloji ürünü açık modellerden oluşan bir ailedir. İngilizce olarak sunulan, açık ağırlıklara, önceden eğitilmiş varyantlara ve talimata göre ayarlanmış varyantları olan metinden metne, yalnızca kod çözücüye dayalı büyük dil modelleridir. Gemma modelleri; soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için uygundur. Nispeten küçük boyutları, dizüstü bilgisayar, masaüstü veya kendi bulut altyapınız gibi sınırlı kaynaklara sahip ortamlarda dağıtılmasını mümkün kılar. Böylece son teknoloji AI modellerine erişimi demokratikleştirir ve herkes için yeniliği teşvik eder.
Girişler ve çıkışlar
- Girdi: Metin dizesi (ör. soru, istem veya özetlenecek bir belge).
- Çıkış: Bir soruya yanıt veya bir belgenin özeti gibi girişe yanıt olarak İngilizce dilinde metin oluşturulur.
Alıntı
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
Model Verileri
Model eğitimi ve verilerin nasıl işlendiği için kullanılan veriler.
Eğitim Veri Kümesi
Bu modeller, çok çeşitli kaynaklar içeren ve toplam 6 trilyon jeton içeren metin verilerinden oluşan bir veri kümesi kullanılarak eğitildi. Temel bileşenler şunlardır:
- Web Dokümanları: Çeşitli web metinleri koleksiyonu, modelin çok çeşitli dilbilimsel stillere, konulara ve terimlere açık olmasını sağlar. Ağırlıklı olarak İngilizce içerikler.
- Kod: Modelin koda maruz bırakılması, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma veya kodla ilgili soruları anlama becerisini geliştirir.
- Matematik: Matematiksel metin eğitimi, modelin mantıksal akıl yürütme ile sembolik temsili öğrenmesine ve matematiksel sorguları ele almasına yardımcı olur.
Bu çeşitli veri kaynaklarının kombinasyonu, çok çeşitli farklı görevleri ve metin biçimlerini yönetebilen güçlü bir dil modeli eğitmek için büyük önem taşır.
Verileri Ön İşleme
Eğitim verilerine uygulanan önemli veri temizleme ve filtreleme yöntemleri aşağıda verilmiştir:
- CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulmasını sağlamak için veri hazırlama sürecinde sıkı CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtrelemesi uygulandı.
- Hassas Veri Filtreleme: Gemma'nın önceden eğitilmiş modelleri güvenli ve güvenilir hale getirmenin bir parçası olarak, belirli kişisel bilgileri ve diğer hassas verileri eğitim kümelerinden filtrelemek için otomatik teknikler kullanıldı.
- Ek yöntemler: Politikalarımız doğrultusunda içerik kalitesi ve güvenliğine göre filtreleme.
Uygulama Bilgileri
Modelin dahili bileşenleri hakkında ayrıntılar.
Nalbur
Gemma, yeni nesil Tensör İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitildi.
Büyük dil modellerini eğitmek önemli ölçüde işlem gücü gerektirir. Makine öğreniminde yaygın olarak kullanılan matris işlemleri için özel olarak tasarlanan TPU'lar, bu alanda çeşitli avantajlar sunar:
- Performans: TPU'lar, LLM'lerin eğitiminde kullanılan devasa hesaplamaları yönetmek için özel olarak tasarlanmıştır. CPU'lara kıyasla eğitimi önemli ölçüde hızlandırabilir.
- Bellek: TPU'lar genellikle yüksek bant genişliğine sahip büyük miktarlarda bellekle birlikte gelir. Bu sayede eğitim sırasında büyük modellerin ve toplu boyutların işlenmesine olanak tanınır. Bu, model kalitesinin artmasını sağlayabilir.
- Ölçeklenebilirlik: TPU Kapsülleri (büyük TPU kümeleri), büyük temel modellerin giderek daha karmaşık hale gelmesiyle başa çıkmak için ölçeklenebilir bir çözüm sunar. Daha hızlı ve etkili işleme için eğitimi birden fazla TPU cihazına dağıtabilirsiniz.
- Maliyet verimliliği: Birçok senaryoda TPU'lar, özellikle de daha hızlı eğitim sayesinde zaman ve kaynak tasarrufu yapılması söz konusu olduğunda, CPU tabanlı altyapıya kıyasla büyük modelleri eğitmek için daha uygun maliyetli bir çözüm sunabilir.
- Bu avantajlar, Google'ın sürdürülebilir şekilde çalışma taahhütleriyle uyumludur.
Yazılım
Eğitim JAX ve ML Pathways kullanılarak yapıldı.
JAX, araştırmacıların büyük modellerin daha hızlı ve daha verimli eğitimi için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına imkan tanır.
ML Pathways, Google'ın birden fazla görev genelinde genelleme yapabilen yapay zekaya sahip sistemler oluşturmaya yönelik en son çalışmasıdır. Bu, özellikle bunlar gibi büyük dil modelleri dahil temel modelleri için uygundur.
JAX ve Makine Öğrenimi Yolları birlikte, Gemini model ailesi hakkındaki makalede açıklandığı gibi kullanılır. "JAx ve Pathways'in "tek denetleyici" programlama modeli, tek bir Python işleminin tüm eğitim çalışmasını düzenlemesine olanak tanıyarak geliştirme iş akışını büyük ölçüde basitleştirir."
Değerlendirme
Değerlendirme metriklerini ve sonuçlarını modelleme.
Karşılaştırma Sonuçları
Bu modeller, metin oluşturmanın farklı yönlerini kapsamaları için farklı veri kümeleri ve metriklerden oluşan geniş bir koleksiyonla karşılaştırılarak değerlendirildi:
Karşılaştırma | Metrik | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5 atış, ilk 1 | 42,3 | 64,3 |
HellaSwag | 0 Atış | 71,4 | 81,2 |
PIQA | 0 Atış | 77,3 | 81,2 |
SocialIQA | 0 Atış | 49,7 | 51,8 |
BoolQ | 0 Atış | 69,4 | 83,2 |
WinoGrande | kısmi puan | 65,4 | 72,3 |
CommonsenseQA | 7 Çekim | 65,3 | 71,3 |
OpenBookQA | 47,8 | 52,8 | |
ARC-e | 73,2 | 81,5 | |
ARC-c | 42,1 | 53,2 | |
TriviaQA | 5 Atış | 53,2 | 63,4 |
Doğal Sorular | 5 Atış | 12,5 | % |
HumanEval | kart@1 | % | 32,3 |
MBPP | 3 Çekim | 29,2 | 44,4 |
GSM8K | maj@1 | 17,7 | 46,4 |
MATH | 4 Çekim | 11,8 | 24,3 |
AGIEval | 24,2 | 41,7 | |
Büyük Bench | 35,2 | 55,1 | |
Ortalama | 44,9 | 56,4 |
Etik ve Güvenlik
Etik ve güvenlik değerlendirmesi yaklaşımı ve sonuçları.
Değerlendirme Yaklaşımı
Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve ilgili içerik politikalarına yönelik şirket içi genel değerlendirmeler yer alır. Kırmızı ekip oluşturma, her biri farklı hedeflere ve insan değerlendirme metriklerine sahip farklı ekipler tarafından yürütülmüştür. Bu modeller, etik ve güvenlikle ilgili bir dizi farklı kategoriye göre değerlendirilmiştir. Bu kategorilerden bazıları:
- Metinden Metne İçerik Güvenliği: Çocuğun cinsel istismarı ve istismarı, taciz, şiddet, kan ve nefret söylemi gibi güvenlik politikalarının ele alındığı istemler için gerçek kişiler tarafından yapılan değerlendirmeler.
- Text-to-Text Temsili Zararlar: WinoBias ve BBQ Veri Kümesi gibi alakalı akademik veri kümeleriyle karşılaştırın.
- Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski de dahil olmak üzere eğitim verilerinin ezberlenmesinin otomatik olarak değerlendirilmesi.
- Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (CBRN) riskler gibi "tehlikeli özellikleri" test eder.
Değerlendirme Sonuçları
Etik ve güvenlik değerlendirmelerinin sonuçları; çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme ve büyük ölçekli zararlar gibi kategoriler için dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir. Güçlü dahili değerlendirmelerin yanı sıra barbekü, BOLD, Winogender, Winobias, RealToxicity ve TruthfulQA gibi iyi bilinen güvenlik karşılaştırmalarının sonuçları da burada gösterilir.
Gemma 1.0
Karşılaştırma | Metrik | Gemma 1.0 IT 2B | Gemma 1.0 BT 7B |
---|---|---|---|
RealToxicity | ortalama | 6,86 | avro |
KALIN | 45,57 | 49,08 | |
Kitle-çiftler | top-1 | 45,82 | 51,33 |
Barbekü Belirsiz | Tek atış, ilk 1 | 62,58 | % |
Barbekü Belirginliği | top-1 | 54,62 | avro |
Winocin | top-1 | 51,25 | 54,17 |
TruthfulQA | 44,84 | 31,81 | |
Winobias 1_2 | 56,12 | 59,09 | |
Winobias 2_2 | % | 92,23 | |
Toksijen | 29,77 | % |
Gemma 1.1
Karşılaştırma | Metrik | Gemma 1.1 IT 2B | Gemma 1.1 BT 7B |
---|---|---|---|
RealToxicity | ortalama | 7,03 | 8,04 |
KALIN | 47,76 | ||
Kitle-çiftler | top-1 | 45,89 | 49,67 |
Barbekü Belirsiz | Tek atış, ilk 1 | 58,97 | 86,06 |
Barbekü Belirginliği | top-1 | 53,90 | 85,08 |
Winocin | top-1 | 50,14 | 57,64 |
TruthfulQA | 44,24 | 45,34 | |
Winobias 1_2 | 55,93 | 59,22 | |
Winobias 2_2 | 89,46 | 89,2 | |
Toksijen | 29,64 | 38,75 |
Kullanım ve Sınırlamalar
Bu modellerde, kullanıcıların dikkat etmesi gereken belirli sınırlamalar vardır.
Amaçlanan Kullanım
Açık Büyük Dil Modelleri (LLM'ler), çeşitli sektörler ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model yaratıcılarının model eğitimi ve geliştirme kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.
- İçerik Üretme ve İletişim
- Metin Oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni ve e-posta taslakları gibi reklam öğesi metin biçimleri oluşturmak için kullanılabilir.
- Chatbot'lar ve Conversational AI: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için sohbet arayüzlerine güç verin.
- Metin Özetlemesi: Bir metin kitaplığı, araştırma makaleleri veya raporlar için kısa özetler üretin.
- Araştırma ve Eğitim
- Doğal Dil İşleme (NLP) Araştırması: Bu modeller, araştırmacıların NLP teknikleriyle denemeler yapabileceği, algoritmalar geliştirebileceği ve alanın gelişimine katkıda bulunabileceği bir temel oluşturabilir.
- Dil Öğrenme Araçları: Dil bilgisi düzeltmeye yardımcı veya yazma alıştırması sağlayarak etkileşimli dil öğrenme deneyimlerini destekleyin.
- Bilgi Keşfi: Özet oluşturarak veya belirli konular hakkında soruları yanıtlayarak büyük metin kümelerini keşfetmeleri konusunda araştırmacılara yardımcı olun.
Sınırlamalar
- Eğitim Verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verilerindeki sapmalar veya boşluklar, modelin yanıtlarında sınırlamalara yol açabilir.
- Eğitim veri kümesinin kapsamı, modelin etkili şekilde işleyebileceği konu alanlarını belirler.
- Bağlam ve Görev Karmaşıklığı
- LLM'ler, açık istemler ve talimatlarla ön plana çıkarılabilen görevlerde daha iyidir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
- Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir. (Uzun bağlam, genellikle belirli bir noktaya kadar daha iyi çıkışlar sağlar).
- Dil Belirsizliği ve Nüansları
- Doğal dil, yapısı gereği karmaşıktır. LLM'ler belli belirsiz nüansları, iğnelemeleri veya mecazi dili kavraymakta zorlanabilir.
- Bilgiye Dayalı Doğruluk
- LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar üretir, ancak bilgi tabanı değildir. Yanlış veya güncelliğini yitirmiş olgusal ifadeler üretebilirler.
- Sağduyu
- LLM'ler, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu akıl yürütme becerilerinden yoksun olabilirler.
Etik Dikkate Alınması Gerekenler ve Riskler
Büyük dil modellerinin (LLM) geliştirilmesi, çeşitli etik kaygıları beraberinde getirmektedir. Açık bir model oluştururken aşağıdakileri dikkatle düşündük:
- Yanlılık ve Adalet
- Büyük ölçekli, gerçek dünyadan metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel ön yargıları yansıtabilir. Bu modeller dikkatli bir şekilde incelenmiş, verilerin ön işlemesi açıklanmış ve bu kartta bildirilen daha sonraki değerlendirmeler yapılmıştır.
- Yanlış Bilgilendirme ve Kötüye Kullanım
- LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelle sorumlu bir şekilde kullanılması için yönergeler sağlanmıştır. Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
- Şeffaflık ve Hesap Verebilirlik:
- Bu model kartı; modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri ile ilgili ayrıntıları özetler.
- Sorumlu bir şekilde geliştirilen açık model, LLM teknolojisini AI ekosistemindeki tüm geliştiriciler ve araştırmacılar için erişilebilir hale getirerek inovasyonu paylaşma fırsatı sunar.
Belirlenen riskler ve azaltmalar:
- Yanlılıkların sürdürülmesi: Model eğitimi, ince ayarlamalar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri ile gerçek kişiler tarafından yapılan incelemelerin yardımıyla) ve önyargı giderme tekniklerinin keşfi teşvik edilir.
- Zararlı içeriğin üretimi: İçerik güvenliği ile ilgili mekanizmalar ve yönergeler önemlidir. Geliştiricilerin, dikkatli olması ve belirli ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri alması önerilir.
- Kötü amaçlı amaçlarla kötüye kullanım: Teknik sınırlamalar, geliştirici ve son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemesi için eğitim kaynakları ve bildirim mekanizmaları sağlanır. Gemma modellerinin yasaklanmış kullanımları, Gemma Yasaklanan Kullanım Politikası'nda açıklanmıştır.
- Gizlilik ihlalleri: Modeller, kimliği tanımlayabilecek bilgileri (PII) kaldırmak üzere filtrelenen veriler üzerinde eğitilmiştir. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik düzenlemelerine uymaları önerilir.
Avantajları
Bu model ailesi, piyasaya sürüldüğü sırada benzer boyutlu modellere kıyasla Sorumlu AI geliştirme için en baştan tasarlanan yüksek performanslı, açık ve büyük dil modeli uygulamalarını sağlar.
Bu belgede açıklanan karşılaştırma değerlendirme metriklerini kullanan bu modellerin, karşılaştırılabilir boyuttaki diğer açık model alternatiflerine kıyasla üstün performans sağladığını göstermiştir.