Model Sayfası: Gemma
Kaynaklar ve Teknik Dokümanlar:
Kullanım Şartları: Şartlar
Yazarlar: Google
Model Bilgisi
Giriş ve çıkışların özet açıklaması ve kısa tanımı.
Açıklama
Gemma, Google'ın Gemini modellerini oluşturmak için kullanılan aynı araştırma ve teknolojiden geliştirilmiş, hafif ve son teknoloji açık modellerden oluşan bir ailedir. Bunlar, metinden metne, yalnızca kod çözücü olan ve hem önceden eğitilmiş varyantlar hem de talimatla ayarlanmış varyantlar için açık ağırlıklara sahip, İngilizce dilinde kullanılabilen büyük dil modelleridir. Gemma modelleri; soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için idealdir. Nispeten küçük boyutları, bunları dizüstü bilgisayar, masaüstü bilgisayar veya kendi bulut altyapınız gibi sınırlı kaynaklara sahip ortamlarda dağıtmayı mümkün kılar. Böylece en son yapay zeka modellerine erişimi demokratikleştirir ve herkes için yeniliği teşvik etmeye yardımcı olur.
Girdiler ve çıktılar
- Giriş: Özetlenecek soru, istem veya doküman gibi metin dizesi.
- Çıkış: Girişe yanıt olarak oluşturulan İngilizce metin (ör. bir soruya verilen yanıt veya bir dokümanın özeti).
Alıntı
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
Model verileri
Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.
Eğitim Veri Kümesi
Bu modeller, çeşitli kaynaklardan alınan metin verilerinden oluşan bir veri kümesinde eğitilmiştir. 27 milyar model 13 trilyon jetonla, 9 milyar model 8 trilyon jetonla ve 2 milyar model 2 trilyon jetonla eğitildi. Temel bileşenler şunlardır:
- Web dokümanları: Çeşitli web metinlerinden oluşan bir koleksiyon, modelin çeşitli dil üsluplarına, konulara ve kelime dağarcığına maruz kalmasını sağlar. İçeriklerin büyük kısmı İngilizcedir.
- Kod: Modeli koda maruz bırakmak, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma veya kodla ilgili soruları anlama becerisini geliştirir.
- Matematik: Matematiksel metinlerle eğitim, modelin mantıksal akıl yürütmeyi, sembolik temsili öğrenmesine ve matematiksel sorguları ele almasına yardımcı olur.
Bu çeşitli veri kaynaklarının bir araya getirilmesi, çok çeşitli farklı görevleri ve metin biçimlerini işleyebilecek güçlü bir dil modeli eğitmek için çok önemlidir.
Veri Ön İşleme
Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:
- CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulması için veri hazırlama sürecindeki birden fazla aşamada titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
- Hassas Veri Filtreleme: Gemma önceden eğitilmiş modellerini güvenli ve güvenilir hale getirmek için, belirli kişisel bilgileri ve diğer hassas verileri eğitim veri kümelerinden filtrelemek amacıyla otomatik teknikler kullanıldı.
- Ek yöntemler: Politikalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme
Uygulama Bilgileri
Modelin iç yapısıyla ilgili ayrıntılar.
Donanım
Gemma, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5p) kullanılarak eğitildi.
Büyük dil modellerini eğitmek için önemli miktarda işlem gücü gerekir. Özellikle makine öğrenimindeki yaygın matris işlemleri için tasarlanan TPU'lar bu alanda çeşitli avantajlar sunar:
- Performans: TPU'lar, özellikle LLM'leri eğitmeyle ilgili devasa hesaplamaları gerçekleştirmek için tasarlanmıştır. GPU'lar, CPU'lara kıyasla eğitimi önemli ölçüde hızlandırabilir.
- Bellek: TPU'lar genellikle büyük miktarlarda yüksek bant genişliğine sahip bellekle birlikte gelir. Bu sayede eğitim sırasında büyük modeller ve toplu boyutlar kullanılabilir. Bu, model kalitesinin iyileşmesine yol açabilir.
- Ölçeklenebilirlik: TPU kapsülleri (büyük TPU kümeleri), büyük temel modellerin artan karmaşıklığını yönetmek için ölçeklenebilir bir çözüm sağlar. Daha hızlı ve daha verimli işleme için eğitimi birden fazla TPU cihazına dağıtabilirsiniz.
- Uygun maliyet: TPU'lar, birçok senaryoda büyük modelleri eğitmek için CPU tabanlı altyapıya kıyasla daha uygun maliyetli bir çözüm sunabilir. Özellikle de daha hızlı eğitim sayesinde zamandan ve kaynaklardan tasarruf edildiği düşünüldüğünde bu durum geçerlidir.
- Bu avantajlar, Google'ın sürdürülebilir bir şekilde faaliyet göstermeye yönelik taahhütleriyle uyumludur.
Yazılım
Eğitim, JAX ve ML Pathways kullanılarak gerçekleştirildi.
JAX, araştırmacıların büyük modelleri daha hızlı ve verimli bir şekilde eğitmek için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına olanak tanır.
ML Pathways, Google'ın birden fazla görevde genelleme yapabilen yapay zeka sistemleri oluşturma konusundaki en son çalışmasıdır. Bu, özellikle bu gibi büyük dil modelleri de dahil olmak üzere temel modeller için uygundur.
JAX ve ML Pathways birlikte, Gemini model ailesiyle ilgili makalede açıklandığı şekilde kullanılır: "JAX ve Pathways'in "tek denetleyici" programlama modeli, tek bir Python sürecinin tüm eğitim çalıştırmasını koordine etmesine olanak tanıyarak geliştirme iş akışını önemli ölçüde basitleştirir."
Değerlendirme
Model değerlendirme metrikleri ve sonuçları.
Karşılaştırma Sonuçları
Bu modeller, metin oluşturmanın farklı yönlerini kapsayacak şekilde büyük bir farklı veri kümesi ve metrik koleksiyonuyla değerlendirildi:
Karşılaştırma | Metrik | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5 kare, en iyi 1 | 51,3 | 71,3 | 75,2 |
HellaSwag | 10 atış | 73,0 | 81,9 | 86,4 |
PIQA | 0 atış | 77,8 | 81,7 | 83,2 |
SocialIQA | 0 atış | 51,9 | 53,4 | 53,7 |
BoolQ | 0 atış | 72,5 | 84,2 | 84,8 |
WinoGrande | kısmi puan | 70,9 | 80,6 | 83,7 |
ARC-e | 0 atış | 80,1 | 88,0 | 88,6 |
ARC-c | 25 çekim | 55,4 | 68,4 | 71,4 |
TriviaQA | 5 atış | 59,4 | 76,6 | 83,7 |
Doğal Sorular | 5 atış | 16,7 | 29,2 | 34,5 |
HumanEval | pass@1 | 17,7 | 40,2 | 51,8 |
MBPP | 3 çekimli | 29,6 | 52,4 | 62,6 |
GSM8K | 5 atış, büyük@1 | 23,9 | 68,6 | 74,0 |
MATH | 4 çekimli | 15,0 | 36,6 | 42,3 |
AGIEval | 3-5-shot | 30,6 | 52,8 | 55.1 |
DROP | 3 çekimli, F1 | 52,0 | 69,4 | 72,2 |
BIG-Bench | 3 atış, CoT | 41,9 | 68,2 | 74,9 |
Etik ve Güvenlik
Etik ve güvenlik değerlendirmesi yaklaşımı ve sonuçları.
Değerlendirme Yaklaşımı
Değerlendirme yöntemlerimiz arasında yapılandırılmış değerlendirmeler ve ilgili içerik politikalarının şirket içinde yapılan testleri yer alır. Kırmızı takım çalışması, her biri farklı hedeflere ve insan değerlendirme metriklerini kullanan çeşitli ekipler tarafından yürütüldü. Bu modeller, etik ve güvenlikle ilgili çeşitli kategoriler açısından değerlendirildi. Örneğin:
- Metin-metin içerik güvenliği: Çocuğun cinsel istismarı ve istismarı, taciz, şiddet ve kanlı görüntüler, nefret söylemi gibi güvenlik politikalarını kapsayan istemler için gerçek kişiler tarafından değerlendirme.
- Metinden metne temsili zararlar: WinoBias ve BBQ veri kümesi gibi alakalı akademik veri kümeleriyle karşılaştırma.
- Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski dahil olmak üzere eğitim verilerinin ezberlenmesini otomatik olarak değerlendirme.
- Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (KBRN) riskler gibi "tehlikeli özellikler" için testler.
Değerlendirme Sonuçları
Etik ve güvenlik değerlendirmelerinin sonuçları, çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme, geniş ölçekli zararlar gibi kategorilerde dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir. Güçlü dahili değerlendirmelerin yanı sıra BBQ, BOLD, Winogender, Winobias, RealToxicity ve TruthfulQA gibi tanınmış güvenlik karşılaştırmalarının sonuçları da burada gösterilir.
Gemma 2.0
Karşılaştırma | Metrik | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | ortalama | 8.16 | 8,25 | 8,84 |
CrowS-Pairs | top-1 | 37,67 | 37,47 | 36,67 |
BBQ Ambig | 1 atış, en iyi 1 | 83,20 | 88,58 | 85,99 |
BBQ Disambig | top-1 | 69,31 | 82,67 | 86,94 |
Winogender | top-1 | 52,91 | 79,17 | 77,22 |
TruthfulQA | 43,72 | 50,27 | 51,60 | |
Winobias 1_2 | 59,28 | 78,09 | 81,94 | |
Winobias 2_2 | 88,57 | 95,32 | 97,22 | |
Toxigen | 48,32 | 39,30 | 38,42 |
Tehlikeli Yetenek Değerlendirmeleri
Değerlendirme Yaklaşımı
Bir dizi tehlikeli özelliği değerlendirdik:
- Saldırgan siber güvenlik: Modelin siber güvenlik bağlamlarında kötüye kullanım potansiyelini değerlendirmek için hem herkese açık InterCode-CTF ve Hack the Box gibi Bayrak Kapma (CTF) platformlarından hem de şirket içinde geliştirilen CTF zorluklarından yararlandık. Bu değerlendirmeler, modelin simülasyon ortamlarında güvenlik açıklarından yararlanma ve yetkisiz erişim elde etme yeteneğini ölçer.
- Kendi kendine çoğalma: Kaynak edinme, kod yürütme ve uzak sistemlerle etkileşim içeren görevler tasarlayarak modelin kendi kendine çoğalma kapasitesini değerlendirdik. Bu değerlendirmeler, modelin bağımsız olarak çoğalma ve yayılma yeteneğini değerlendirir.
- İkna: Modelin ikna ve aldatma kapasitesini değerlendirmek için gerçek kişilerle ikna çalışmaları yaptık. Bu çalışmalarda, modelin samimiyet kurma, inançlarını etkileme ve gerçek katılımcılardan belirli işlemler yaptırma becerisini ölçen senaryolar kullanıldı.
Değerlendirme Sonuçları
Tüm değerlendirmeler Frontier Modellerini Tehlikeli Özellikler İçin Değerlendirme başlıklı makalede ayrıntılı olarak, Gemma 2 teknik raporunda ise kısaca açıklanmaktadır.
Değerlendirme | Kapasite | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | Rahatsız edici siber güvenlik | 34/76 zorluk |
Dahili CTF | Rahatsız edici siber güvenlik | 1/13 meydan okumaları |
Hack the Box | Rahatsız edici siber güvenlik | 0/13 meydan okuma |
Kendi kendine çoğalma erken uyarısı | Kendi kendine çoğalma | 1/10 zorluklar |
Rahatsız edici nazarlıklar | İkna | Katkıda bulunan katılımcıların yüzdesi: %81 ilginç, %75 tekrar konuşurdu, %80 kişisel bağlantı kurdu |
Bağlantıları tıklama | İkna | Katılımcıların% 34'ü |
Bilgi bulma | İkna | Katılımcıların% 9'u |
Kodu Çalıştır | İkna | Katılımcıların% 11'i |
Para konuşuyor | İkna | Ortalama bağış tutarı: 3,72 sterlin |
Web of Lies | İkna | %18 doğru inanca doğru, %1 yanlış inanca doğru ortalama kayma |
Kullanım ve Sınırlılıklar
Bu modellerin kullanıcıların bilmesi gereken belirli sınırlamaları vardır.
Kullanım Amacı
Açık büyük dil modelleri (LLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır.
- İçerik Oluşturma ve İletişim
- Metin Oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni ve e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
- Chatbot'lar ve Etkileşimli Yapay Zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri güçlendirin.
- Metin Özetleme: Bir metin grubu, araştırma makalesi veya raporların kısa özetlerini oluşturun.
- Araştırma ve Eğitim
- Doğal Dil İşleme (NLP) Araştırması: Bu modeller, araştırmacıların NLP tekniklerini denemeleri, algoritmalar geliştirmeleri ve alanın ilerlemesine katkıda bulunmaları için temel oluşturabilir.
- Dil Öğrenim Araçları: Dil bilgisi düzeltmelerine yardımcı olarak veya yazma alıştırması sunarak etkileşimli dil öğrenme deneyimlerini destekler.
- Bilgi Keşfi: Özet oluşturarak veya belirli konularla ilgili soruları yanıtlayarak araştırmacıların büyük metin gruplarını keşfetmesine yardımcı olun.
Sınırlamalar
- Eğitim Verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin özelliklerini önemli ölçüde etkiler. Eğitim verilerindeki ön yargılar veya boşluklar, modelin yanıtlarında sınırlamalara neden olabilir.
- Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde işleyebileceği konu alanlarını belirler.
- Bağlam ve Görev Karmaşıklığı
- LLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
- Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir (daha uzun bağlam genellikle belirli bir noktaya kadar daha iyi sonuçlara yol açar).
- Dildeki belirsizlik ve nüanslar
- Doğal dil doğası gereği karmaşıktır. LLM'ler ince nüansları, iğneleyici ifadeleri veya mecazi ifadeleri anlamakta zorluk çekebilir.
- Doğruluk
- LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya güncel olmayan gerçek beyanları oluşturabilirler.
- Common Sense
- LLM'ler, dildeki istatistiksel kalıplardan yararlanır. Belirli durumlarda sağduyulu düşünme yeteneğinden yoksun olabilirler.
Etik Konular ve Riskler
Büyük dil modellerinin (LLM'ler) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:
- Önyargı ve Adalet
- Gerçek dünyadan büyük ölçekli metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel ön yargıları yansıtabilir. Bu modeller dikkatli bir incelemeden geçirildi, giriş verileri ön işleme alındı ve bu kartta açıklanan ve raporlanan sonraki değerlendirmeler yapıldı.
- Yanlış bilgilendirme ve kötüye kullanım
- LLM'ler, yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
- Şeffaflık ve Sorumluluk:
- Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
- Sorumluluk bilinciyle geliştirilmiş açık bir model, LLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.
Tespit edilen riskler ve azaltma önlemleri:
- Eğilimlerin devamı: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişi incelemesi kullanılarak) ve önyargı giderme tekniklerinin keşfedilmesi önerilir.
- Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini almaları önerilir.
- Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarına karşı önlem alınmasına yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemeleri için eğitici kaynaklar ve bildirim mekanizmaları sağlanır. Gemma modellerinin yasaklanmış kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.
- Gizlilik ihlalleri: Modeller, PII'nin (kimliği tanımlayabilecek bilgiler) kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.
Avantajları
Bu model ailesi, kullanıma sunulduğunda benzer büyüklükteki modellere kıyasla sorumlu yapay zeka geliştirme için sıfırdan tasarlanmış yüksek performanslı açık büyük dil modeli uygulamaları sunar.
Bu dokümanda açıklanan karşılaştırma değerlendirme metriklerini kullanarak bu modellerin, benzer boyutta diğer açık model alternatiflerine kıyasla üstün performans sağladığı gösterilmiştir.