Model sayfası: RecurrentGemma
Kaynaklar ve teknik dokümanlar:
Kullanım Şartları: Şartlar
Yazarlar: Google
Model bilgileri
Model özeti
Açıklama
RecurrentGemma, Google'da geliştirilen yeni bir tekrarlayan mimari üzerine inşa edilmiş açık dil modelleri ailesidir. Hem önceden eğitilmiş hem de talimatla ayarlanmış sürümler İngilizce olarak kullanılabilir.
Gemma gibi RecurrentGemma modelleri de soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için idealdir. Yenilikçi mimarisi sayesinde RecurrentGemma, Gemma'ya kıyasla daha az bellek kullanır ve uzun diziler oluştururken daha hızlı çıkarım elde eder.
Girdiler ve çıktılar
- Giriş: Metin dizesi (ör. özetlenmesi gereken bir soru, istem veya doküman).
- Çıkış: Girişe yanıt olarak oluşturulan İngilizce metin (ör. soruya verilen yanıt, dokümanın özeti).
Alıntı
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Model verileri
Eğitim veri kümesi ve veri işleme
RecurrentGemma, Gemma model ailesinin kullandığı aynı eğitim verilerini ve veri işlemeyi kullanır. Tam açıklamayı Gemma model kartında bulabilirsiniz.
Uygulama bilgileri
Eğitim sırasında kullanılan donanım ve çerçeveler
Gemma gibi RecurrentGemma da JAX ve ML Pathways kullanılarak TPUv5e üzerinde eğitildi.
Değerlendirme bilgileri
Karşılaştırma sonuçları
Değerlendirme yaklaşımı
Bu modeller, metin oluşturmanın farklı yönlerini kapsayacak şekilde büyük bir farklı veri kümesi ve metrik koleksiyonuyla değerlendirildi:
Değerlendirme sonuçları
Karşılaştırma | Metrik | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5 kare, en iyi 1 | 38,4 | 60.5 |
HellaSwag | 0 atış | 71,0 | 80,4 |
PIQA | 0 atış | 78,5 | 81,3 |
SocialIQA | 0 atış | 51,8 | 52,3 |
BoolQ | 0 atış | 71,3 | 80,3 |
WinoGrande | kısmi puan | 67,8 | 73,6 |
CommonsenseQA | 7 atış | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5 atış | 52,5 | 70,5 |
Doğal Sorular | 5 atış | 11,5 | 21,7 |
HumanEval | pass@1 | 21.3 | 31.1 |
MBPP | 3 çekimli | 28,8 | 42,0 |
GSM8K | maj@1 | 13,4 | 42,6 |
MATH | 4 çekimli | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench | 35,3 | 55,2 | |
Ortalama | 44,6 | 56,1 |
Etik ve güvenlik
Etik ve güvenlik değerlendirmeleri
Değerlendirme yaklaşımı
Değerlendirme yöntemlerimiz arasında yapılandırılmış değerlendirmeler ve ilgili içerik politikalarının şirket içinde yapılan testleri yer alır. Kırmızı takım çalışması, her biri farklı hedeflere ve insan değerlendirme metriklerini kullanan çeşitli ekipler tarafından yürütüldü. Bu modeller, etik ve güvenlikle ilgili çeşitli kategoriler açısından değerlendirildi. Örneğin:
- Metin mesajı içerik güvenliği: Çocuğun cinsel istismarı ve çocuk istismarı, taciz, şiddet ve vahşet, nefret söylemi gibi güvenlik politikalarını kapsayan istemler üzerinde gerçek kişiler tarafından değerlendirme yapılır.
- Metin metne temsili zararlar: WinoBias ve BBQ Dataset gibi ilgili akademik veri kümeleriyle karşılaştırma yapın.
- Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski de dahil olmak üzere eğitim verilerinin ezberlenmesini otomatik olarak değerlendirme.
- Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (CBRN) riskler gibi "tehlikeli özellikler"le ilgili testlerin yanı sıra ikna ve aldatma, siber güvenlik ve otonom çoğaltma testleri.
Değerlendirme sonuçları
Etik ve güvenlik değerlendirmelerinin sonuçları, çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme, geniş ölçekli zararlar gibi kategorilerde dahili politikalara uygunluk için kabul edilebilir eşikler dahilindedir. Güçlü şirket içi değerlendirmelerin yanı sıra BBQ, Winogender, WinoBias, RealToxicity ve TruthfulQA gibi iyi bilinen güvenlik karşılaştırmalarının sonuçları da burada gösterilir.
Karşılaştırma | Metrik | RecurrentGemma 2B | RecurrentGemma 2B BT | RecurrentGemma 9B | YinelenenGemma 9B BT |
---|---|---|---|---|---|
RealToxicity | ort. | 9,8 | 7,60 | 10.3 | 8.8 |
BOLD | 39,3 | 52,3 | 39,8 | 47,9 | |
CrowS-Pairs | top-1 | 41,1 | 43,4 | 38,7 | 39,5 |
BBQ Ambig | top-1 | 62,6 | 71,1 | 95,9 | 67,1 |
BBQ Disambig | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winogender | top-1 | 55.1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35,1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Model kullanımı ve sınırlamaları
Bilinen sınırlamalar
Bu modellerin kullanıcıların bilmesi gereken belirli sınırlamaları vardır:
- Eğitim verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin özelliklerini önemli ölçüde etkiler. Eğitim verilerindeki ön yargılar veya boşluklar, modelin yanıtlarında sınırlamalara neden olabilir.
- Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde işleyebileceği konu alanlarını belirler.
- Bağlam ve görev karmaşıklığı
- LLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
- Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir (daha uzun bağlam genellikle belirli bir noktaya kadar daha iyi sonuçlara yol açar).
- Dildeki belirsizlik ve nüanslar
- Doğal dil doğası gereği karmaşıktır. LLM'ler ince nüansları, iğneleyici ifadeleri veya mecazi ifadeleri anlamakta zorlanabilir.
- Doğruluk
- LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya güncel olmayan gerçek beyanları oluşturabilirler.
- Sağduyu
- LLM'ler, dildeki istatistiksel kalıplardan yararlanır. Belirli durumlarda sağduyulu düşünme yeteneğinden yoksun olabilirler.
Etik hususlar ve riskler
Büyük dil modellerinin (LLM'ler) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:
- Yanlış beyan ve adalet
- Gerçek dünyadan büyük ölçekli metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel ön yargıları yansıtabilir. Bu modeller dikkatli bir incelemeden geçirildi. Giriş verileri ön işleme süreci bu kartta açıklanmış ve sonraki değerlendirmeler raporlanmıştır.
- Yanlış bilgilendirme ve kötüye kullanım
- LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
- Şeffaflık ve sorumluluk
- Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
- Sorumluluk bilinciyle geliştirilmiş açık bir model, LLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.
Tespit Edilen Riskler ve Azaltma Yöntemleri:
- Eğilimlerin devamı: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişiler tarafından inceleme kullanılarak) ve önyargı giderme tekniklerinin keşfedilmesi önerilir.
- Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini uygulamaları önerilir.
- Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı kullanımını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemeleri için eğitici kaynaklar ve bildirim mekanizmaları sağlanır. Gemma modellerinin yasaklanmış kullanımları kullanım şartlarımızda belirtilmiştir.
- Gizlilik ihlalleri: Modeller, PII'nin (Kimliği Tanımlanabilir Bilgiler) kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.
Kullanım amacı
Başvuru
Açık büyük dil modelleri (LLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır.
- İçerik oluşturma ve iletişim
- Metin oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni, e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
- Chatbot'lar ve etkileşimli yapay zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri güçlendirin.
- Metin özetleme: Metin veri kümesi, araştırma makaleleri veya raporların kısa özetlerini oluşturun.
- Araştırma ve eğitim
- Doğal Dil İşleme (NLP) araştırması: Bu modeller, araştırmacıların NLP tekniklerini denemeleri, algoritmalar geliştirmeleri ve alanın ilerlemesine katkıda bulunmaları için temel oluşturabilir.
- Dil Öğrenme Araçları: Dil bilgisi düzeltmelerine yardımcı olarak veya yazma alıştırması sunarak etkileşimli dil öğrenme deneyimlerini destekler.
- Bilgi Keşfi: Özet oluşturarak veya belirli konularla ilgili soruları yanıtlayarak araştırmacıların büyük metinleri keşfetmesine yardımcı olun.
Avantajları
Bu model ailesi, kullanıma sunulduğunda benzer büyüklükteki modellere kıyasla sorumlu yapay zeka geliştirme için sıfırdan tasarlanmış yüksek performanslı açık büyük dil modeli uygulamaları sunar.
Bu dokümanda açıklanan karşılaştırma değerlendirme metriklerini kullanarak bu modellerin, benzer boyutta diğer açık model alternatiflerine kıyasla üstün performans sağladığı gösterilmiştir.
Özellikle RecurrentGemma modelleri, Gemma modelleriyle benzer performansa ulaşır ancak çıkarım sırasında daha hızlıdır ve özellikle uzun sekanslarda daha az bellek kullanır.