Model sayfası: RecurrentGemma
Kaynaklar ve teknik belgeler:
Kullanım Şartları: Şartlar
Yazarlar: Google
Model bilgileri
Model özeti
Açıklama
RecurrentGemma, Google'da geliştirilen yeni bir yinelenen mimari temel alınarak oluşturulmuş bir açık dil modelleri ailesidir. Hem önceden eğitilmiş hem de özel olarak ayarlanmış sürümleri İngilizce olarak sunulmaktadır.
Gemma gibi RecurrentGemma modelleri de soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için uygundur. RecurrentGemma, yeni mimarisi nedeniyle Gemma'dan daha az bellek gerektirir ve uzun diziler oluştururken daha hızlı çıkarım sağlar.
Girişler ve çıkışlar
- Girdi: Metin dizesi (ör. soru, istem veya özetlenecek bir belge).
- Çıkış: Girişe yanıt olarak İngilizce dilinde metin (ör. soruya cevap, belgenin özeti) oluşturulur.
Alıntı
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Model verileri
Eğitim veri kümesi ve veri işleme
RecurrentGemma, Gemma model ailesi tarafından kullanılan eğitim verilerini ve veri işlemesini kullanır. Tam açıklamayı Gemma modeli kartında bulabilirsiniz.
Uygulama bilgileri
Eğitim sırasında kullanılan donanım ve çerçeveler
Gemma gibi RecurrentGemma, JAX ve ML Pathways kullanılarak TPUv5e üzerinde eğitilmiştir.
Değerlendirme bilgileri
Karşılaştırma sonuçları
Değerlendirme yaklaşımı
Bu modeller, metin oluşturmanın farklı yönlerini kapsamaları için farklı veri kümeleri ve metriklerden oluşan geniş bir koleksiyonla karşılaştırılarak değerlendirildi:
Değerlendirme sonuçları
Karşılaştırma | Metrik | YinelenenGemma 2B |
---|---|---|
MMLU | 5 atış, ilk 1 | 38,4 |
HellaSwag | 0 Atış | % |
PIQA | 0 Atış | 78,5 |
SocialIQA | 0 Atış | 51,8 |
BoolQ | 0 Atış | 71,3 |
WinoGrande | kısmi puan | 67,8 |
CommonsenseQA | 7 Çekim | 63,7 |
OpenBookQA | 47,2 | |
ARC-e | 72,9 | |
ARC-c | 42,3 | |
TriviaQA | 5 Atış | 52,5 |
Doğal Sorular | 5 Atış | 11,5 |
HumanEval | kart@1 | 21,3 |
MBPP | 3 Çekim | 28,8 |
GSM8K | maj@1 | 13,4 |
MATH | 4 Çekim | 11.0 |
AGIEval | 23,8 | |
Büyük Bench | 35,3 | |
Ortalama | 44,6 |
Etik ve güvenlik
Etik ve güvenlik değerlendirmeleri
Değerlendirme yaklaşımı
Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve ilgili içerik politikalarına yönelik şirket içi genel değerlendirmeler yer alır. Kırmızı ekip oluşturma, her biri farklı hedeflere ve insan değerlendirme metriklerine sahip farklı ekipler tarafından yürütülmüştür. Bu modeller, etik ve güvenlikle ilgili bir dizi farklı kategoriye göre değerlendirilmiştir. Bu kategorilerden bazıları:
- Metinden metne içerik güvenliği: Çocuğun cinsel istismarı ve istismarı, taciz, şiddet, kan ve nefret söylemi gibi güvenlik politikalarının ele alındığı istemler için gerçek kişiler tarafından yapılan değerlendirmeler.
- Metinden metne gösterim zararları: WinoBias ve barbekü veri kümesi gibi alakalı akademik veri kümeleriyle karşılaştırma yapın.
- Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski de dahil olmak üzere, eğitim verilerinin ezberlenmesinin otomatik olarak değerlendirilmesi.
- Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (CBRN) riskler gibi "tehlikeli özellikleri" test etmenin yanı sıra ikna ve yanıltma, siber güvenlik ve otonom çoğaltma testlerini test eder.
Değerlendirme sonuçları
Etik ve güvenlik değerlendirmelerinin sonuçları; çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme ve büyük ölçekli zararlar gibi kategoriler için dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir. Güçlü dahili değerlendirmelerin yanı sıra barbekü, Winogender, Winobias, RealToxicity ve TruthfulQA gibi iyi bilinen güvenlik karşılaştırmalarının sonuçları da burada gösterilmektedir.
Karşılaştırma | Metrik | YinelenenGemma 2B | RecurrentGemma 2B BT |
---|---|---|---|
RealToxicity | ort. | 9,8 | 7,6 |
KALIN | 39,3 | 52,4 | |
Kitle-çiftler | top-1 | 41,1 | 43,4 |
Barbekü Belirsiz | top-1 | 62,6 | 71,1 |
Barbekü Belirginliği | top-1 | 58,4 | 50,8 |
Winocin | top-1 | 55,1 | 54,7 |
TruthfulQA | 35,1 | 42,7 | |
Winobias 1_2 | 58,4 | 56,4 | |
Winobias 2_2 | % | 75,4 | |
Toksijen | 56,7 | % |
Model kullanımı ve sınırlamalar
Bilinen sınırlamalar
Bu modellerde kullanıcıların dikkat etmesi gereken belirli sınırlamalar vardır:
- Eğitim verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verilerindeki sapmalar veya boşluklar, modelin yanıtlarında sınırlamalara yol açabilir.
- Eğitim veri kümesinin kapsamı, modelin etkili şekilde işleyebileceği konu alanlarını belirler.
- Bağlam ve görevlerin karmaşıklığı
- LLM'ler, açık istemler ve talimatlarla ön plana çıkarılabilen görevlerde daha iyidir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
- Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir. (Daha uzun bağlam, genellikle belirli bir noktaya kadar daha iyi çıkışlar sağlar).
- Dildeki belirsizlikler ve küçük farklar
- Doğal dil, yapısı gereği karmaşıktır. LLM'ler ince nüansları, iğnelemeleri veya mecazi dili kavramakta zorlanabilir.
- Bilgilerin doğruluğu
- LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar üretir, ancak bilgi tabanı değildir. Yanlış veya güncelliğini yitirmiş olgusal ifadeler üretebilirler.
- Sağduyu
- LLM'ler, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu akıl yürütme becerilerine sahip olmayabilirler.
Etik değerlendirmeler ve riskler
Büyük dil modellerinin (LLM) geliştirilmesi, çeşitli etik kaygıları beraberinde getirmektedir. Açık bir model oluştururken aşağıdakileri dikkatle düşündük:
- Ön yargı ve adalet
- Büyük ölçekli, gerçek dünyadan metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir şekilde incelendi, verilerin ön işlemesi açıklandı ve bu kartta bildirilen arka değerlendirmeler yapıldı.
- Yanlış bilgilendirme ve kötüye kullanım
- LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelle sorumlu kullanım için yönergeler sağlanmıştır. Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
- Şeffaflık ve hesap verebilirlik
- Bu model kartı; modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri ile ilgili ayrıntıları özetler.
- Sorumlu bir şekilde geliştirilen açık model, LLM teknolojisini AI ekosistemindeki geliştiriciler ve araştırmacılar için erişilebilir hale getirerek inovasyonu paylaşma fırsatı sunar.
Tespit Edilen Riskler ve Azaltmalar:
- Ön yargıların sürdürülmesi: Model eğitimi, ince ayarlamalar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri ile gerçek kişiler tarafından yapılan incelemelerin yardımıyla) ve önyargı giderme tekniklerinin araştırılması önerilir.
- Zararlı içeriğin üretimi: İçerik güvenliğiyle ilgili mekanizmalar ve yönergeler önemlidir. Geliştiricilerin, dikkatli olması ve belirli ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri alması önerilir.
- Kötü amaçlı amaçlarla hatalı kullanım: Teknik sınırlamalar, geliştirici ve son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemesi için eğitim kaynakları ve bildirim mekanizmaları sağlanır. Gemma modellerinin yasaklanmış kullanımları kullanım şartlarımızda açıklanmıştır.
- Gizlilik ihlalleri: Modeller, kimliği tanımlayabilecek bilgileri (PII) kaldırmak üzere filtrelenen veriler üzerinde eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik düzenlemelerine uymaları önerilir.
Kullanım amacı
Başvuru
Açık Büyük Dil Modelleri (LLM'ler), çeşitli sektörler ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model yaratıcılarının model eğitimi ve geliştirme kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.
- İçerik üretimi ve iletişim
- Metin oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni, e-posta taslakları gibi reklam öğesi metin biçimleri oluşturmak için kullanılabilir.
- Chatbot'lar ve etkileşimli yapay zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için sohbet arayüzlerine güç verin.
- Metin özeti: Bir metin kitaplığının, araştırma makalelerinin veya raporların kısa özetlerini oluşturun.
- Araştırma ve eğitim
- Doğal Dil İşleme (NLP) araştırması: Bu modeller, araştırmacıların NLP teknikleriyle denemeler yapmaları, algoritmalar geliştirmeleri ve alanın ilerlemesine katkıda bulunmaları için bir temel oluşturabilir.
- Dil Öğrenme Araçları: Dil bilgisi düzeltmeye yardımcı olarak veya yazma alıştırması sağlayarak etkileşimli dil öğrenme deneyimlerini destekleyin.
- Bilgi Keşfi: Özet oluşturarak veya belirli konular hakkında soruları yanıtlayarak büyük metin kümelerini keşfetmelerinde araştırmacılara yardımcı olun.
Avantajları
Bu model ailesi, piyasaya sürüldüğü sırada benzer boyutlu modellere kıyasla Sorumlu AI geliştirme için en baştan tasarlanan yüksek performanslı, açık ve büyük dil modeli uygulamalarını sağlar.
Bu belgede açıklanan karşılaştırma değerlendirme metriklerini kullanan bu modellerin, karşılaştırılabilir boyuttaki diğer açık model alternatiflerine kıyasla üstün performans sağladığını göstermiştir.
Özellikle RecurrentGemma modelleri, Gemma modelleriyle karşılaştırılabilir bir performans elde eder ancak çıkarım sırasında daha hızlıdır ve özellikle uzun dizilerde daha az bellek gerektirir.