RecurrentGemma model kartı

Model sayfası: RecurrentGemma

Kaynaklar ve teknik belgeler:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model bilgileri

Model özeti

Açıklama

RecurrentGemma, Google'da geliştirilen yeni bir yinelenen mimari temel alınarak oluşturulmuş bir açık dil modelleri ailesidir. Hem önceden eğitilmiş hem de özel olarak ayarlanmış sürümleri İngilizce olarak sunulmaktadır.

Gemma gibi RecurrentGemma modelleri de soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için uygundur. RecurrentGemma, yeni mimarisi nedeniyle Gemma'dan daha az bellek gerektirir ve uzun diziler oluştururken daha hızlı çıkarım sağlar.

Girişler ve çıkışlar

  • Girdi: Metin dizesi (ör. soru, istem veya özetlenecek bir belge).
  • Çıkış: Girişe yanıt olarak İngilizce dilinde metin (ör. soruya cevap, belgenin özeti) oluşturulur.

Alıntı

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Model verileri

Eğitim veri kümesi ve veri işleme

RecurrentGemma, Gemma model ailesi tarafından kullanılan eğitim verilerini ve veri işlemesini kullanır. Tam açıklamayı Gemma modeli kartında bulabilirsiniz.

Uygulama bilgileri

Eğitim sırasında kullanılan donanım ve çerçeveler

Gemma gibi RecurrentGemma, JAX ve ML Pathways kullanılarak TPUv5e üzerinde eğitilmiştir.

Değerlendirme bilgileri

Karşılaştırma sonuçları

Değerlendirme yaklaşımı

Bu modeller, metin oluşturmanın farklı yönlerini kapsamaları için farklı veri kümeleri ve metriklerden oluşan geniş bir koleksiyonla karşılaştırılarak değerlendirildi:

Değerlendirme sonuçları

Karşılaştırma Metrik YinelenenGemma 2B
MMLU 5 atış, ilk 1 38,4
HellaSwag 0 Atış %
PIQA 0 Atış 78,5
SocialIQA 0 Atış 51,8
BoolQ 0 Atış 71,3
WinoGrande kısmi puan 67,8
CommonsenseQA 7 Çekim 63,7
OpenBookQA 47,2
ARC-e 72,9
ARC-c 42,3
TriviaQA 5 Atış 52,5
Doğal Sorular 5 Atış 11,5
HumanEval kart@1 21,3
MBPP 3 Çekim 28,8
GSM8K maj@1 13,4
MATH 4 Çekim 11.0
AGIEval 23,8
Büyük Bench 35,3
Ortalama 44,6

Etik ve güvenlik

Etik ve güvenlik değerlendirmeleri

Değerlendirme yaklaşımı

Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve ilgili içerik politikalarına yönelik şirket içi genel değerlendirmeler yer alır. Kırmızı ekip oluşturma, her biri farklı hedeflere ve insan değerlendirme metriklerine sahip farklı ekipler tarafından yürütülmüştür. Bu modeller, etik ve güvenlikle ilgili bir dizi farklı kategoriye göre değerlendirilmiştir. Bu kategorilerden bazıları:

  • Metinden metne içerik güvenliği: Çocuğun cinsel istismarı ve istismarı, taciz, şiddet, kan ve nefret söylemi gibi güvenlik politikalarının ele alındığı istemler için gerçek kişiler tarafından yapılan değerlendirmeler.
  • Metinden metne gösterim zararları: WinoBias ve barbekü veri kümesi gibi alakalı akademik veri kümeleriyle karşılaştırma yapın.
  • Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski de dahil olmak üzere, eğitim verilerinin ezberlenmesinin otomatik olarak değerlendirilmesi.
  • Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (CBRN) riskler gibi "tehlikeli özellikleri" test etmenin yanı sıra ikna ve yanıltma, siber güvenlik ve otonom çoğaltma testlerini test eder.

Değerlendirme sonuçları

Etik ve güvenlik değerlendirmelerinin sonuçları; çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme ve büyük ölçekli zararlar gibi kategoriler için dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir. Güçlü dahili değerlendirmelerin yanı sıra barbekü, Winogender, Winobias, RealToxicity ve TruthfulQA gibi iyi bilinen güvenlik karşılaştırmalarının sonuçları da burada gösterilmektedir.

Karşılaştırma Metrik YinelenenGemma 2B RecurrentGemma 2B BT
RealToxicity ort. 9,8 7,6
KALIN 39,3 52,4
Kitle-çiftler top-1 41,1 43,4
Barbekü Belirsiz top-1 62,6 71,1
Barbekü Belirginliği top-1 58,4 50,8
Winocin top-1 55,1 54,7
TruthfulQA 35,1 42,7
Winobias 1_2 58,4 56,4
Winobias 2_2 % 75,4
Toksijen 56,7 %

Model kullanımı ve sınırlamalar

Bilinen sınırlamalar

Bu modellerde kullanıcıların dikkat etmesi gereken belirli sınırlamalar vardır:

  • Eğitim verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verilerindeki sapmalar veya boşluklar, modelin yanıtlarında sınırlamalara yol açabilir.
    • Eğitim veri kümesinin kapsamı, modelin etkili şekilde işleyebileceği konu alanlarını belirler.
  • Bağlam ve görevlerin karmaşıklığı
    • LLM'ler, açık istemler ve talimatlarla ön plana çıkarılabilen görevlerde daha iyidir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir. (Daha uzun bağlam, genellikle belirli bir noktaya kadar daha iyi çıkışlar sağlar).
  • Dildeki belirsizlikler ve küçük farklar
    • Doğal dil, yapısı gereği karmaşıktır. LLM'ler ince nüansları, iğnelemeleri veya mecazi dili kavramakta zorlanabilir.
  • Bilgilerin doğruluğu
    • LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar üretir, ancak bilgi tabanı değildir. Yanlış veya güncelliğini yitirmiş olgusal ifadeler üretebilirler.
  • Sağduyu
    • LLM'ler, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu akıl yürütme becerilerine sahip olmayabilirler.

Etik değerlendirmeler ve riskler

Büyük dil modellerinin (LLM) geliştirilmesi, çeşitli etik kaygıları beraberinde getirmektedir. Açık bir model oluştururken aşağıdakileri dikkatle düşündük:

  • Ön yargı ve adalet
    • Büyük ölçekli, gerçek dünyadan metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir şekilde incelendi, verilerin ön işlemesi açıklandı ve bu kartta bildirilen arka değerlendirmeler yapıldı.
  • Yanlış bilgilendirme ve kötüye kullanım
    • LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelle sorumlu kullanım için yönergeler sağlanmıştır. Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
  • Şeffaflık ve hesap verebilirlik
    • Bu model kartı; modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri ile ilgili ayrıntıları özetler.
    • Sorumlu bir şekilde geliştirilen açık model, LLM teknolojisini AI ekosistemindeki geliştiriciler ve araştırmacılar için erişilebilir hale getirerek inovasyonu paylaşma fırsatı sunar.

Tespit Edilen Riskler ve Azaltmalar:

  • Ön yargıların sürdürülmesi: Model eğitimi, ince ayarlamalar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri ile gerçek kişiler tarafından yapılan incelemelerin yardımıyla) ve önyargı giderme tekniklerinin araştırılması önerilir.
  • Zararlı içeriğin üretimi: İçerik güvenliğiyle ilgili mekanizmalar ve yönergeler önemlidir. Geliştiricilerin, dikkatli olması ve belirli ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri alması önerilir.
  • Kötü amaçlı amaçlarla hatalı kullanım: Teknik sınırlamalar, geliştirici ve son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemesi için eğitim kaynakları ve bildirim mekanizmaları sağlanır. Gemma modellerinin yasaklanmış kullanımları kullanım şartlarımızda açıklanmıştır.
  • Gizlilik ihlalleri: Modeller, kimliği tanımlayabilecek bilgileri (PII) kaldırmak üzere filtrelenen veriler üzerinde eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik düzenlemelerine uymaları önerilir.

Kullanım amacı

Başvuru

Açık Büyük Dil Modelleri (LLM'ler), çeşitli sektörler ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model yaratıcılarının model eğitimi ve geliştirme kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.

  • İçerik üretimi ve iletişim
    • Metin oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni, e-posta taslakları gibi reklam öğesi metin biçimleri oluşturmak için kullanılabilir.
    • Chatbot'lar ve etkileşimli yapay zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için sohbet arayüzlerine güç verin.
    • Metin özeti: Bir metin kitaplığının, araştırma makalelerinin veya raporların kısa özetlerini oluşturun.
  • Araştırma ve eğitim
    • Doğal Dil İşleme (NLP) araştırması: Bu modeller, araştırmacıların NLP teknikleriyle denemeler yapmaları, algoritmalar geliştirmeleri ve alanın ilerlemesine katkıda bulunmaları için bir temel oluşturabilir.
    • Dil Öğrenme Araçları: Dil bilgisi düzeltmeye yardımcı olarak veya yazma alıştırması sağlayarak etkileşimli dil öğrenme deneyimlerini destekleyin.
    • Bilgi Keşfi: Özet oluşturarak veya belirli konular hakkında soruları yanıtlayarak büyük metin kümelerini keşfetmelerinde araştırmacılara yardımcı olun.

Avantajları

Bu model ailesi, piyasaya sürüldüğü sırada benzer boyutlu modellere kıyasla Sorumlu AI geliştirme için en baştan tasarlanan yüksek performanslı, açık ve büyük dil modeli uygulamalarını sağlar.

Bu belgede açıklanan karşılaştırma değerlendirme metriklerini kullanan bu modellerin, karşılaştırılabilir boyuttaki diğer açık model alternatiflerine kıyasla üstün performans sağladığını göstermiştir.

Özellikle RecurrentGemma modelleri, Gemma modelleriyle karşılaştırılabilir bir performans elde eder ancak çıkarım sırasında daha hızlıdır ve özellikle uzun dizilerde daha az bellek gerektirir.