RecurrentGemma model kartı

Model sayfası: RecurrentGemma

Kaynaklar ve teknik dokümanlar:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model bilgileri

Model özeti

Açıklama

RecurrentGemma, Google'da geliştirilen yeni bir tekrarlayan mimari üzerine inşa edilmiş açık dil modelleri ailesidir. Hem önceden eğitilmiş hem de talimatla ayarlanmış sürümler İngilizce olarak kullanılabilir.

Gemma gibi RecurrentGemma modelleri de soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için idealdir. Yenilikçi mimarisi sayesinde RecurrentGemma, Gemma'ya kıyasla daha az bellek kullanır ve uzun diziler oluştururken daha hızlı çıkarım elde eder.

Girdiler ve çıktılar

  • Giriş: Metin dizesi (ör. özetlenmesi gereken bir soru, istem veya doküman).
  • Çıkış: Girişe yanıt olarak oluşturulan İngilizce metin (ör. soruya verilen yanıt, dokümanın özeti).

Alıntı

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Model verileri

Eğitim veri kümesi ve veri işleme

RecurrentGemma, Gemma model ailesinin kullandığı aynı eğitim verilerini ve veri işlemeyi kullanır. Tam açıklamayı Gemma model kartında bulabilirsiniz.

Uygulama bilgileri

Eğitim sırasında kullanılan donanım ve çerçeveler

Gemma gibi RecurrentGemma da JAX ve ML Pathways kullanılarak TPUv5e üzerinde eğitildi.

Değerlendirme bilgileri

Karşılaştırma sonuçları

Değerlendirme yaklaşımı

Bu modeller, metin oluşturmanın farklı yönlerini kapsayacak şekilde büyük bir farklı veri kümesi ve metrik koleksiyonuyla değerlendirildi:

Değerlendirme sonuçları

Karşılaştırma Metrik RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 kare, en iyi 1 38,4 60.5
HellaSwag 0 atış 71,0 80,4
PIQA 0 atış 78,5 81,3
SocialIQA 0 atış 51,8 52,3
BoolQ 0 atış 71,3 80,3
WinoGrande kısmi puan 67,8 73,6
CommonsenseQA 7 atış 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 atış 52,5 70,5
Doğal Sorular 5 atış 11,5 21,7
HumanEval pass@1 21.3 31.1
MBPP 3 çekimli 28,8 42,0
GSM8K maj@1 13,4 42,6
MATH 4 çekimli 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55,2
Ortalama 44,6 56,1

Etik ve güvenlik

Etik ve güvenlik değerlendirmeleri

Değerlendirme yaklaşımı

Değerlendirme yöntemlerimiz arasında yapılandırılmış değerlendirmeler ve ilgili içerik politikalarının şirket içinde yapılan testleri yer alır. Kırmızı takım çalışması, her biri farklı hedeflere ve insan değerlendirme metriklerini kullanan çeşitli ekipler tarafından yürütüldü. Bu modeller, etik ve güvenlikle ilgili çeşitli kategoriler açısından değerlendirildi. Örneğin:

  • Metin mesajı içerik güvenliği: Çocuğun cinsel istismarı ve çocuk istismarı, taciz, şiddet ve vahşet, nefret söylemi gibi güvenlik politikalarını kapsayan istemler üzerinde gerçek kişiler tarafından değerlendirme yapılır.
  • Metin metne temsili zararlar: WinoBias ve BBQ Dataset gibi ilgili akademik veri kümeleriyle karşılaştırma yapın.
  • Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski de dahil olmak üzere eğitim verilerinin ezberlenmesini otomatik olarak değerlendirme.
  • Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (CBRN) riskler gibi "tehlikeli özellikler"le ilgili testlerin yanı sıra ikna ve aldatma, siber güvenlik ve otonom çoğaltma testleri.

Değerlendirme sonuçları

Etik ve güvenlik değerlendirmelerinin sonuçları, çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme, geniş ölçekli zararlar gibi kategorilerde dahili politikalara uygunluk için kabul edilebilir eşikler dahilindedir. Güçlü şirket içi değerlendirmelerin yanı sıra BBQ, Winogender, WinoBias, RealToxicity ve TruthfulQA gibi iyi bilinen güvenlik karşılaştırmalarının sonuçları da burada gösterilir.

Karşılaştırma Metrik RecurrentGemma 2B RecurrentGemma 2B BT RecurrentGemma 9B YinelenenGemma 9B BT
RealToxicity ort. 9,8 7,60 10.3 8.8
BOLD 39,3 52,3 39,8 47,9
CrowS-Pairs top-1 41,1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71,1 95,9 67,1
BBQ Disambig top-1 58,4 50,8 78,6 78,9
Winogender top-1 55.1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50,0 58,8 64,5

Model kullanımı ve sınırlamaları

Bilinen sınırlamalar

Bu modellerin kullanıcıların bilmesi gereken belirli sınırlamaları vardır:

  • Eğitim verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, modelin özelliklerini önemli ölçüde etkiler. Eğitim verilerindeki ön yargılar veya boşluklar, modelin yanıtlarında sınırlamalara neden olabilir.
    • Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde işleyebileceği konu alanlarını belirler.
  • Bağlam ve görev karmaşıklığı
    • LLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir (daha uzun bağlam genellikle belirli bir noktaya kadar daha iyi sonuçlara yol açar).
  • Dildeki belirsizlik ve nüanslar
    • Doğal dil doğası gereği karmaşıktır. LLM'ler ince nüansları, iğneleyici ifadeleri veya mecazi ifadeleri anlamakta zorlanabilir.
  • Doğruluk
    • LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya güncel olmayan gerçek beyanları oluşturabilirler.
  • Sağduyu
    • LLM'ler, dildeki istatistiksel kalıplardan yararlanır. Belirli durumlarda sağduyulu düşünme yeteneğinden yoksun olabilirler.

Etik hususlar ve riskler

Büyük dil modellerinin (LLM'ler) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:

  • Yanlış beyan ve adalet
    • Gerçek dünyadan büyük ölçekli metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel ön yargıları yansıtabilir. Bu modeller dikkatli bir incelemeden geçirildi. Giriş verileri ön işleme süreci bu kartta açıklanmış ve sonraki değerlendirmeler raporlanmıştır.
  • Yanlış bilgilendirme ve kötüye kullanım
    • LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
  • Şeffaflık ve sorumluluk
    • Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
    • Sorumluluk bilinciyle geliştirilmiş açık bir model, LLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.

Tespit Edilen Riskler ve Azaltma Yöntemleri:

  • Eğilimlerin devamı: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişiler tarafından inceleme kullanılarak) ve önyargı giderme tekniklerinin keşfedilmesi önerilir.
  • Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini uygulamaları önerilir.
  • Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı kullanımını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemeleri için eğitici kaynaklar ve bildirim mekanizmaları sağlanır. Gemma modellerinin yasaklanmış kullanımları kullanım şartlarımızda belirtilmiştir.
  • Gizlilik ihlalleri: Modeller, PII'nin (Kimliği Tanımlanabilir Bilgiler) kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.

Kullanım amacı

Başvuru

Açık büyük dil modelleri (LLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır.

  • İçerik oluşturma ve iletişim
    • Metin oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni, e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
    • Chatbot'lar ve etkileşimli yapay zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri güçlendirin.
    • Metin özetleme: Metin veri kümesi, araştırma makaleleri veya raporların kısa özetlerini oluşturun.
  • Araştırma ve eğitim
    • Doğal Dil İşleme (NLP) araştırması: Bu modeller, araştırmacıların NLP tekniklerini denemeleri, algoritmalar geliştirmeleri ve alanın ilerlemesine katkıda bulunmaları için temel oluşturabilir.
    • Dil Öğrenme Araçları: Dil bilgisi düzeltmelerine yardımcı olarak veya yazma alıştırması sunarak etkileşimli dil öğrenme deneyimlerini destekler.
    • Bilgi Keşfi: Özet oluşturarak veya belirli konularla ilgili soruları yanıtlayarak araştırmacıların büyük metinleri keşfetmesine yardımcı olun.

Avantajları

Bu model ailesi, kullanıma sunulduğunda benzer büyüklükteki modellere kıyasla sorumlu yapay zeka geliştirme için sıfırdan tasarlanmış yüksek performanslı açık büyük dil modeli uygulamaları sunar.

Bu dokümanda açıklanan karşılaştırma değerlendirme metriklerini kullanarak bu modellerin, benzer boyutta diğer açık model alternatiflerine kıyasla üstün performans sağladığı gösterilmiştir.

Özellikle RecurrentGemma modelleri, Gemma modelleriyle benzer performansa ulaşır ancak çıkarım sırasında daha hızlıdır ve özellikle uzun sekanslarda daha az bellek kullanır.