RecurrentGemma model kartı

Model sayfası: RecurrentGemma

Kaynaklar ve teknik belgeler:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model bilgileri

Model özeti

Açıklama

RecurrentGemma, Google'da geliştirilen yeni bir yinelenen mimari üzerine kurulmuş bir açık dil modelleri ailesidir. Hem önceden eğitilmiş hem de talimat tarafından ayarlanmış sürümleri İngilizce olarak sunulmaktadır.

Gemma gibi RecurrentGemma modelleri de soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli metin oluşturma görevleri için uygundur. RecurrentGemma, yeni mimarisi nedeniyle Gemma'dan daha az bellek gerektirir ve uzun diziler oluştururken daha hızlı çıkarım sağlar.

Girişler ve çıkışlar

  • Giriş: Metin dizesi (ör. soru, istem veya özetlenecek doküman).
  • Çıkış: Girişe yanıt olarak oluşturulan İngilizce metin (ör. sorunun cevabı, belgenin özeti).

Alıntı

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Model verileri

Eğitim veri kümesi ve veri işleme

RecurrentGemma, Gemma model ailesi tarafından kullanılan eğitim verilerini ve veri işlemeyi kullanır. Tam açıklamayı Gemma model kartında bulabilirsiniz.

Uygulama bilgileri

Eğitim sırasında kullanılan donanım ve çerçeveler

Gemma gibi RecurrentGemma da JAX ve ML Pathways kullanarak TPUv5e ile eğitim aldı.

Değerlendirme bilgileri

Karşılaştırma sonuçları

Değerlendirme yaklaşımı

Bu modeller, metin oluşturmanın farklı yönlerini kapsamaları için farklı veri kümeleri ve metriklerden oluşan geniş bir koleksiyonla karşılaştırılarak değerlendirildi:

Değerlendirme sonuçları

Karşılaştırma Metrik RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 çekim, ilk 1 38,4 60.5
HellaSwag 0 Çekim 71,0 80,4
BKK 0 Çekim 78,5 81,3
SocialIQA 0 Çekim 51,8 52,3
BoolQ 0 Çekim 71,3 80,3
WinoGrande kısmi puan 67,8 73,6
CommonsenseQA 7 Çekim 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 Çekim 52,5 70,5
Doğal Sorular 5 Çekim 11,5 21,7
HumanEval kart@1 21,3 31,1
MBPP 3 Çekim 28,8 42,0
GSM8K mehmet@1 13,4 42,6
MATH 4 Çekim 11.0 23,8
AGIEval 23,8 39,3
BIG Bank 35,3 55,2
Ortalama 44,6 56,1

Etik ve güvenlik

Etik ve güvenlik değerlendirmeleri

Değerlendirme yaklaşımı

Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve ilgili içerik politikalarının şirket içi kırmızı ekipler tarafından test edilmesi yer alır. Red ekibi, her biri farklı hedeflere ve insanlar tarafından yapılan değerlendirme metriklerine sahip farklı ekipler tarafından yürütüldü. Bu modeller, etik ve güvenlikle ilgili birkaç farklı kategoriye göre değerlendirildi. Bunlar arasında şunlar bulunuyor:

  • Metinden metne içerik güvenliği: Çocuğun cinsel istismarı ve istismarı, taciz, şiddet, kan ve nefret söylemi dahil olmak üzere güvenlik politikalarını kapsayan istemlerin gerçek kişiler tarafından değerlendirilmesi.
  • Metinden metne temsili zararlar: WinoBias ve Barbekü Veri Kümesi gibi alakalı akademik veri kümeleriyle karşılaştırma yapın.
  • Ezberleme: Kimliği tanımlayabilecek bilgilerin açığa çıkma riski de dahil olmak üzere eğitim verilerinin ezberlenmesinin otomatik olarak değerlendirilmesi.
  • Büyük ölçekli zarar: Kimyasal, biyolojik, radyolojik ve nükleer (CBRN) riskler gibi "tehlikeli olanaklara" yönelik testlerin yanı sıra ikna etme, yanıltma, siber güvenlik ve otonom replikasyon testleri.

Değerlendirme sonuçları

Etik ve güvenlik değerlendirmelerinin sonuçları; çocuk güvenliği, içerik güvenliği, temsili zararlar, ezberleme ve büyük ölçekli zararlar gibi kategorilerle ilgili dahili politikaları karşılama açısından kabul edilebilir eşikler dahilindedir. Güçlü dahili değerlendirmelere ek olarak, Barbekü, Winogender, WinoBias, RealToxicity ve TruthfulQA gibi iyi bilinen güvenlik karşılaştırmalarının sonuçları burada gösterilmektedir.

Karşılaştırma Metrik RecurrentGemma 2B RecurrentGemma 2B BT RecurrentGemma 9B RecurrentGemma 9B BT
RealToxicity ort. 9,8 7,60 10.3 8.8
KALIN 39,3 52,3 39,8 47,9
CrowS-Çiftleri top-1 41,1 43,4 38,7 39,5
Barbekü Ambig top-1 62,6 71,1 95,9 67,1
Barbekü Belirsizliği top-1 58,4 50,8 78,6 78,9
Winogender top-1 55,1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toksijen 56,7 50,0 58,8 64,5

Model kullanımı ve sınırlamaları

Bilinen sınırlamalar

Bu modellerde kullanıcıların dikkat etmesi gereken belirli sınırlamalar vardır:

  • Eğitim verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, modelin kapasitesini önemli ölçüde etkiler. Eğitim verilerindeki sapmalar veya boşluklar, modelin yanıtlarında sınırlamalara neden olabilir.
    • Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde işleyebileceği konu alanlarını belirler.
  • Bağlam ve görev karmaşıklığı
    • LLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyidir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir (daha uzun bağlam genellikle belirli bir noktaya kadar daha iyi çıktılar elde edilmesini sağlar).
  • Dil belirsizliği ve nüansları
    • Doğal dil, yapısı gereği karmaşıktır. LLM'ler hafif nüansları, alayları veya figüratif dili anlamakta zorlanabilir.
  • Bilgilerin doğruluğu
    • LLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere dayalı yanıtlar oluşturur ancak bu yanıtlar bilgi tabanı değildir. Yanlış veya güncelliğini yitirmiş somut ifadeler oluşturabilirler.
  • Sağduyu
    • LLM'ler, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu akıl yürütmeyi uygulama becerilerinden yoksun olabilirler.

Etik olarak dikkat edilmesi gereken hususlar ve riskler

Büyük dil modellerinin (LLM) geliştirilmesi bazı etik kaygıları da beraberinde getirmektedir. Açık bir model oluştururken aşağıdakileri dikkatlice inceledik:

  • Ön yargılar ve adalet
    • Büyük ölçekli, gerçek metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilen sosyo-kültürel ön yargıları yansıtabilir. Bu modeller titizlikle titizlikle denetlendi, giriş verileri ön işlemesi açıklandı ve bu kartta bildirilen son değerlendirmeler yapıldı.
  • Yanlış bilgilendirme ve hatalı kullanım
    • LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelin sorumlu kullanımı hakkında yönergeler verilmiştir. Sorumlu Üretken Yapay Zeka Araç Seti'ni inceleyin.
  • Şeffaflık ve hesap verebilirlik
    • Bu model kartında modellerin mimarisi, yetenekleri, sınırlamaları ve değerlendirme süreçleri ile ilgili ayrıntılar özetlenir.
    • Sorumlu bir şekilde geliştirilmiş bir açık model, LLM teknolojisini yapay zeka ekosistemindeki geliştiriciler ve araştırmacılar için erişilebilir hale getirerek yenilikleri paylaşma fırsatı sunar.

Tespit Edilen Riskler ve Önlemler:

  • Yargıların sürdürülmesi: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri ve gerçek kişiler tarafından yapılan incelemeler kullanarak) ve ağırlıklandırma tekniklerinin keşfinin yapılması önerilir.
  • Zararlı içeriklerin oluşturulması: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar büyük önem taşır. Geliştiricilerin dikkatli olmaları ve kendi ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemlerini uygulamaları önerilir.
  • Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların hatalı kullanımı işaretlemesi için eğitim kaynakları ve bildirme mekanizmaları da sağlanmaktadır. Gemma modellerinin yasaklanmış kullanımları kullanım şartlarımızda açıklanmıştır.
  • Gizlilik ihlalleri: Modeller, kimliği tanımlayabilecek bilgilerin (PII) (kimliği tanımlayabilecek bilgiler) kaldırılması için filtrelenmiş veriler kullanılarak eğitilmiştir. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik düzenlemelerine uymaları teşvik edilir.

Kullanım amacı

Başvuru

Açık Büyük Dil Modelleri (LLM'ler), çeşitli endüstri ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturan kullanıcıların model eğitimi ve geliştirme sürecinin bir parçası olarak değerlendirebileceği olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.

  • İçerik üretimi ve iletişim
    • Metin oluşturma: Bu modeller şiir, senaryo, kod, pazarlama metni, e-posta taslakları gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
    • Chatbot'lar ve etkileşimli yapay zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için sohbet arayüzlerini destekleyin.
    • Metin özetleme: Bir metin topluluğunun, araştırma makalelerinin veya raporların kısa özetlerini oluşturun.
  • Araştırma ve eğitim
    • Doğal dil işleme (NLP) araştırması: Bu modeller, araştırmacıların NLP teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın gelişmesine katkıda bulunması için bir temel oluşturabilir.
    • Dil Öğrenme Araçları: Dil bilgisi düzeltmeye veya yazma alıştırması yapmaya yardımcı olarak etkileşimli dil öğrenme deneyimlerini destekleyin.
    • Bilgi Keşfi: Özetler oluşturarak veya belirli konularla ilgili soruları yanıtlayarak araştırmacıların büyük metin topluluklarını keşfetmelerine yardımcı olun.

Avantajları

Lansmanı yapılan bu model ailesi, benzer boyuttaki modellerle karşılaştırıldığında Sorumlu AI geliştirme için sıfırdan tasarlanmış yüksek performanslı açık ve büyük dil modeli uygulamaları sunar.

Bu belgede açıklanan karşılaştırma değerlendirme metrikleri kullanılarak bu modellerin, benzer büyüklükteki diğer açık model alternatiflerine göre daha iyi performans sağladığı görülmüştür.

Özellikle RecurrentGemma modelleri, Gemma modelleriyle benzer bir performans elde eder, ancak çıkarım sırasında daha hızlıdır ve özellikle uzun dizilerde daha az bellek gerektirir.