Model sayfası: RecurrentGemma
Kaynaklar ve teknik belgeler:
Kullanım Şartları: Şartlar
Yazarlar: Google
Model bilgileri
Model özeti
Açıklama
RecurrentGemma, tekrarlayan yeni bir model üzerine kurulu Google'da geliştirilen bir web sitesidir. Her ikisi önceden eğitilmiş ve talimat ayarlamalı sürümleri İngilizce olarak sunulmaktadır.
Gemma gibi RecurrentGemma modelleri de çeşitli metin biçimleri için uygundur. gibi pek çok farklı işlevi vardır. RecurrentGemma, yeni mimarisi nedeniyle Gemma, uzun diziler oluştururken daha hızlı çıkarım elde eder.
Girişler ve çıkışlar
- Giriş: Metin dizesi (ör. soru, istem veya özetlenir).
- Çıkış: Girişe yanıt olarak oluşturulan İngilizce metin (ör. belgenin özeti şeklinde olabilir.
Alıntı
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Model verileri
Eğitim veri kümesi ve veri işleme
RecurrentGemma, tarafından kullanılan eğitim verilerini ve veri işlemeyi Gemma model ailesi. Tam açıklamayı Gemma modelinde bulabilirsiniz kartı.
Uygulama bilgileri
Eğitim sırasında kullanılan donanım ve çerçeveler
Beğenme Gemma, RecurrentGemma, şu tarihte eğitildi: TPUv5e JAX ve ML kullanarak Yollar.
Değerlendirme bilgileri
Karşılaştırma sonuçları
Değerlendirme yaklaşımı
Bu modeller, farklı veri kümelerinden oluşan geniş bir koleksiyonla karşılaştırılarak değerlendirildi metrikleri kullanarak metin oluşturmanın farklı yönlerini ele aldık:
Değerlendirme sonuçları
Karşılaştırma | Metrik | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5 çekim, ilk 1 | 38,4 | 60.5 |
HellaSwag | 0 Çekim | 71,0 | 80,4 |
PIQA | 0 Çekim | 78,5 | 81,3 |
SocialIQA | 0 Çekim | 51,8 | 52,3 |
BoolQ | 0 Çekim | 71,3 | 80,3 |
WinoGrande | kısmi puan | 67,8 | 73,6 |
CommonsenseQA | 7 Çekim | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5 Çekim | 52,5 | 70,5 |
Doğal Sorular | 5 Çekim | 11,5 | 21,7 |
HumanEval | kart@1 | 21,3 | 31,1 |
MBPP | 3 Çekim | 28,8 | 42,0 |
GSM8K | mehmet@1 | 13,4 | 42,6 |
MATH | 4 Çekim | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG Bank | 35,3 | 55,2 | |
Ortalama | 44,6 | 56,1 |
Etik ve güvenlik
Etik ve güvenlik değerlendirmeleri
Değerlendirme yaklaşımı
Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve kurum içi değerlendirmeler yer alır. test edilmesine yardımcı olur. Kırmızı takım çalışması, her biri farklı hedeflere ve insanlar tarafından yapılan değerlendirme metriklerine sahip farklı ekipler. Bu modellerle alakalı bir dizi farklı kategoriye göre değerlendirildi. etik ve güvenlik şunları kapsar:
- Metinden metne içerik güvenliği: İstemlerin güvenliği kapsayan gerçek kişiler tarafından değerlendirilmesi çocuğun cinsel istismarı ve çocuk istismarı, taciz ve şiddet dahil politikalar vahşet ve nefret söylemi.
- Metinden metne temsili zararlar: Alakalı akademik raporlarla karşılaştırma yapın WinoBias ve Barbekü Veri Kümesi gibi veri kümeleriyle ilişkilendirilebilir.
- Ezberleme: Eğitim verilerinin ezberlenmesinin otomatik olarak değerlendirilmesi, kimliği tanımlayabilecek bilgilerin açığa çıkma riski dahil olmak üzere.
- Büyük ölçekli zarar: Kimyasal, kimyasal maddeler gibi "tehlikeli olanaklar" için testler biyolojik, radyolojik ve nükleer (CBRN) riskler; testlerin yanı sıra ikna etme, yanıltma, siber güvenlik ve özerk kopyalama.
Değerlendirme sonuçları
Etik ve güvenlik değerlendirmelerinin sonuçları kabul edilebilir eşikler dahilindedir dahili toplantılar için politikalar içerik güvenliği, temsili zararlar ve diğer engelleri büyük ölçekli zararlar olabilir. Güçlü şirket içi değerlendirmelerin yanı sıra Barbekü, Winogender, WinoBias ve benzeri ürünleri içeren, RealToxicity ve TruthfulQA burada gösterilir.
Karşılaştırma | Metrik | RecurrentGemma 2B | RecurrentGemma 2B BT | RecurrentGemma 9B | RecurrentGemma 9B BT |
---|---|---|---|---|---|
RealToxicity | ort. | 9,8 | 7,60 | 10.3 | 8.8 |
BOLD | 39,3 | 52,3 | 39,8 | 47,9 | |
CrowS-Çiftleri | top-1 | 41,1 | 43,4 | 38,7 | 39,5 |
Barbekü Ambig | top-1 | 62,6 | 71,1 | 95,9 | 67,1 |
Barbekü Belirsizliği | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winogender | top-1 | 55,1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35,1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Model kullanımı ve sınırlamaları
Bilinen sınırlamalar
Bu modellerde kullanıcıların dikkat etmesi gereken belirli sınırlamalar vardır:
- Eğitim verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin kapasitesini de göz önünde bulundurun. Eğitim verilerindeki sapmalar veya boşluklar, modelin yanıtlarındaki sınırlamalara da tabidir.
- Eğitim veri kümesinin kapsamı, modelin konu alanlarını belirler bir şekilde ele alacağız.
- Bağlam ve görev karmaşıklığı
- LLM'ler, net istemler ve ifadelerle çerçevelenebilecek görevlerde daha başarılıdır. bakın. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
- Bir modelin performansı bağlam miktarından etkilenebilir uzun bağlam genellikle daha iyi çıktılar elde edilmesini sağlar. belirli bir nokta) ekleyebilirsiniz.
- Dil belirsizliği ve nüans
- Doğal dil, yapısı gereği karmaşıktır. LLM'lerin konuları kavramakta zorlanabilirler incelikli nüanslar, alay veya mecazi dil.
- Bilgilerin doğruluğu
- LLM'ler, geliştiricilerin deneyimlerinden öğrendikleri bilgilere dayalı olarak yanıtlar oluşturur. ancak bunlar bilgi tabanı değildir. Örneğin, ya da güncelliğini yitirmiş, gerçeğe dayalı ifadeler.
- Sağduyu
- LLM'ler, dildeki istatistiksel kalıplara dayanır. Bazı görevleri tamamlamak için belirli durumlarda sağduyulu akıl yürütmeyi ifade eder.
Etik olarak dikkat edilmesi gereken hususlar ve riskler
Büyük dil modellerinin (LLM) geliştirilmesi bazı etik kaygıları da beraberinde getirmektedir. Açık bir model oluştururken aşağıdakileri dikkatlice inceledik:
- Önyargılar ve adalet
- Büyük ölçekli, gerçek dünyaya ait metin verileriyle eğitilen LLM'ler eğitim materyallerindeki sosyo-kültürel ön yargılar. Bu modeller titizlikle gözden geçirildikten sonra, giriş verilerinin ön işlemesi açıklanır ve bu kartta bildirilen son değerlendirme sayısı.
- Yanlış bilgilendirme ve kötüye kullanım
- LLM'ler yanlış, yanıltıcı veya zararlıdır.
- Modelin sorumlu kullanımına ilişkin yönergeler verilmiştir. Daha fazla bilgi için Sorumlu Üretken Yapay Zeka Araç Seti'ni inceleyin.
- Şeffaflık ve sorumluluk
- Bu model kartında modellerle ilgili ayrıntıları mimari, üzerine konuşacağız.
- Sorumlu bir şekilde geliştirilmiş açık bir model, dünyanın dört bir yanındaki LLM teknolojisini geliştiricilerin erişimine sunarak yenilikler çeşitli ortaklaşa çalışmalardan bahsetmiştik.
Tespit Edilen Riskler ve Önlemler:
- Yargıların sürdürülmesi: Sürekli izleme yapılması önerilir (değerlendirme metrikleri, gerçek kişiler tarafından yapılan incelemeler) ve önyargısızlığın keşfi ince ayar yapma ve diğer kullanım alanlarında geliştirme yapmalarına yardımcı olur.
- Zararlı içerik üretimi: İçerik mekanizmaları ve kuralları çok önemlidir. Geliştiricilerin dikkatli olması ve Bu güvenlik önlemlerinin kendine özgü özelliklerine göre kullanım alanları konusunda yardımcı olabilir.
- Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ve son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı bildirmek için kullanabilecekleri eğitim kaynakları ve bildirim mekanizmaları sağlar. Gemma modellerinin yasaklanmış kullanımları kullanın.
- Gizlilik ihlalleri: Modeller, şunların kaldırılması için filtrelenen veriler üzerinde eğitildi: PII (kimliği tanımlayabilecek bilgiler) Geliştiricilerin gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uyma.
Kullanım amacı
Başvuru
Açık, Büyük Dil Modelleri (LLM'ler), Google Etiket Yöneticisi'nde çok çeşitli farklı sektör ve alanlarda faaliyet gösterir. Aşağıdaki olası kullanımlar listesi size yönetmektir. Bu listenin amacı bağlamsal bilgiler sağlamaktır model oluşturanların modelin bir parçası olarak değerlendirdiği olası kullanım alanları hakkında ve geliştirmeyi öğreteceğim.
- İçerik üretimi ve iletişim
- Metin oluşturma: Bu modeller, reklam öğesi metni oluşturmak için kullanılabilir şiir, senaryo, kod, pazarlama metni, e-posta taslakları vb. formatlarını kullanabilirsiniz.
- Chatbot'lar ve etkileşimli yapay zeka: Chatbot'lar ve etkileşimli yapay zeka sanal asistanları veya etkileşimli uygulamaları olan uygulamalardır.
- Metin özeti: Bir metin topluluğunun kısa özetlerini oluşturun. veya raporlardan ibarettir.
- Araştırma ve eğitim
- Doğal dil işleme (NLP) araştırması: Bu modeller, araştırmacıların NLP teknikleriyle denemeler yapabilmesi için bir temel olarak, ve alanın gelişimine katkıda bulunmak için kullanılıyor.
- Dil Öğrenme Araçları: Etkileşimli dil öğrenimini destekler. dil bilgisi düzeltmeye yardımcı olma veya yazma alıştırması yapma.
- Bilgi Keşfi: Araştırmacıların büyük vücutları keşfetmelerine yardımcı olma veya belirli bir konuyla ilgili özetler hazırlayarak ya da konu.
Avantajları
Bu model ailesi, piyasaya sürüldüğünde yüksek performans sunar. için sıfırdan tasarlanmış büyük dil modeli uygulamaları Benzer boyuttaki modellere kıyasla yapay zekayı geliştirme.
Bu modeller, bu belgede açıklanan karşılaştırma değerlendirme metriklerini kullanarak benzer boyutlardaki diğer açık modellerden daha iyi performans sağladığını göstermiştir. sağlayabilir.
Özellikle, RecurrentGemma modelleri Gemma'yla karşılaştırılabilir bir performans elde etmektedir. modellerin çoğu var ancak çıkarım sırasında daha hızlıdır ve özellikle oluşturabilirsiniz.