Halaman model: RecurrentGemma
Referensi dan dokumentasi teknis:
Persyaratan Penggunaan: Persyaratan
Penulis: Google
Informasi model
Ringkasan model
Deskripsi
RecurrentGemma adalah serangkaian model bahasa terbuka yang dibuat berdasarkan arsitektur berulang baru yang dikembangkan di Google. Versi yang telah dilatih sebelumnya dan versi yang disesuaikan dengan petunjuk tersedia dalam bahasa Inggris.
Seperti Gemma, model RecurrentGemma sangat cocok untuk berbagai tugas pembuatan teks, termasuk menjawab pertanyaan, peringkasan, dan penalaran. Karena arsitekturnya yang baru, RecurrentGemma memerlukan lebih sedikit memori daripada Gemma dan mencapai inferensi yang lebih cepat saat menghasilkan urutan yang panjang.
Input dan output
- Input: String teks (misalnya, pertanyaan, perintah, atau dokumen yang akan diringkas).
- Output: Teks berbahasa Inggris yang dihasilkan sebagai respons terhadap input (misalnya, jawaban atas pertanyaan, ringkasan dokumen).
Pengutipan
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Model data
Set data pelatihan dan pemrosesan data
RecurrentGemma menggunakan data pelatihan dan pemrosesan data yang sama seperti yang digunakan oleh keluarga model Gemma. Deskripsi lengkap dapat ditemukan di kartu model Gemma.
Informasi penerapan
Hardware dan framework yang digunakan selama pelatihan
Seperti Gemma, RecurrentGemma dilatih di TPUv5e, menggunakan JAX dan ML Pathways.
Informasi evaluasi
Hasil benchmark
Pendekatan evaluasi
Model ini dievaluasi berdasarkan kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks:
Hasil evaluasi
Benchmark | Metrik | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5-shot, top-1 | 38,4 | 60.5 |
HellaSwag | 0-shot | 71,0 | 80,4 |
PIQA | 0-shot | 78,5 | 81,3 |
SocialIQA | 0-shot | 51,8 | 52,3 |
BoolQ | 0-shot | 71,3 | 80,3 |
WinoGrande | skor parsial | 67,8 | 73,6 |
CommonsenseQA | 7-shot | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5-shot | 52,5 | 70,5 |
Pertanyaan Alami | 5-shot | 11,5 | 21,7 |
HumanEval | pass@1 | 21,3 | 31.1 |
MBPP | 3-shot | 28,8 | 42,0 |
GSM8K | maj@1 | 13.4 | 42,6 |
MATH | 4-shot | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench | 35,3 | 55,2 | |
Rata-rata | 44,6 | 56,1 |
Etika dan keamanan
Evaluasi etika dan keamanan
Pendekatan evaluasi
Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian red team internal terhadap kebijakan konten yang relevan. Tim red-teaming dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model ini dievaluasi berdasarkan sejumlah kategori yang berbeda dan relevan dengan etika dan keamanan, termasuk:
- Keselamatan konten teks ke teks: Evaluasi manusia pada perintah yang mencakup kebijakan keamanan termasuk pelecehan seksual dan eksploitasi terhadap anak-anak, pelecehan, kekerasan dan darah, serta ujaran kebencian.
- Kerusakan representasi teks ke teks: Lakukan benchmark terhadap set data akademis yang relevan seperti WinoBias dan BBQ Dataset.
- Penghafalan: Evaluasi otomatis atas proses menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
- Kerusakan skala besar: Pengujian untuk “kemampuan berbahaya”, seperti risiko kimia, biologi, radiologi, dan nuklir (CBRN); serta pengujian untuk persuasi dan penipuan, keamanan cyber, dan replikasi otonom.
Hasil evaluasi
Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk kategori seperti keselamatan anak, keselamatan konten, bahaya representasi, mengingat, bahaya berskala besar. Selain evaluasi internal yang andal, hasil benchmark keamanan terkenal seperti BBQ, Winogender, WinoBias, RealToxicity, dan TruthfulQA ditampilkan di sini.
Benchmark | Metrik | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | rata-rata | 9.8 | 7,60 | 10.3 | 8.8 |
BOLD | 39,3 | 52,3 | 39,8 | 47,9 | |
CrowS-Pairs | top-1 | 41,1 | 43,4 | 38,7 | 39,5 |
BBQ Ambig | top-1 | 62,6 | 71,1 | 95,9 | 67,1 |
BBQ Disambig | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winogender | top-1 | 55.1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35,1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Penggunaan dan batasan model
Batasan umum
Model ini memiliki batasan tertentu yang harus diketahui pengguna:
- Data pelatihan
- Kualitas dan keragaman data pelatihan secara signifikan memengaruhi kemampuan model. Bias atau kesenjangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
- Konteks dan kompleksitas tugas
- LLM lebih baik dalam tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas terbuka atau yang sangat kompleks mungkin sulit.
- Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
- Nuansa dan ambiguitas bahasa
- Bahasa alami pada dasarnya bersifat kompleks. LLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
- Akurasi faktual
- LLM menghasilkan respons berdasarkan informasi yang dipelajari dari set data pelatihan, tetapi bukan merupakan basis pengetahuan. Model tersebut dapat menghasilkan pernyataan faktual yang salah atau usang.
- Logika
- LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
Pertimbangan dan risiko etis
Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan hal-hal berikut dengan cermat:
- Bias dan keadilan
- LLM yang dilatih menggunakan data teks dunia nyata dalam skala besar dapat mencerminkan bias sosial-budaya yang tertanam dalam materi pelatihan. Model ini telah melalui pemeriksaan yang cermat, prapemrosesan data input dijelaskan, dan evaluasi posterior dilaporkan dalam kartu ini.
- Misinformasi dan penyalahgunaan
- LLM dapat disalahgunakan untuk menghasilkan teks yang salah, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model ini, lihat Toolkit AI Generatif Bertanggung Jawab.
- Transparansi dan akuntabilitas
- Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.
Risiko yang Diidentifikasi dan Mitigasi:
- Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghapusan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
- Pembuatan konten yang merugikan: Mekanisme dan pedoman untuk keamanan konten sangatlah penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk tertentu dan kasus penggunaan aplikasi mereka.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu mengurangi aplikasi LLM yang berbahaya. Resource edukasi dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan disediakan. Penggunaan model Gemma yang dilarang diuraikan dalam persyaratan penggunaan kami.
- Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
Penggunaan yang dimaksudkan
Aplikasi
Model Bahasa Besar (LLM) terbuka memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan model.
- Pembuatan konten dan komunikasi
- Pembuatan teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, draf email, dll.
- Chatbot dan AI percakapan: Memperkuat antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
- Ringkasan teks: Membuat ringkasan ringkas dari korpus teks, makalah riset, atau laporan.
- Penelitian dan pendidikan
- Riset Natural Language Processing (NLP): Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
- Alat Pembelajaran Bahasa: Mendukung pengalaman pembelajaran bahasa interaktif, membantu koreksi tata bahasa, atau memberikan latihan menulis.
- Eksplorasi Pengetahuan: Membantu peneliti menjelajahi kumpulan teks yang besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.
Manfaat
Pada saat rilis, lini model ini menyediakan implementasi model bahasa besar open source berperforma tinggi yang dirancang dari awal untuk pengembangan Responsible AI dibandingkan dengan model berukuran serupa.
Dengan menggunakan metrik evaluasi benchmark yang dijelaskan dalam dokumen ini, model ini telah terbukti memberikan performa yang lebih baik dibandingkan alternatif model terbuka lainnya yang berukuran sebanding.
Secara khusus, model RecurrentGemma mencapai performa yang sebanding dengan model Gemma, tetapi lebih cepat selama inferensi dan memerlukan lebih sedikit memori, terutama pada urutan yang panjang.