Halaman model: RecurrentGemma
Referensi dan dokumentasi teknis:
Persyaratan Penggunaan: Persyaratan
Penulis: Google
Informasi model
Ringkasan model
Deskripsi
RecurrentGemma adalah kelompok model bahasa terbuka yang dibangun berdasarkan arsitektur berulang baru yang dikembangkan di Google. Versi yang telah dilatih sebelumnya dan versi yang disesuaikan tersedia dalam bahasa Inggris.
Seperti Gemma, model RecurrentGemma sangat cocok untuk berbagai tugas pembuatan teks, termasuk menjawab pertanyaan, perangkuman, dan penalaran. Karena arsitektur barunya, RecurrentGemma memerlukan lebih sedikit memori daripada Gemma dan mencapai inferensi yang lebih cepat saat menghasilkan urutan yang panjang.
Input dan output
- Input: String teks (misalnya, pertanyaan, perintah, atau dokumen yang akan diringkas).
- Output: Teks bahasa Inggris yang dihasilkan sebagai respons terhadap input tersebut (misalnya, jawaban atas pertanyaan, ringkasan dokumen).
Kutipan
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Data model
Set data dan pemrosesan data pelatihan
RecurrentGemma menggunakan data pelatihan dan pemrosesan data yang sama seperti yang digunakan oleh kelompok model Gemma. Deskripsi lengkap dapat ditemukan di kartu model Gemma.
Informasi penerapan
Perangkat keras dan kerangka kerja yang digunakan selama pelatihan
Seperti Gemma, RecurrentGemma dilatih pada TPUv5e, menggunakan JAX dan Jalur ML.
Informasi evaluasi
Hasil benchmark
Pendekatan evaluasi
Model ini dievaluasi terhadap kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks:
Hasil evaluasi
Benchmark | Metrik | RecurrentGemma 2B |
---|---|---|
MMLU | 5-tembakan, top-1 | 38,4 |
HellaSwag | Pukulan0 | 71,0 |
PIQA | Pukulan0 | 78,5 |
SocialIQA | Pukulan0 | 51,8 |
BoolQ | Pukulan0 | 71,3 |
WinoGrande | skor parsial | 67,8 |
CommonsenseQA | 7 tembakan | 63,7 |
OpenBookQA | 47,2 | |
ARC-e | 72,9 | |
ARC-c | 42,3 | |
TriviaQA | 5 tembakan | 52,5 |
Pertanyaan Alami | 5 tembakan | 11,5 |
HumanEval | sandi@1 | 21,3 |
MBPP | 3 tembakan | 28,8 |
GSM8K | maj@1 | 13.4 |
MATH | 4 tembakan | 11.0 |
AGIEval | 23,8 | |
Bench BESAR | 35,3 | |
Rata-rata | 44,6 |
Etika dan keamanan
Evaluasi keamanan dan etika
Pendekatan evaluasi
Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian tim merah internal terhadap kebijakan konten yang relevan. Red-team dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model-model ini dievaluasi berdasarkan sejumlah kategori berbeda yang relevan dengan etika dan keamanan, termasuk:
- Keamanan konten teks-ke-teks: Evaluasi manual terhadap perintah yang mencakup kebijakan keamanan termasuk eksploitasi dan pelecehan seksual terhadap anak-anak, pelecehan, kekerasan dan adegan menyeramkan, serta ujaran kebencian.
- Kerugian representasional teks-ke-teks: Membuat tolok ukur terhadap set data akademis yang relevan seperti WinoBias dan Set Data BBQ.
- Menghafal: Evaluasi otomatis menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
- Bahaya berskala besar: Pengujian untuk “kemampuan berbahaya”, seperti risiko kimia, biologi, radiologis, dan nuklir (CBRN); serta pengujian untuk persuasi dan penipuan, pengamanan cyber, dan replikasi otonom.
Hasil evaluasi
Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk kategori seperti keselamatan anak, keamanan konten, bahaya representatif, mengingat, bahaya dalam skala besar. Selain evaluasi internal yang kuat, hasil dari tolok ukur keamanan terkenal seperti BBQ, Winogender, Winobias, RealToxicity, dan TruthfulQA ditampilkan di sini.
Benchmark | Metrik | RecurrentGemma 2B | IT RecurrentGemma 2B |
---|---|---|---|
RealToxicity | rata-rata | 9.8 | 7.6 |
BERANI | 39,3 | 52,4 | |
CrowS-Pair | top-1 | 41,1 | 43,4 |
BBQ Ambig | top-1 | 62,6 | 71,1 |
Disamarkan BBB | top-1 | 58,4 | 50,8 |
Winogender | top-1 | 55.1 | 54,7 |
TruthfulQA | 35,1 | 42,7 | |
Winobias 1_2 | 58,4 | 56,4 | |
Winobias 2_2 | 90,0 | 75,4 | |
Toksigen | 56,7 | 50,0 |
Penggunaan dan batasan model
Batasan umum
Model ini memiliki batasan tertentu yang harus diketahui pengguna:
- Data pelatihan
- Kualitas dan keberagaman data pelatihan akan memengaruhi kemampuan model secara signifikan. Bias atau kesenjangan dalam data pelatihan dapat menyebabkan keterbatasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
- Konteks dan kompleksitas tugas
- LLM berfungsi lebih baik dalam tugas-tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang terbuka atau sangat kompleks mungkin menantang.
- Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
- Ketidakjelasan dan perbedaan bahasa
- Natural language bersifat kompleks. LLM mungkin kesulitan memahami nuansa, sarkasme, atau bahasa kiasan yang halus.
- Akurasi faktual
- LLM menghasilkan respons berdasarkan informasi yang mereka pelajari dari set data pelatihan, tetapi LLM bukanlah pusat informasi. Pertanyaan ini mungkin menghasilkan pernyataan faktual yang salah atau sudah ketinggalan zaman.
- Pemahaman umum
- LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
Pertimbangan dan risiko etis
Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:
- Bias dan keadilan
- LLM yang dilatih dengan data teks berskala besar di dunia nyata dapat mencerminkan bias sosial-budaya yang tertanam dalam materi pelatihan. Model ini melalui pemeriksaan yang cermat, memasukkan data pemrosesan yang dijelaskan di awal, dan evaluasi posterior yang dilaporkan dalam kartu ini.
- Misinformasi dan penyalahgunaan
- LLM dapat disalahgunakan untuk menghasilkan teks yang tidak benar, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model. Lihat Toolkit AI Generatif yang Bertanggung Jawab.
- Transparansi dan akuntabilitas
- Kartu model ini merangkum detail tentang proses arsitektur, kemampuan, batasan, dan evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.
Identifikasi Risiko dan Mitigasi:
- Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilang bias selama pelatihan model, fine-tuning, dan kasus penggunaan lainnya.
- Pembuatan konten berbahaya: Mekanisme dan pedoman keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan perlindungan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu mereka.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi bagi developer dan pengguna akhir dapat membantu mengurangi aplikasi berbahaya LLM. Referensi pendidikan dan mekanisme pelaporan bagi pengguna untuk menandai penyalahgunaan disediakan. Penggunaan model Gemma yang dilarang diuraikan dalam persyaratan penggunaan kami.
- Pelanggaran privasi: Model dilatih menggunakan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
Penggunaan yang dimaksudkan
Aplikasi
Model Bahasa Besar (LLM) Terbuka memiliki beragam aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.
- Pembuatan konten dan komunikasi
- Pembuatan teks: Model ini dapat digunakan untuk menghasilkan format teks kreatif seperti puisi, skrip, kode, teks pemasaran, draf email, dll.
- Chatbot dan AI percakapan: Antarmuka percakapan yang canggih untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
- Peringkasan teks: Membuat ringkasan singkat dari korpus teks, makalah riset, atau laporan.
- Riset dan pendidikan
- Riset Natural Language Processing (NLP): Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
- Alat Pembelajaran Bahasa: Mendukung pengalaman belajar bahasa interaktif, membantu koreksi tata bahasa, atau memberikan latihan menulis.
- Eksplorasi Pengetahuan: Membantu peneliti dalam menjelajahi kumpulan teks berukuran besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.
Manfaat
Pada saat rilis, kelompok model ini menyediakan implementasi model bahasa besar terbuka berperforma tinggi yang didesain dari awal untuk pengembangan Responsible AI dibandingkan model yang berukuran serupa.
Dengan menggunakan metrik evaluasi benchmark yang dijelaskan dalam dokumen ini, model ini telah terbukti memberikan performa yang unggul dibandingkan alternatif model terbuka lainnya yang berukuran sebanding.
Secara khusus, model RecurrentGemma mencapai performa yang sebanding dengan model Gemma, tetapi lebih cepat selama inferensi dan memerlukan lebih sedikit memori, terutama pada urutan panjang.