Kartu model RecurrentGemma

Halaman model: RecurrentGemma

Referensi dan dokumentasi teknis:

Persyaratan Penggunaan: Persyaratan

Penulis: Google

Informasi model

Ringkasan model

Deskripsi

RecurrentGemma adalah kelompok model bahasa terbuka yang dibangun berdasarkan arsitektur berulang baru yang dikembangkan di Google. Versi yang telah dilatih sebelumnya dan versi yang disesuaikan tersedia dalam bahasa Inggris.

Seperti Gemma, model RecurrentGemma sangat cocok untuk berbagai tugas pembuatan teks, termasuk menjawab pertanyaan, perangkuman, dan penalaran. Karena arsitektur barunya, RecurrentGemma memerlukan lebih sedikit memori daripada Gemma dan mencapai inferensi yang lebih cepat saat menghasilkan urutan yang panjang.

Input dan output

  • Input: String teks (misalnya, pertanyaan, perintah, atau dokumen yang akan diringkas).
  • Output: Teks bahasa Inggris yang dihasilkan sebagai respons terhadap input tersebut (misalnya, jawaban atas pertanyaan, ringkasan dokumen).

Kutipan

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Data model

Set data dan pemrosesan data pelatihan

RecurrentGemma menggunakan data pelatihan dan pemrosesan data yang sama seperti yang digunakan oleh kelompok model Gemma. Deskripsi lengkap dapat ditemukan di kartu model Gemma.

Informasi penerapan

Perangkat keras dan kerangka kerja yang digunakan selama pelatihan

Seperti Gemma, RecurrentGemma dilatih pada TPUv5e, menggunakan JAX dan Jalur ML.

Informasi evaluasi

Hasil benchmark

Pendekatan evaluasi

Model ini dievaluasi terhadap kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks:

Hasil evaluasi

Benchmark Metrik RecurrentGemma 2B
MMLU 5-tembakan, top-1 38,4
HellaSwag Pukulan0 71,0
PIQA Pukulan0 78,5
SocialIQA Pukulan0 51,8
BoolQ Pukulan0 71,3
WinoGrande skor parsial 67,8
CommonsenseQA 7 tembakan 63,7
OpenBookQA 47,2
ARC-e 72,9
ARC-c 42,3
TriviaQA 5 tembakan 52,5
Pertanyaan Alami 5 tembakan 11,5
HumanEval sandi@1 21,3
MBPP 3 tembakan 28,8
GSM8K maj@1 13.4
MATH 4 tembakan 11.0
AGIEval 23,8
Bench BESAR 35,3
Rata-rata 44,6

Etika dan keamanan

Evaluasi keamanan dan etika

Pendekatan evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian tim merah internal terhadap kebijakan konten yang relevan. Red-team dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model-model ini dievaluasi berdasarkan sejumlah kategori berbeda yang relevan dengan etika dan keamanan, termasuk:

  • Keamanan konten teks-ke-teks: Evaluasi manual terhadap perintah yang mencakup kebijakan keamanan termasuk eksploitasi dan pelecehan seksual terhadap anak-anak, pelecehan, kekerasan dan adegan menyeramkan, serta ujaran kebencian.
  • Kerugian representasional teks-ke-teks: Membuat tolok ukur terhadap set data akademis yang relevan seperti WinoBias dan Set Data BBQ.
  • Menghafal: Evaluasi otomatis menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
  • Bahaya berskala besar: Pengujian untuk “kemampuan berbahaya”, seperti risiko kimia, biologi, radiologis, dan nuklir (CBRN); serta pengujian untuk persuasi dan penipuan, pengamanan cyber, dan replikasi otonom.

Hasil evaluasi

Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk kategori seperti keselamatan anak, keamanan konten, bahaya representatif, mengingat, bahaya dalam skala besar. Selain evaluasi internal yang kuat, hasil dari tolok ukur keamanan terkenal seperti BBQ, Winogender, Winobias, RealToxicity, dan TruthfulQA ditampilkan di sini.

Benchmark Metrik RecurrentGemma 2B IT RecurrentGemma 2B
RealToxicity rata-rata 9.8 7.6
BERANI 39,3 52,4
CrowS-Pair top-1 41,1 43,4
BBQ Ambig top-1 62,6 71,1
Disamarkan BBB top-1 58,4 50,8
Winogender top-1 55.1 54,7
TruthfulQA 35,1 42,7
Winobias 1_2 58,4 56,4
Winobias 2_2 90,0 75,4
Toksigen 56,7 50,0

Penggunaan dan batasan model

Batasan umum

Model ini memiliki batasan tertentu yang harus diketahui pengguna:

  • Data pelatihan
    • Kualitas dan keberagaman data pelatihan akan memengaruhi kemampuan model secara signifikan. Bias atau kesenjangan dalam data pelatihan dapat menyebabkan keterbatasan dalam respons model.
    • Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
  • Konteks dan kompleksitas tugas
    • LLM berfungsi lebih baik dalam tugas-tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang terbuka atau sangat kompleks mungkin menantang.
    • Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
  • Ketidakjelasan dan perbedaan bahasa
    • Natural language bersifat kompleks. LLM mungkin kesulitan memahami nuansa, sarkasme, atau bahasa kiasan yang halus.
  • Akurasi faktual
    • LLM menghasilkan respons berdasarkan informasi yang mereka pelajari dari set data pelatihan, tetapi LLM bukanlah pusat informasi. Pertanyaan ini mungkin menghasilkan pernyataan faktual yang salah atau sudah ketinggalan zaman.
  • Pemahaman umum
    • LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.

Pertimbangan dan risiko etis

Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:

  • Bias dan keadilan
    • LLM yang dilatih dengan data teks berskala besar di dunia nyata dapat mencerminkan bias sosial-budaya yang tertanam dalam materi pelatihan. Model ini melalui pemeriksaan yang cermat, memasukkan data pemrosesan yang dijelaskan di awal, dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan penyalahgunaan
    • LLM dapat disalahgunakan untuk menghasilkan teks yang tidak benar, menyesatkan, atau berbahaya.
    • Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model. Lihat Toolkit AI Generatif yang Bertanggung Jawab.
  • Transparansi dan akuntabilitas
    • Kartu model ini merangkum detail tentang proses arsitektur, kemampuan, batasan, dan evaluasi model.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Identifikasi Risiko dan Mitigasi:

  • Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilang bias selama pelatihan model, fine-tuning, dan kasus penggunaan lainnya.
  • Pembuatan konten berbahaya: Mekanisme dan pedoman keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan perlindungan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu mereka.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi bagi developer dan pengguna akhir dapat membantu mengurangi aplikasi berbahaya LLM. Referensi pendidikan dan mekanisme pelaporan bagi pengguna untuk menandai penyalahgunaan disediakan. Penggunaan model Gemma yang dilarang diuraikan dalam persyaratan penggunaan kami.
  • Pelanggaran privasi: Model dilatih menggunakan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Penggunaan yang dimaksudkan

Aplikasi

Model Bahasa Besar (LLM) Terbuka memiliki beragam aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.

  • Pembuatan konten dan komunikasi
    • Pembuatan teks: Model ini dapat digunakan untuk menghasilkan format teks kreatif seperti puisi, skrip, kode, teks pemasaran, draf email, dll.
    • Chatbot dan AI percakapan: Antarmuka percakapan yang canggih untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
    • Peringkasan teks: Membuat ringkasan singkat dari korpus teks, makalah riset, atau laporan.
  • Riset dan pendidikan
    • Riset Natural Language Processing (NLP): Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
    • Alat Pembelajaran Bahasa: Mendukung pengalaman belajar bahasa interaktif, membantu koreksi tata bahasa, atau memberikan latihan menulis.
    • Eksplorasi Pengetahuan: Membantu peneliti dalam menjelajahi kumpulan teks berukuran besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.

Manfaat

Pada saat rilis, kelompok model ini menyediakan implementasi model bahasa besar terbuka berperforma tinggi yang didesain dari awal untuk pengembangan Responsible AI dibandingkan model yang berukuran serupa.

Dengan menggunakan metrik evaluasi benchmark yang dijelaskan dalam dokumen ini, model ini telah terbukti memberikan performa yang unggul dibandingkan alternatif model terbuka lainnya yang berukuran sebanding.

Secara khusus, model RecurrentGemma mencapai performa yang sebanding dengan model Gemma, tetapi lebih cepat selama inferensi dan memerlukan lebih sedikit memori, terutama pada urutan panjang.