Kartu model RecurrentGemma

Halaman model: RecurrentGemma

Referensi dan dokumentasi teknis:

Persyaratan Penggunaan: Persyaratan

Penulis: Google

Informasi model

Ringkasan model

Deskripsi

RecurrentGemma adalah kelompok model bahasa terbuka yang dibangun dengan arsitektur berulang baru yang dikembangkan di Google. Baik versi terlatih maupun versi yang disesuaikan petunjuk tersedia dalam bahasa Inggris.

Seperti Gemma, model RecurrentGemma sangat cocok untuk berbagai tugas pembuatan teks, termasuk menjawab pertanyaan, perangkuman, dan penalaran. Karena arsitekturnya yang baru, RecurrentGemma memerlukan lebih sedikit memori daripada Gemma dan mencapai inferensi yang lebih cepat saat menghasilkan urutan panjang.

Input dan output

  • Input: String teks (misalnya, pertanyaan, perintah, atau dokumen yang akan diringkas).
  • Output: Teks bahasa Inggris yang dihasilkan sebagai respons terhadap input (misalnya, jawaban pertanyaan, ringkasan dokumen).

Kutipan

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Data model

Set data pelatihan dan pemrosesan data

RecurrentGemma menggunakan data pelatihan dan pemrosesan data yang sama seperti yang digunakan oleh kelompok model Gemma. Deskripsi lengkap dapat ditemukan di kartu model Gemma.

Informasi penerapan

Hardware dan framework yang digunakan selama pelatihan

Seperti Gemma, RecurrentGemma dilatih menggunakan TPUv5e, menggunakan JAX dan ML Pathways.

Informasi evaluasi

Hasil benchmark

Pendekatan evaluasi

Model ini dievaluasi berdasarkan kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks:

Hasil evaluasi

Benchmark Metrik Gemma Berulang 2B Gemma Berulang 9B
MMLU 5 pukulan, 1 terbaik 38,4 60.5
HellaSwag 0 kali 71,0 80,4
PIQA 0 kali 78,5 81,3
SocialIQA 0 kali 51,8 52,3
BoolQ 0 kali 71,3 80,3
WinoGrande skor parsial 67,8 73,6
CommonsenseQA 7 tembakan 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 tembakan 52,5 70,5
Pertanyaan Alam 5 tembakan 11,5 21,7
HumanEval lulus@1 21,3 31,1
MBPP 3 tembakan 28,8 42,0
GSM8K maj@1 13.4 42,6
MATH 4 tembakan 11.0 23,8
AGIEval 23,8 39,3
Bench BESAR 35,3 55,2
Rata-rata 44,6 56,1

Etika dan keselamatan

Evaluasi etika dan keamanan

Pendekatan evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian internal tim internal terhadap kebijakan konten yang relevan. {i>Red-teaming<i} dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan tujuan dan metrik evaluasi manusia yang berbeda. Model ini dievaluasi berdasarkan sejumlah kategori berbeda yang relevan dengan etika dan keamanan, termasuk:

  • Keamanan konten teks-ke-teks: Evaluasi manual pada perintah yang mencakup kebijakan keamanan, termasuk eksploitasi dan pelecehan seksual terhadap anak-anak, pelecehan, kekerasan dan adegan menyeramkan, serta ujaran kebencian.
  • Kerugian representasional teks-ke-teks: Membandingkan terhadap set data akademik yang relevan seperti WinoBias dan Set Data BBQ.
  • Menghafal: Evaluasi otomatis terhadap menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
  • Bahaya berskala besar: Menguji “kemampuan berbahaya”, seperti risiko kimia, biologis, radiologi, dan nuklir (CBRN); serta pengujian untuk persuasi dan penipuan, pengamanan cyber, dan replikasi otonom.

Hasil evaluasi

Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk berbagai kategori seperti keselamatan anak, keamanan konten, bahaya representasional, hafalan, bahaya berskala besar. Selain evaluasi internal yang andal, hasil tolok ukur keamanan yang terkenal seperti BBQ, Winogender, WinoBias, RealToxicity, dan TruthfulQA ditampilkan di sini.

Benchmark Metrik Gemma Berulang 2B IT 2B Gemma Berulang Gemma Berulang 9B IT RecurrentGemma 9 miliar
RealToxicity rata-rata 9.8 7,60 10.3 8.8
BERANI 39,3 52,3 39,8 47,9
Crows-Pair top-1 41,1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71,1 95,9 67,1
BBQ Disambig top-1 58,4 50,8 78,6 78,9
Winogender top-1 55.1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toksigen 56,7 50,0 58,8 64,5

Penggunaan dan batasan model

Batasan umum

Model-model ini memiliki batasan tertentu yang harus diperhatikan pengguna:

  • Data pelatihan
    • Kualitas dan keberagaman data pelatihan memengaruhi kemampuan model secara signifikan. Bias atau kesenjangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
    • Cakupan set data pelatihan menentukan area subjek yang dapat ditangani secara efektif oleh model.
  • Konteks dan kompleksitas tugas
    • LLM lebih baik dalam menangani tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang bersifat terbuka atau sangat kompleks mungkin sulit dilakukan.
    • Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
  • Mungkup dan bernuansa bahasa
    • Natural language pada dasarnya sangat kompleks. LLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa figuratif.
  • Akurasi faktual
    • LLM menghasilkan respons berdasarkan informasi yang mereka pelajari dari set data pelatihan mereka, tetapi LLM bukanlah pusat informasi. Laporan tersebut mungkin menghasilkan pernyataan faktual yang salah atau sudah usang.
  • Masuk akal
    • LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran masuk akal dalam situasi tertentu.

Pertimbangan dan risiko etis

Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:

  • Bias dan keadilan
    • LLM yang dilatih menggunakan data teks dunia nyata berskala besar dapat mencerminkan bias sosial-budaya yang tersemat dalam materi pelatihan. Model-model ini telah melalui pengawasan yang cermat, data input yang telah diproses dijelaskan sebelumnya, dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan penyalahgunaan
  • Transparansi dan akuntabilitas
    • Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang Diidentifikasi dan Mitigasi:

  • Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, fine-tuning, dan kasus penggunaan lainnya.
  • Generasi konten berbahaya: Mekanisme dan panduan untuk keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu milik mereka.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu mengurangi penerapan LLM yang berbahaya. Referensi pendidikan dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan disediakan. Penggunaan yang dilarang atas model Gemma diuraikan dalam persyaratan penggunaan kami.
  • Pelanggaran privasi: Model dilatih berdasarkan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Penggunaan yang dimaksudkan

Aplikasi

Model Bahasa Besar Terbuka (LLM) memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan model.

  • Pembuatan konten dan komunikasi
    • Pembuatan teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, draf email, dll.
    • Chatbot dan AI percakapan: Mendukung antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
    • Peringkasan teks: Membuat ringkasan singkat dari korpus teks, makalah riset, atau laporan.
  • Riset dan pendidikan
    • Riset Natural Language Processing (NLP): Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
    • Alat Pembelajaran Bahasa: Mendukung pengalaman belajar bahasa yang interaktif, membantu mengoreksi tata bahasa atau menyediakan latihan menulis.
    • Eksplorasi Pengetahuan: Membantu peneliti dalam menjelajahi teks dalam jumlah besar dengan menghasilkan ringkasan atau menjawab pertanyaan tentang topik tertentu.

Manfaat

Pada saat rilis, kelompok model ini menyediakan implementasi model bahasa besar terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan Responsible AI dibandingkan dengan model berukuran serupa.

Dengan menggunakan metrik evaluasi benchmark yang dijelaskan dalam dokumen ini, model ini telah terbukti memberikan performa yang lebih unggul daripada alternatif model terbuka lainnya yang berukuran sebanding.

Secara khusus, model RecurrentGemma mencapai performa yang sebanding dengan model Gemma, tetapi lebih cepat selama inferensi dan memerlukan lebih sedikit memori, terutama pada urutan yang panjang.