Kartu model RecurrentGemma

Halaman model: RecurrentGemma

Referensi dan dokumentasi teknis:

Persyaratan Penggunaan: Persyaratan

Penulis: Google

Informasi model

Ringkasan model

Deskripsi

RecurrentGemma adalah model bahasa terbuka yang dibangun berdasarkan recurrentGemma yang dikembangkan di Google. Keduanya versi terlatih dan sesuai petunjuk tersedia dalam bahasa Inggris.

Seperti Gemma, model RecurrentGemma sangat cocok untuk berbagai pembuatan tugas, termasuk menjawab pertanyaan, perangkuman, dan penalaran. Karena arsitekturnya yang baru, RecurrentGemma membutuhkan lebih sedikit memori daripada Gemma dan mencapai inferensi lebih cepat saat menghasilkan urutan panjang.

Input dan output

  • Input: String teks (misalnya, pertanyaan, perintah, atau dokumen yang akan ringkasan).
  • Output: Teks bahasa Inggris yang dihasilkan sebagai respons terhadap input (mis., jawaban atas pertanyaan, ringkasan dokumen).

Pengutipan

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Data model

Set data pelatihan dan pemrosesan data

RecurrentGemma menggunakan data pelatihan dan pemrosesan data yang sama seperti yang digunakan oleh pada kelompok model Gemma. Deskripsi lengkap dapat ditemukan di model Gemma kartu.

Informasi penerapan

Hardware dan framework yang digunakan selama pelatihan

Suka Gemma, RecurrentGemma dilatih menggunakan TPUv5e, menggunakan JAX dan ML Jalur.

Informasi evaluasi

Hasil benchmark

Pendekatan evaluasi

Model-model ini dievaluasi terhadap sekumpulan besar {i>dataset <i}yang berbeda dan metrik untuk mencakup berbagai aspek pembuatan teks:

Hasil evaluasi

Benchmark Metrik Gemma Berulang 2B Gemma Berulang 9B
MMLU 5 pukulan, 1 terbaik 38,4 60.5
HellaSwag 0 kali 71,0 80,4
PIQA 0 kali 78,5 81,3
SocialIQA 0 kali 51,8 52,3
BoolQ 0 kali 71,3 80,3
WinoGrande skor parsial 67,8 73,6
CommonsenseQA 7 tembakan 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 tembakan 52,5 70,5
Pertanyaan Alam 5 tembakan 11,5 21,7
HumanEval lulus@1 21,3 31,1
MBPP 3 tembakan 28,8 42,0
GSM8K maj@1 13.4 42,6
MATH 4 tembakan 11.0 23,8
AGIEval 23,8 39,3
Bench BESAR 35,3 55,2
Rata-rata 44,6 56,1

Etika dan keselamatan

Evaluasi etika dan keamanan

Pendekatan evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan tim merah internal pengujian kebijakan konten yang relevan. Red-teaming dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan tujuan dan metrik evaluasi manual yang berbeda. Ini model dievaluasi terhadap sejumlah kategori berbeda yang relevan dengan etika dan keselamatan, termasuk:

  • Keamanan konten teks ke teks: Evaluasi manual pada perintah yang membahas keamanan kebijakan termasuk pelecehan seksual dan eksploitasi, pelecehan, dan kekerasan terhadap anak-anak dan adegan menyeramkan, serta ujaran kebencian.
  • Kerugian representasional teks-ke-teks: Tolok ukur terhadap referensi akademis yang relevan seperti WinoBias dan Set Data BBQ.
  • Ingatan: Evaluasi otomatis menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
  • Bahaya berskala besar: Menguji “kemampuan berbahaya”, seperti bahan kimia, risiko biologis, radioologi, dan nuklir (CBRN); serta tes untuk persuasi dan penipuan, pengamanan cyber, dan replikasi otonom.

Hasil evaluasi

Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk rapat internal kebijakan untuk kategori seperti keselamatan anak, keamanan konten, bahaya representatif, menghafal, kerugian berskala besar. Selain evaluasi internal yang ketat, hasil dari tolok ukur keamanan yang terkenal seperti BBQ, Winogender, WinoBias, RealToxicity, dan TruthfulQA ditampilkan di sini.

Benchmark Metrik Gemma Berulang 2B IT 2B Gemma Berulang Gemma Berulang 9B IT RecurrentGemma 9 miliar
RealToxicity rata-rata 9.8 7,60 10.3 8.8
BOLD 39,3 52,3 39,8 47,9
Crows-Pair top-1 41,1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71,1 95,9 67,1
BBQ Disambig top-1 58,4 50,8 78,6 78,9
Winogender top-1 55.1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50,0 58,8 64,5

Penggunaan dan batasan model

Batasan umum

Model-model ini memiliki batasan tertentu yang harus diperhatikan pengguna:

  • Data pelatihan
    • Kualitas dan keberagaman data pelatihan berpengaruh signifikan terhadap kemampuan model. Bias atau kesenjangan dalam data pelatihan dapat menyebabkan terhadap keterbatasan respons model.
    • Cakupan set data pelatihan menentukan area subjek yang digunakan model dapat ditangani secara efektif.
  • Konteks dan kompleksitas tugas
    • LLM lebih baik dalam mengerjakan tugas yang dapat dibingkai dengan perintah yang jelas dan petunjuk. Tugas yang bersifat terbuka atau sangat kompleks mungkin sulit dilakukan.
    • Performa model dapat dipengaruhi oleh jumlah konteks (konteks yang lebih panjang umumnya mengarah pada {i>output<i} yang lebih baik, hingga titik tertentu).
  • Mungkup dan bernuansa bahasa
    • Natural language pada dasarnya sangat kompleks. LLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa figuratif.
  • Akurasi faktual
    • LLM menghasilkan respons berdasarkan informasi yang mereka pelajari dari pelatihan, tetapi bukan pusat informasi. Mereka dapat menghasilkan pernyataan faktual yang salah atau tidak berlaku lagi.
  • Masuk akal
    • LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran masuk akal dalam situasi tertentu.

Pertimbangan dan risiko etis

Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:

  • Bias dan keadilan
    • LLM yang dilatih pada data teks dunia nyata skala besar dapat mencerminkan bias sosial-budaya yang tertanam dalam materi pelatihan. Model-model ini melalui pengawasan yang cermat, pra-pemrosesan data input dijelaskan dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan penyalahgunaan
  • Transparansi dan akuntabilitas
    • Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan kesempatan untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang Diidentifikasi dan Mitigasi:

  • Perpetuasi bias: Disarankan untuk melakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi upaya untuk menghilangkan bias selama pelatihan model, fine-tuning, dan kasus penggunaan lainnya.
  • Generasi konten berbahaya: Mekanisme dan pedoman untuk konten keamanan sangatlah penting. Developer dianjurkan untuk berhati-hati dan menerapkan perlindungan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis dan developer serta pendidikan pengguna akhir dapat membantu memitigasi penerapan LLM yang berbahaya. Sumber daya pendidikan dan mekanisme pelaporan bagi pengguna untuk menandai penyalahgunaan yang Anda berikan. Penggunaan yang dilarang model Gemma diuraikan dalam persyaratan gunakan.
  • Pelanggaran privasi: Model dilatih berdasarkan data yang difilter untuk dihapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Penggunaan yang dimaksudkan

Aplikasi

Model Bahasa Besar Terbuka (LLM) memiliki berbagai macam aplikasi berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah untuk memberikan informasi kontekstual kasus penggunaan yang mungkin dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan Anda.

  • Pembuatan konten dan komunikasi
    • Pembuatan teks: Model ini dapat digunakan untuk membuat teks materi iklan format seperti puisi, skrip, kode, teks pemasaran, draf email, dll.
    • Chatbot dan AI percakapan: Antarmuka percakapan yang canggih untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
    • Peringkasan teks: Membuat ringkasan singkat dari korpus teks, makalah penelitian, atau laporan.
  • Riset dan pendidikan
    • Riset Natural Language Processing (NLP): Model ini dapat menyalurkan sebagai fondasi bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
    • Alat Pembelajaran Bahasa: Mendukung pembelajaran bahasa yang interaktif pengalaman, membantu koreksi tata bahasa atau memberikan latihan menulis.
    • Eksplorasi Pengetahuan: Membantu peneliti dalam menjelajahi alam besar teks dengan membuat ringkasan atau menjawab pertanyaan tentang topik.

Manfaat

Pada saat rilis, kelompok model ini memberikan open source berperforma tinggi implementasi model bahasa besar yang didesain dari awal untuk Responsible pengembangan AI dibandingkan model berukuran serupa.

Dengan menggunakan metrik evaluasi tolok ukur yang dijelaskan dalam dokumen ini, model-model tersebut telah terbukti memberikan performa yang unggul daripada model terbuka lainnya yang berukuran sebanding alternatif.

Secara khusus, model RecurrentGemma mencapai performa yang sebanding dengan Gemma model tetapi lebih cepat selama inferensi dan membutuhkan lebih sedikit memori, terutama pada urutan panjang.