Halaman Model: Gemma
Referensi dan Dokumentasi Teknis:
Persyaratan Penggunaan: Persyaratan
Penulis: Google
Informasi Model
Deskripsi ringkasan dan definisi singkat input dan output.
Deskripsi
Gemma adalah rangkaian model terbuka yang ringan dan canggih dari Google, yang dibangun dari riset dan teknologi yang sama dengan yang digunakan untuk membuat model Gemini. Model ini adalah model bahasa besar khusus decoder teks ke teks, yang tersedia dalam bahasa Inggris, dengan bobot terbuka untuk varian terlatih dan varian yang disesuaikan petunjuk. Model Gemma sangat cocok untuk berbagai tugas pembuatan teks, termasuk menjawab pertanyaan, perangkuman, dan penalaran. Ukurannya yang relatif kecil memungkinkan untuk di-deploy di lingkungan dengan resource terbatas seperti laptop, desktop, atau infrastruktur cloud Anda sendiri, memperluas akses ke model AI tercanggih dan membantu menumbuhkan inovasi bagi semua orang.
Input dan output
- Input: String teks, seperti pertanyaan, perintah, atau dokumen yang akan diringkas.
- Output: Teks bahasa Inggris yang dihasilkan sebagai respons terhadap input, seperti jawaban pertanyaan atau ringkasan dokumen.
Kutipan
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
Data Model
Data yang digunakan untuk pelatihan model dan cara data diproses.
Set Data Pelatihan
Model ini dilatih menggunakan set data data teks yang mencakup berbagai sumber. Model 27B dilatih dengan 13 triliun token dan model 9B dilatih dengan 8 triliun token. Berikut adalah komponen utamanya:
- Dokumen Web: Kumpulan teks web yang beragam memastikan model terekspos ke berbagai gaya linguistik, topik, dan kosakata. Terutama untuk konten berbahasa Inggris.
- Kode: Dengan mengekspos model ke kode, model tersebut dapat mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk menghasilkan kode atau memahami pertanyaan terkait kode.
- Matematika: Pelatihan teks matematika membantu model mempelajari penalaran logis, representasi simbolis, dan menjawab kueri matematika.
Kombinasi beragam sumber data ini sangat penting untuk melatih model bahasa canggih yang dapat menangani berbagai tugas dan format teks.
Prapemrosesan Data
Berikut adalah metode utama pembersihan dan pemfilteran data yang diterapkan pada data pelatihan:
- Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di beberapa tahap dalam proses persiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
- Pemfilteran Data Sensitif: Sebagai bagian dari upaya untuk menjadikan model terlatih Gemma aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
- Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.
Informasi Penerapan
Detail tentang internal model.
Hardware
Gemma dilatih menggunakan hardware Tensor Processing Unit (TPU) generasi terbaru (TPUv5p).
Melatih model bahasa besar memerlukan daya komputasi yang signifikan. TPU, yang dirancang khusus untuk operasi matriks yang umum dalam machine learning, menawarkan beberapa keuntungan dalam domain ini:
- Performa: TPU dirancang khusus untuk menangani komputasi masif yang terlibat dalam pelatihan LLM. CPU dapat mempercepat pelatihan secara jauh dibandingkan dengan CPU.
- Memori: TPU sering kali memiliki memori bandwidth tinggi dalam jumlah besar, sehingga memungkinkan penanganan model besar dan ukuran batch selama pelatihan. Hal ini dapat menghasilkan kualitas model yang lebih baik.
- Skalabilitas: Pod TPU (cluster TPU besar) memberikan solusi skalabel untuk menangani kompleksitas model dasar yang besar yang makin kompleks. Anda dapat mendistribusikan pelatihan di beberapa perangkat TPU untuk pemrosesan yang lebih cepat dan efisien.
- Efektivitas biaya: Dalam banyak skenario, TPU dapat memberikan solusi yang lebih hemat biaya untuk melatih model besar dibandingkan infrastruktur berbasis CPU, terutama saat mempertimbangkan waktu dan resource yang dihemat karena pelatihan yang lebih cepat.
- Keuntungan ini selaras dengan komitmen Google untuk beroperasi secara berkelanjutan.
Software
Pelatihan dilakukan menggunakan JAX dan ML Pathways.
JAX memungkinkan peneliti memanfaatkan hardware generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien.
ML Pathways adalah upaya terbaru Google untuk membangun sistem dengan kecerdasan buatan yang mampu menggeneralisasi di berbagai tugas. Hal ini sangat cocok untuk model dasar, termasuk model bahasa besar seperti model ini.
Bersama-sama, JAX dan ML Pathways digunakan seperti yang dijelaskan dalam makalah tentang kelompok model Gemini; "model pemrograman 'pengontrol tunggal' Jax dan Pathways memungkinkan satu proses Python untuk mengorkestrasi seluruh sesi pelatihan, sehingga menyederhanakan alur kerja pengembangan secara signifikan."
Evaluasi
Metrik dan hasil evaluasi model.
Hasil Tolok Ukur
Model ini dievaluasi berdasarkan kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks:
Benchmark | Metrik | Gemma PT 9B | Gemma PT 27B |
---|---|---|---|
MMLU | 5 pukulan, 1 terbaik | 71,3 | 75,2 |
HellaSwag | 10 kali | 81,9 | 86,4 |
PIQA | 0 kali | 81,7 | 83,2 |
SocialIQA | 0 kali | 53,4 | 53,7 |
BoolQ | 0 kali | 84,2 | 84,8 |
WinoGrande | skor parsial | 80,6 | 83,7 |
ARC-e | 0 kali | 88,0 | 88,6 |
ARC-c | 25 kali | 68,4 | 71,4 |
TriviaQA | 5 tembakan | 76,6 | 83,7 |
Pertanyaan Alam | 5 tembakan | 29,2 | 34,5 |
HumanEval | lulus@1 | 40,2 | 51,8 |
MBPP | 3 tembakan | 52,4 | 62,6 |
GSM8K | 5 kali tembakan, maj@1 | 68,6 | 74,0 |
MATH | 4 tembakan | 36,6 | 42,3 |
AGIEval | 3-5 tembakan | 52,8 | 55.1 |
Bench BESAR | 3 kali tembakan, Karet | 68.2 | 74,9 |
Etika dan Keamanan
Pendekatan dan hasil evaluasi etika dan keamanan.
Pendekatan Evaluasi
Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian internal tim internal terhadap kebijakan konten yang relevan. {i>Red-teaming<i} dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan tujuan dan metrik evaluasi manusia yang berbeda. Model ini dievaluasi berdasarkan sejumlah kategori berbeda yang relevan dengan etika dan keamanan, termasuk:
- Keamanan Konten Text-to-Text: Evaluasi manual terhadap perintah yang mencakup kebijakan keamanan termasuk eksploitasi dan pelecehan seksual terhadap anak-anak, pelecehan, kekerasan dan adegan menyeramkan, serta ujaran kebencian.
- Kerugian Representasi Text-to-Text: Melakukan tolok ukur terhadap set data akademik yang relevan, seperti WinoBias dan Set Data BBQ.
- Menghafal: Evaluasi otomatis terhadap menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
- Kerugian berskala besar: Menguji "kemampuan berbahaya", seperti risiko kimia, biologis, radiologi, dan nuklir (CBRN).
Hasil Evaluasi
Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk berbagai kategori seperti keselamatan anak, keamanan konten, bahaya representasional, menghafal, bahaya berskala besar. Selain evaluasi internal yang andal, hasil benchmark keamanan terkenal seperti BBQ, BOLD, Winogender, Winobias, RealToxicity, dan TruthfulQA ditampilkan di sini.
Gemma 2.0
Benchmark | Metrik | Gemma 2 TI 9 M | Gemma 2 TI 27 M |
---|---|---|---|
RealToxicity | rata-rata | 8,25 | 8,84 |
Crows-Pair | top-1 | 37,47 | 36,67 |
BBQ Ambig | 1 pukulan, teratas | 88,58 | 85,99 |
BBQ Disambig | top-1 | 82,67 | 86,94 |
Winogender | top-1 | 79,17 | 77,22 |
TruthfulQA | 50,27 | 51,60 | |
Winobias 1_2 | 78,09 | 81,94 | |
Winobias 2_2 | 95,32 | 97,22 | |
Toksigen | 39,30 | 38,42 |
Penggunaan dan Batasan
Model-model ini memiliki batasan tertentu yang harus diperhatikan oleh pengguna.
Penggunaan yang Dimaksudkan
Model Bahasa Besar Terbuka (LLM) memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan model.
- Pembuatan Konten dan Komunikasi
- Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, dan draf email.
- Chatbot dan AI Percakapan: Antarmuka percakapan yang andal untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
- Peringkasan Teks: Buat ringkasan singkat dari korpus teks, makalah penelitian, atau laporan.
- Riset dan Pendidikan
- Natural Language Processing (NLP): Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
- Alat Pembelajaran Bahasa: Mendukung pengalaman belajar bahasa yang interaktif, membantu koreksi tata bahasa atau memberikan latihan menulis.
- Eksplorasi Pengetahuan: Membantu peneliti mempelajari teks dalam jumlah besar dengan menghasilkan ringkasan atau menjawab pertanyaan tentang topik tertentu.
Batasan
- Data Pelatihan
- Kualitas dan keberagaman data pelatihan memengaruhi kemampuan model secara signifikan. Bias atau celah dalam data pelatihan dapat menyebabkan batasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani secara efektif oleh model.
- Konteks dan Kompleksitas Tugas
- LLM lebih baik dalam menangani tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang bersifat terbuka atau sangat kompleks mungkin sulit dilakukan.
- Performa model dapat dipengaruhi oleh jumlah konteks yang disediakan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
- Ambiguitas dan Nuansa Bahasa
- Natural language pada dasarnya sangat kompleks. LLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa figuratif.
- Akurasi Faktual
- LLM menghasilkan respons berdasarkan informasi yang mereka pelajari dari set data pelatihan mereka, tetapi LLM bukanlah pusat informasi. Laporan tersebut mungkin menghasilkan pernyataan faktual yang salah atau sudah usang.
- Akal Umum
- LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran masuk akal dalam situasi tertentu.
Pertimbangan dan Risiko Etis
Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:
- Bias dan Keadilan
- LLM yang dilatih menggunakan data teks dunia nyata berskala besar dapat mencerminkan bias sosial-budaya yang tertanam dalam materi pelatihan. Model ini telah menjalani pemeriksaan cermat, input data pra-pemrosesan yang dijelaskan, dan evaluasi posterior yang dilaporkan dalam kartu ini.
- Misinformasi dan Penyalahgunaan
- LLM dapat disalahgunakan untuk menghasilkan teks yang palsu, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model. Lihat Responsible Generative AI Toolkit.
- Transparansi dan Akuntabilitas:
- Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.
Risiko yang diidentifikasi dan mitigasi:
- Terus-menerus bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, penyesuaian nilai, dan kasus penggunaan lainnya.
- Pembuatan konten berbahaya: Mekanisme dan pedoman untuk keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk khusus dan kasus penggunaan aplikasi mereka.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu memitigasi aplikasi LLM berbahaya. Referensi pendidikan dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan disediakan. Penggunaan terlarang model Gemma diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
- Pelanggaran privasi: Model dilatih menggunakan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
Manfaat
Pada saat rilis, kelompok model ini menyediakan implementasi model bahasa besar terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan Responsible AI dibandingkan dengan model berukuran serupa.
Dengan menggunakan metrik evaluasi benchmark yang dijelaskan dalam dokumen ini, model ini telah terbukti memberikan performa yang lebih unggul daripada alternatif model terbuka lainnya yang berukuran sebanding.