Kartu Model Gemma

Halaman Model: Gemma

Referensi dan Dokumentasi Teknis:

Persyaratan Penggunaan: Persyaratan

Penulis: Google

Informasi Model

Deskripsi ringkasan dan definisi singkat input dan output.

Deskripsi

Gemma adalah kumpulan model terbuka yang ringan dan canggih dari Google, yang dibuat dari penelitian dan teknologi yang sama dengan yang digunakan untuk membuat model Gemini. Model ini adalah model bahasa besar khusus decoder teks-ke-teks, yang tersedia dalam bahasa Inggris, dengan bobot terbuka, varian terlatih, dan varian yang disesuaikan instruksi. Model Gemma sangat cocok untuk berbagai tugas pembuatan teks, termasuk menjawab pertanyaan, meringkas, dan penalaran. Ukurannya yang relatif kecil memungkinkan deployment di lingkungan dengan resource terbatas seperti laptop, desktop, atau infrastruktur cloud milik Anda sendiri, sehingga memudahkan akses ke model AI tercanggih dan membantu menumbuhkan inovasi bagi semua orang.

Input dan output

  • Input: String teks, misalnya pertanyaan, perintah, atau dokumen yang akan diringkas.
  • Output: Teks bahasa Inggris yang dihasilkan sebagai respons terhadap input, seperti jawaban atas pertanyaan atau ringkasan dokumen.

Kutipan

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Data Model

Data yang digunakan untuk pelatihan model dan cara data diproses.

Set Data Pelatihan

Model ini dilatih dengan set data teks yang mencakup berbagai sumber, dengan total 6 triliun token. Berikut ini komponen utamanya:

  • Dokumen Web: Koleksi teks web yang beragam memastikan model diekspos ke berbagai gaya, topik, dan kosakata linguistik. Terutama konten berbahasa Inggris.
  • Kode: Mengekspos model ke kode akan membantu model mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk membuat kode atau memahami pertanyaan terkait kode.
  • Matematika: Pelatihan teks matematis membantu model ini mempelajari penalaran logis, representasi simbolis, dan untuk menangani kueri matematika.

Kombinasi sumber data yang beragam ini sangat penting untuk melatih model bahasa yang andal yang dapat menangani berbagai tugas dan format teks yang berbeda.

Prapemrosesan Data

Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan pada data pelatihan:

  • Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang Ketat diterapkan di beberapa tahap dalam proses persiapan data untuk memastikan konten yang berbahaya dan ilegal tidak termasuk.
  • Pemfilteran Data Sensitif: Sebagai bagian dari upaya membuat model terlatih Gemma menjadi aman dan dapat diandalkan, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
  • Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.

Informasi Penerapan

Detail tentang internal model.

Hardware

Gemma dilatih menggunakan hardware Tensor Processing Unit (TPU) generasi terbaru (TPUv5e).

Melatih model bahasa besar membutuhkan daya komputasi yang signifikan. TPU, yang dirancang khusus untuk operasi matriks yang umum dalam machine learning, menawarkan beberapa keuntungan dalam domain ini:

  • Performa: TPU dirancang khusus untuk menangani komputasi besar yang terlibat dalam pelatihan LLM. Teknologi ini dapat mempercepat pelatihan secara signifikan dibandingkan CPU.
  • Memori: TPU sering kali dilengkapi dengan memori bandwidth tinggi dalam jumlah besar, sehingga dapat menangani model besar dan ukuran batch selama pelatihan. Hal ini dapat menghasilkan kualitas model yang lebih baik.
  • Skalabilitas: Pod TPU (cluster TPU yang besar) menyediakan solusi skalabel untuk menangani kompleksitas model dasar yang besar dan semakin kompleks. Anda dapat mendistribusikan pelatihan di beberapa perangkat TPU untuk pemrosesan yang lebih cepat dan efisien.
  • Efektivitas biaya: Dalam banyak skenario, TPU dapat memberikan solusi yang lebih hemat biaya untuk melatih model besar dibandingkan dengan infrastruktur berbasis CPU, terutama jika mempertimbangkan waktu dan resource yang dihemat karena pelatihan yang lebih cepat.
  • Manfaat ini selaras dengan komitmen Google untuk beroperasi secara berkelanjutan.

Software

Pelatihan dilakukan menggunakan JAX dan Jalur ML.

Dengan JAX, peneliti dapat memanfaatkan hardware generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien.

ML Pathways adalah upaya terbaru Google untuk membangun sistem kecerdasan buatan yang mampu melakukan generalisasi ke beberapa tugas. Ini sangat cocok untuk model dasar, termasuk model bahasa besar seperti ini.

Secara bersamaan, JAX dan ML Pathways digunakan seperti yang dijelaskan dalam makalah tentang kelompok model Gemini; "model pemrograman 'single controller' dari Jax and Pathways memungkinkan satu proses Python untuk mengatur seluruh proses pelatihan, sehingga secara signifikan menyederhanakan alur kerja pengembangan."

Evaluasi

Metrik dan hasil evaluasi model.

Hasil Tolok Ukur

Model ini dievaluasi terhadap kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks:

Benchmark Metrik Gemma PT 2B Gemma PT 7B
MMLU 5-tembakan, top-1 42,3 64,3
HellaSwag Pukulan0 71,4 81,2
PIQA Pukulan0 77,3 81,2
SocialIQA Pukulan0 49,7 51,8
BoolQ Pukulan0 69,4 83,2
WinoGrande skor parsial 65,4 72,3
CommonsenseQA 7 tembakan 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53,2
TriviaQA 5 tembakan 53,2 63,4
Pertanyaan Alami 5 tembakan 12,5 23,0
HumanEval sandi@1 22,0 32,3
MBPP 3 tembakan 29,2 44,4
GSM8K maj@1 17,7 46,4
MATH 4 tembakan 11.8 24,3
AGIEval 24,2 41,7
Bench BESAR 35,2 55.1
Rata-rata 44,9 56,4

Etika dan Keamanan

Pendekatan dan hasil evaluasi etika dan keamanan.

Pendekatan Evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian tim merah internal terhadap kebijakan konten yang relevan. Red-team dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model-model ini dievaluasi berdasarkan sejumlah kategori berbeda yang relevan dengan etika dan keamanan, termasuk:

  • Keamanan Konten Teks ke Teks: Evaluasi manual terhadap perintah yang mencakup kebijakan keamanan termasuk eksploitasi dan pelecehan seksual terhadap anak-anak, pelecehan, kekerasan dan adegan menyeramkan, serta ujaran kebencian.
  • Bahaya Representasi Teks-ke-Teks: Tolok ukur terhadap set data akademis yang relevan seperti WinoBias dan Set Data BBQ.
  • Penghafalan: Evaluasi otomatis menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
  • Bahaya berskala besar: Pengujian untuk "kemampuan berbahaya", seperti risiko kimia, biologi, radiologis, dan nuklir (CBRN).

Hasil Evaluasi

Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk kategori seperti keselamatan anak, keamanan konten, bahaya representasional, penghafalan, bahaya dalam skala besar. Selain evaluasi internal yang kuat, hasil benchmark keamanan terkenal seperti BBQ, BOLD, Winogender, Winobias, RealToxicity, dan TruthfulQA ditampilkan di sini.

Gemma 1.0

Benchmark Metrik Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity rata-rata 6,86 7,90
BERANI 45,57 49,08
CrowS-Pair top-1 45,82 51,33
BBQ Ambig 1-shot, top-1 62,58 92,54
Disamarkan BBB top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toksigen 29,77 39,59

Gemma 1.1

Benchmark Metrik Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity rata-rata 7,03 8,04
BERANI 47,76
CrowS-Pair top-1 45,89 49,67
BBQ Ambig 1-shot, top-1 58,97 86,06
Disamarkan BBB top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toksigen 29,64 38,75

Penggunaan dan Batasan

Model ini memiliki batasan tertentu yang harus diketahui pengguna.

Maksud Penggunaan

Model Bahasa Besar (LLM) Terbuka memiliki beragam aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.

  • Pembuatan Konten dan Komunikasi
    • Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks kreatif, seperti puisi, skrip, kode, teks pemasaran, dan draf email.
    • Chatbot dan AI Percakapan: Mendukung antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
    • Peringkasan Teks: Membuat ringkasan singkat dari korpus teks, makalah penelitian, atau laporan.
  • Riset dan Pendidikan
    • Natural Language Processing (NLP): Model ini dapat berfungsi sebagai fondasi bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang.
    • Alat Pembelajaran Bahasa: Mendukung pengalaman belajar bahasa interaktif, membantu koreksi tata bahasa, atau memberikan latihan menulis.
    • Eksplorasi Pengetahuan: Membantu peneliti menjelajahi kumpulan teks berukuran besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.

Batasan

  • Data Pelatihan
    • Kualitas dan keberagaman data pelatihan secara signifikan memengaruhi kemampuan model. Bias atau celah dalam data pelatihan dapat menyebabkan batasan dalam respons model.
    • Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
  • Konteks dan Kompleksitas Tugas
    • LLM berfungsi lebih baik dalam tugas-tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang terbuka atau sangat kompleks mungkin menantang.
    • Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
  • Ambiguitas dan Nuansa Bahasa
    • Natural language bersifat kompleks. LLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
  • Akurasi Faktual
    • LLM menghasilkan respons berdasarkan informasi yang mereka pelajari dari set data pelatihan, tetapi LLM bukanlah pusat informasi. Pertanyaan ini mungkin menghasilkan pernyataan faktual yang salah atau sudah ketinggalan zaman.
  • Common Sense
    • LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.

Pertimbangan dan Risiko Etis

Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:

  • Bias dan Keadilan
    • LLM yang dilatih dengan data teks berskala besar dan nyata dapat mencerminkan bias sosial-budaya yang tersemat dalam materi pelatihan. Model ini menjalani pemeriksaan yang cermat, pra-pemrosesan data input yang dijelaskan, dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan Penyalahgunaan
    • LLM dapat disalahgunakan untuk menghasilkan teks yang tidak benar, menyesatkan, atau berbahaya.
    • Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model ini. Lihat Toolkit AI Generatif yang Bertanggung Jawab.
  • Transparansi dan Akuntabilitas:
    • Kartu model ini merangkum detail tentang proses arsitektur, kemampuan, batasan, dan evaluasi model.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang diidentifikasi dan mitigasi:

  • Perpetuasian bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik de-bias selama pelatihan model, fine-tuning, dan kasus penggunaan lainnya.
  • Pembuatan konten berbahaya: Mekanisme dan pedoman keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan perlindungan keamanan konten yang sesuai berdasarkan kebijakan produk tertentu dan kasus penggunaan aplikasi mereka.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi bagi developer dan pengguna akhir dapat membantu mengurangi aplikasi berbahaya LLM. Referensi pendidikan dan mekanisme pelaporan bagi pengguna untuk menandai penyalahgunaan disediakan. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
  • Pelanggaran privasi: Model dilatih menggunakan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Manfaat

Pada saat rilis, kelompok model ini menyediakan implementasi model bahasa besar terbuka berperforma tinggi yang didesain dari awal untuk pengembangan Responsible AI dibandingkan model yang berukuran serupa.

Dengan menggunakan metrik evaluasi benchmark yang dijelaskan dalam dokumen ini, model ini telah terbukti memberikan performa yang unggul dibandingkan alternatif model terbuka lainnya yang berukuran sebanding.