Kartu model Gemma 2

Halaman Model: Gemma

Referensi dan Dokumentasi Teknis:

Persyaratan Penggunaan: Persyaratan

Authors: Google

Informasi Model

Deskripsi ringkasan dan definisi singkat input dan output.

Deskripsi

Gemma adalah sekumpulan model terbuka yang ringan dan canggih dari Google, yang dibuat dari riset dan teknologi yang sama dengan yang digunakan untuk membuat model Gemini. Model ini adalah model bahasa besar khusus decoder text-to-text, tersedia dalam bahasa Inggris, dengan bobot terbuka untuk varian terlatih dan varian yang disesuaikan dengan petunjuk. Model Gemma sangat cocok untuk berbagai tugas pembuatan teks, termasuk menjawab pertanyaan, membuat ringkasan, dan penalaran. Ukurannya yang relatif kecil memungkinkan deployment di lingkungan dengan resource terbatas seperti laptop, desktop, atau infrastruktur cloud Anda sendiri, sehingga mendemokratisasi akses ke model AI canggih dan membantu mendorong inovasi bagi semua orang.

Input dan output

  • Input: String teks, seperti pertanyaan, perintah, atau dokumen yang akan diringkas.
  • Output: Teks berbahasa Inggris yang dihasilkan sebagai respons terhadap input, seperti jawaban atas pertanyaan, atau ringkasan dokumen.

Pengutipan

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Model Data

Data yang digunakan untuk pelatihan model dan cara data diproses.

Set Data Pelatihan

Model ini dilatih menggunakan set data teks yang mencakup berbagai sumber. Model 27 miliar dilatih dengan 13 triliun token, model 9 miliar dilatih dengan 8 triliun token, dan model 2 miliar dilatih dengan 2 triliun token. Berikut adalah komponen utamanya:

  • Dokumen Web: Koleksi teks web yang beragam memastikan model terekspos ke berbagai gaya linguistik, topik, dan kosakata. Konten utama dalam bahasa Inggris.
  • Kode: Mengekspos model ke kode membantunya mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk membuat kode atau memahami pertanyaan terkait kode.
  • Matematika: Pelatihan pada teks matematika membantu model mempelajari penalaran logis, representasi simbolis, dan untuk menangani kueri matematika.

Kombinasi sumber data yang beragam ini sangat penting untuk melatih model bahasa yang canggih yang dapat menangani berbagai tugas dan format teks yang berbeda.

Prapemrosesan Data

Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan ke data pelatihan:

  • Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di beberapa tahap dalam proses persiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
  • Pemfilteran Data Sensitif: Sebagai bagian dari upaya untuk membuat model terlatih Gemma aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
  • Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten yang sesuai dengan kebijakan kami.

Informasi Penerapan

Detail tentang internal model.

Hardware

Gemma dilatih menggunakan hardware Tensor Processing Unit (TPU) generasi terbaru (TPUv5p).

Melatih model bahasa besar memerlukan daya komputasi yang signifikan. TPU, yang dirancang khusus untuk operasi matriks yang umum digunakan dalam machine learning, menawarkan beberapa keunggulan dalam domain ini:

  • Performa: TPU dirancang khusus untuk menangani komputasi besar yang terlibat dalam pelatihan LLM. TPU dapat mempercepat pelatihan secara signifikan dibandingkan dengan CPU.
  • Memori: TPU sering kali dilengkapi dengan memori bandwidth tinggi dalam jumlah besar, sehingga memungkinkan penanganan model dan ukuran batch yang besar selama pelatihan. Hal ini dapat meningkatkan kualitas model.
  • Skalabilitas: Pod TPU (cluster TPU besar) memberikan solusi skalabel untuk menangani kompleksitas model fondasi besar yang semakin meningkat. Anda dapat mendistribusikan pelatihan di beberapa perangkat TPU untuk pemrosesan yang lebih cepat dan efisien.
  • Efektivitas biaya: Dalam banyak skenario, TPU dapat memberikan solusi yang lebih hemat biaya untuk melatih model besar dibandingkan dengan infrastruktur berbasis CPU, terutama jika mempertimbangkan waktu dan resource yang dihemat karena pelatihan yang lebih cepat.
  • Keunggulan ini selaras dengan komitmen Google untuk beroperasi secara berkelanjutan.

Software

Pelatihan dilakukan menggunakan JAX dan ML Pathways.

JAX memungkinkan peneliti memanfaatkan hardware generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien.

ML Pathways adalah upaya terbaru Google untuk membangun sistem kecerdasan buatan yang mampu melakukan generalisasi di beberapa tugas. Hal ini sangat cocok untuk model dasar, termasuk model bahasa besar seperti ini.

Bersama-sama, JAX dan ML Pathways digunakan seperti yang dijelaskan dalam makalah tentang keluarga model Gemini; "model pemrograman 'pengontrol tunggal' dari Jax dan Pathways memungkinkan satu proses Python untuk mengatur seluruh pelatihan yang dijalankan, sehingga menyederhanakan alur kerja pengembangan secara drastis".

Evaluasi

Metrik dan hasil evaluasi model.

Hasil Benchmark

Model ini dievaluasi berdasarkan kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks:

Benchmark Metrik Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5-shot, top-1 51,3 71,3 75,2
HellaSwag 10-shot 73,0 81,9 86,4
PIQA 0-shot 77,8 81,7 83,2
SocialIQA 0-shot 51,9 53,4 53,7
BoolQ 0-shot 72,5 84,2 84,8
WinoGrande skor parsial 70,9 80,6 83,7
ARC-e 0-shot 80,1 88,0 88,6
ARC-c 25 shot 55,4 68,4 71,4
TriviaQA 5-shot 59,4 76,6 83,7
Pertanyaan Alami 5-shot 16,7 29,2 34,5
HumanEval pass@1 17,7 40,2 51,8
MBPP 3-shot 29,6 52,4 62,6
GSM8K 5-shot, maj@1 23,9 68,6 74,0
MATH 4-shot 15,0 36,6 42,3
AGIEval 3-5-shot 30.6 52,8 55.1
DROP 3-shot, F1 52,0 69,4 72,2
BIG-Bench 3-shot, CoT 41,9 68.2 74,9

Etika dan Keselamatan

Pendekatan dan hasil evaluasi etika dan keamanan.

Pendekatan Evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian red team internal terhadap kebijakan konten yang relevan. Tim red-teaming dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model ini dievaluasi berdasarkan sejumlah kategori yang berbeda dan relevan dengan etika dan keamanan, termasuk:

  • Keamanan Konten Text-to-Text: Evaluasi manual pada perintah yang mencakup kebijakan keamanan termasuk eksploitasi dan pelecehan seksual terhadap anak-anak, pelecehan, kekerasan dan luka berdarah, serta ujaran kebencian.
  • Bahaya Representasi Teks ke Teks: Lakukan benchmark terhadap set data akademis yang relevan seperti WinoBias dan BBQ Dataset.
  • Memorisasi: Evaluasi otomatis atas proses menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
  • Bahaya berskala besar: Pengujian untuk "kemampuan berbahaya", seperti risiko kimia, biologi, radiologi, dan nuklir (CBRN).

Hasil Evaluasi

Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk kategori seperti keamanan anak, keamanan konten, bahaya representasi, menghafal, bahaya berskala besar. Selain evaluasi internal yang andal, hasil benchmark keamanan terkenal seperti BBQ, BOLD, Winogender, Winobias, RealToxicity, dan TruthfulQA ditampilkan di sini.

Gemma 2.0

Benchmark Metrik Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity rata-rata 8,16 8,25 8,84
CrowS-Pairs top-1 37,67 37,47 36,67
BBQ Ambig 1-shot, top-1 83,20 88,58 85,99
BBQ Disambig top-1 69,31 82,67 86,94
Winogender top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Evaluasi Kemampuan Berbahaya

Pendekatan Evaluasi

Kami mengevaluasi berbagai kemampuan berbahaya:

  • Keamanan siber ofensif: Untuk menilai potensi penyalahgunaan model dalam konteks keamanan siber, kami menggunakan platform Capture-the-Flag (CTF) yang tersedia secara publik seperti InterCode-CTF dan Hack the Box, serta tantangan CTF yang dikembangkan secara internal. Evaluasi ini mengukur kemampuan model untuk mengeksploitasi kerentanan dan mendapatkan akses yang tidak sah di lingkungan simulasi.
  • Perbanyakan mandiri: Kami mengevaluasi kapasitas model untuk perbanyakan mandiri dengan mendesain tugas yang melibatkan akuisisi resource, eksekusi kode, dan interaksi dengan sistem jarak jauh. Evaluasi ini menilai kemampuan model untuk mereplikasi dan menyebar secara independen.
  • Persuasi: Untuk mengevaluasi kapasitas model dalam persuasi dan penipuan, kami melakukan studi persuasi manusia. Studi ini melibatkan skenario yang mengukur kemampuan model untuk membangun hubungan baik, memengaruhi keyakinan, dan memicu tindakan tertentu dari peserta manusia.

Hasil Evaluasi

Semua evaluasi dijelaskan secara mendetail dalam Mengevaluasi Model Batas untuk Kemampuan Berbahaya dan secara singkat dalam laporan teknis Gemma 2.

Evaluasi Kemampuan Gemma 2 IT 27B
InterCode-CTF Pengamanan cyber ofensif 34/76 tantangan
CTF Internal Pengamanan cyber ofensif Tantangan 1/13
Hack the Box Pengamanan cyber ofensif 0/13 tantangan
Peringatan dini penyebaran mandiri Proliferasi mandiri Tantangan 1/10
Serangan pesona Persuasi Persentase peserta yang setuju: 81% menarik, 75% akan berbicara lagi, 80% membuat koneksi pribadi
Klik Link Persuasi 34% peserta
Menemukan Info Persuasi 9% peserta
Jalankan Kode Persuasi 11% peserta
Uang berbicara Persuasi Donasi rata-rata £3,72
Web of Lies Persuasi 18% berarti pergeseran ke arah keyakinan yang benar, 1% berarti pergeseran ke arah keyakinan yang salah

Penggunaan dan Batasan

Model ini memiliki batasan tertentu yang harus diketahui pengguna.

Penggunaan yang Dimaksudkan

Model Bahasa Besar (LLM) terbuka memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan model.

  • Pembuatan dan Komunikasi Konten
    • Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, dan draf email.
    • Chatbot dan AI Percakapan: Memperkuat antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
    • Ringkasan Teks: Membuat ringkasan ringkas dari korpus teks, makalah riset, atau laporan.
  • Riset dan Pendidikan
    • Riset Natural Language Processing (NLP): Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
    • Alat Pembelajaran Bahasa: Mendukung pengalaman pembelajaran bahasa interaktif, membantu mengoreksi tata bahasa atau memberikan latihan menulis.
    • Eksplorasi Pengetahuan: Membantu peneliti menjelajahi isi teks yang besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.

Batasan

  • Data Pelatihan
    • Kualitas dan keragaman data pelatihan secara signifikan memengaruhi kemampuan model. Bias atau kesenjangan dalam data pelatihan dapat menyebabkan batasan pada respons model.
    • Cakupan set data pelatihan menentukan area subjek yang dapat ditangani oleh model secara efektif.
  • Kompleksitas Konteks dan Tugas
    • LLM lebih baik dalam tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas terbuka atau yang sangat kompleks mungkin sulit.
    • Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
  • Ambiguitas dan Nuansa Bahasa
    • Bahasa alami pada dasarnya bersifat kompleks. LLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
  • Akurasi Faktual
    • LLM menghasilkan respons berdasarkan informasi yang dipelajari dari set data pelatihan, tetapi bukan merupakan basis pengetahuan. Model tersebut dapat menghasilkan pernyataan faktual yang salah atau usang.
  • Common Sense
    • LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.

Pertimbangan dan Risiko Etis

Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan hal-hal berikut dengan cermat:

  • Bias dan Keadilan
    • LLM yang dilatih pada data teks dunia nyata berskala besar dapat mencerminkan bias sosial-budaya yang tertanam dalam materi pelatihan. Model ini telah melalui pemeriksaan yang cermat, prapemrosesan data input yang dijelaskan, dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan Penyalahgunaan
    • LLM dapat disalahgunakan untuk menghasilkan teks yang palsu, menyesatkan, atau berbahaya.
    • Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model ini, lihat Responsible Generative AI Toolkit.
  • Transparansi dan Akuntabilitas:
    • Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang diidentifikasi dan mitigasinya:

  • Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghapusan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
  • Pembuatan konten berbahaya: Mekanisme dan pedoman untuk keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu memitigasi aplikasi LLM yang berbahaya. Resource edukasi dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan disediakan. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
  • Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Manfaat

Pada saat rilis, lini model ini menyediakan implementasi model bahasa besar open source berperforma tinggi yang dirancang dari awal untuk pengembangan Responsible AI dibandingkan dengan model berukuran serupa.

Dengan menggunakan metrik evaluasi benchmark yang dijelaskan dalam dokumen ini, model ini telah terbukti memberikan performa yang lebih baik dibandingkan alternatif model terbuka lainnya yang berukuran sebanding.