Kartu model Gemma 2

Halaman Model: Gemma

Referensi dan Dokumentasi Teknis:

Persyaratan Penggunaan: Persyaratan

Penulis: Google

Informasi Model

Deskripsi ringkasan dan definisi singkat input dan output.

Deskripsi

Gemma adalah rangkaian model terbuka yang ringan dan canggih dari Google, dibangun dari penelitian dan teknologi yang sama dengan yang digunakan untuk membuat model Gemini. yakni model bahasa besar (LLM) teks-ke-teks, khusus decoder, tersedia dalam bahasa Inggris, dengan bobot terbuka untuk varian terlatih dan varian yang disesuaikan dengan petunjuk. Model Gemma sangat cocok untuk berbagai tugas pembuatan teks, termasuk menjawab pertanyaan, perangkuman, dan penalaran. Ukurannya yang relatif kecil memungkinkan deployment di lingkungan dengan sumber daya yang terbatas seperti laptop, desktop, atau infrastruktur {i>cloud <i} Anda sendiri, yang memperluas akses ke dan membantu menumbuhkan inovasi bagi semua orang.

Input dan output

  • Input: String teks, seperti pertanyaan, perintah, atau dokumen yang akan ringkasan.
  • Output: Teks bahasa Inggris yang dihasilkan sebagai respons terhadap input, seperti sebagai jawaban atas pertanyaan, atau ringkasan sebuah dokumen.

Pengutipan

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Data Model

Data yang digunakan untuk pelatihan model dan cara data diproses.

Set Data Pelatihan

Model ini dilatih menggunakan set data berisi data teks yang mencakup berbagai setiap sumber. Model 27B dilatih dengan 13 triliun token, model 9B dilatih dengan dilatih dengan 8 triliun token, dan model 2 miliar dilatih dengan 2 triliun token. Berikut adalah komponen utamanya:

  • Dokumen Web: Kumpulan teks web yang beragam memastikan model terekspos berbagai gaya linguistik, topik, dan kosakata. Terutama Konten berbahasa Inggris.
  • Kode: Mengekspos model ke kode membantunya mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk menghasilkan kode atau memahami pertanyaan terkait kode.
  • Matematika: Pelatihan teks matematika membantu model belajar logika penalaran, representasi simbolis, dan untuk menjawab kueri matematika.

Kombinasi sumber data yang beragam ini penting untuk melatih model bahasa dasar yang dapat menangani berbagai macam tugas dan teks format font.

Prapemrosesan Data

Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan pada pelatihan data:

  • Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat sebelumnya diterapkan di beberapa tahap dalam proses persiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
  • Pemfilteran Data Sensitif: Sebagai bagian dari upaya membuat model Gemma terlatih dengan aman dan teknik otomatis yang andal digunakan untuk memfilter informasi dan data sensitif lainnya dari set pelatihan.
  • Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.

Informasi Penerapan

Detail tentang internal model.

Hardware

Gemma dilatih menggunakan generasi terbaru Hardware Tensor Processing Unit (TPU) (TPUv5p).

Melatih model bahasa besar memerlukan daya komputasi yang signifikan. TPU yang dirancang khusus untuk operasi matriks yang umum dalam {i>machine learning<i}, menawarkan beberapa keuntungan dalam domain ini:

  • Performa: TPU dirancang khusus untuk menangani komputasi masif yang terlibat dalam pelatihan LLM. Mereka dapat mempercepat pelatihan secara signifikan dibandingkan dengan CPU.
  • Memori: TPU sering kali memiliki jumlah memori bandwidth tinggi yang besar, untuk penanganan model besar dan ukuran batch selama pelatihan. Hal ini dapat akan menghasilkan kualitas model yang lebih baik.
  • Skalabilitas: Pod TPU (cluster TPU besar) memberikan solusi skalabel untuk menangani kompleksitas model dasar yang makin besar. Anda dapat mendistribusikan pelatihan di berbagai perangkat TPU agar proses lebih cepat dan efisien.
  • Efektivitas biaya: Dalam banyak skenario, TPU dapat memberikan pengalaman untuk melatih model besar dibandingkan dengan infrastruktur berbasis CPU, terutama ketika mempertimbangkan waktu dan sumber daya yang dihemat karena pelatihan.
  • Keuntungan ini selaras dengan Komitmen Google untuk beroperasi secara berkelanjutan.

Software

Pelatihan dilakukan menggunakan JAX dan ML Pathways.

JAX memungkinkan peneliti untuk memanfaatkan perangkat keras generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien.

ML Pathways adalah upaya terbaru Google untuk membangun sistem dengan kecerdasan buatan mampu melakukan generalisasi pada beberapa tugas. Ini sangat cocok untuk model dasar, termasuk model bahasa besar seperti yang satu ini.

Bersama-sama, JAX dan ML Pathways digunakan seperti yang dijelaskan dalam makalah tentang lini model Gemini; "single pengontrol' model pemrograman Jax dan Pathways memungkinkan satu Python untuk mengorkestrasi seluruh sesi pelatihan, yang secara dramatis menyederhanakan pengembangan produk."

Evaluasi

Metrik dan hasil evaluasi model.

Hasil Tolok Ukur

Model-model ini dievaluasi terhadap sekumpulan besar {i>dataset <i}yang berbeda dan metrik untuk mencakup berbagai aspek pembuatan teks:

Benchmark Metrik Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 pukulan, 1 terbaik 51,3 71,3 75,2
HellaSwag 10 kali 73,0 81,9 86,4
PIQA 0 kali 77,8 81,7 83,2
SocialIQA 0 kali 51,9 53,4 53,7
BoolQ 0 kali 72,5 84,2 84,8
WinoGrande skor parsial 70,9 80,6 83,7
ARC-e 0 kali 80,1 88,0 88,6
ARC-c 25 kali 55,4 68,4 71,4
TriviaQA 5 tembakan 59,4 76,6 83,7
Pertanyaan Alam 5 tembakan 16,7 29,2 34,5
HumanEval lulus@1 17,7 40,2 51,8
MBPP 3 tembakan 29,6 52,4 62,6
GSM8K 5 kali tembakan, maj@1 23,9 68,6 74,0
MATH 4 tembakan 15,0 36,6 42,3
AGIEval 3-5 tembakan 30.6 52,8 55.1
DROP 3 pukulan, F1 52,0 69,4 72,2
Bench BESAR 3 kali tembakan, Karet 41,9 68.2 74,9

Etika dan Keamanan

Pendekatan dan hasil evaluasi etika dan keamanan.

Pendekatan Evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan tim merah internal pengujian kebijakan konten yang relevan. Red-teaming dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan tujuan dan metrik evaluasi manual yang berbeda. Ini model dievaluasi terhadap sejumlah kategori berbeda yang relevan dengan etika dan keselamatan, termasuk:

  • Keamanan Konten Teks-ke-Teks: Evaluasi manual pada perintah yang membahas keamanan kebijakan termasuk pelecehan seksual dan eksploitasi, pelecehan, dan kekerasan terhadap anak-anak dan adegan menyeramkan, serta ujaran kebencian.
  • Kerugian Representasi Text-to-Text: Tolok ukur terhadap akademis yang relevan set data seperti WinoBias dan Set Data BBQ.
  • Menghafal: Evaluasi otomatis menghafal data pelatihan, termasuk risiko eksposur informasi identitas pribadi.
  • Kerugian berskala besar: Menguji "kemampuan berbahaya" seperti bahan kimia, risiko biologis, radiologi, dan nuklir (CBRN).

Hasil Evaluasi

Hasil evaluasi etika dan keamanan berada dalam batas yang dapat diterima guna memenuhi kebijakan internal untuk kategori seperti turunan keamanan, keamanan konten, bahaya representatif, menghafal, bahaya berskala besar. Selain evaluasi internal yang ketat, hasil dari riset keamanan tolok ukur seperti BBQ, BOLD, Winogender, Winobias, RealToxicity, dan TruthfulQA ditampilkan di sini.

Gemma 2.0

Benchmark Metrik Gemma 2 IT 2B Gemma 2 TI 9 M Gemma 2 TI 27 M
RealToxicity rata-rata 8,16 8,25 8,84
Crows-Pair top-1 37,67 37,47 36,67
BBQ Ambig 1 pukulan, teratas 83,20 88,58 85,99
BBQ Disambig top-1 69,31 82,67 86,94
Winogender top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Evaluasi Kemampuan Berbahaya

Pendekatan Evaluasi

Kami mengevaluasi berbagai kemampuan berbahaya:

  • Pengamanan cyber yang menyinggung: Untuk menilai potensi penyalahgunaan model dalam dalam konteks pengamanan cyber, kami memanfaatkan Platform Capture-the-Flag (CTF) seperti InterCode-CTF dan Hack the Box, sebagai serta tantangan CTF yang dikembangkan secara internal. Evaluasi ini mengukur kemampuan model ini untuk mengeksploitasi kerentanan dan mendapatkan akses yang tidak sah dalam simulasi lingkungan.
  • Proliferasi mandiri: Kami mengevaluasi kapasitas model untuk proliferasi mandiri dengan mendesain tugas yang melibatkan akuisisi resource, eksekusi, dan interaksi dengan sistem jarak jauh. Evaluasi ini menilai kemampuan model untuk bereplikasi dan menyebar secara independen.
  • Persuasi: Untuk mengevaluasi kapasitas model dalam mendorong persuasi dan penipuan, kami melakukan studi persuasi manusia. Studi ini melibatkan skenario yang mengukur kemampuan model untuk membangun hubungan baik, keyakinan, dan memicu tindakan tertentu dari peserta manusia.

Hasil Evaluasi

Semua evaluasi dijelaskan secara rinci dalam Mengevaluasi Model Frontier untuk Kemampuan Berbahaya dan singkatnya di Laporan teknis Gemma 2.

Evaluasi Kemampuan Gemma 2 TI 27 M
InterCode-CTF Pengamanan cyber yang menyinggung Tantangan 34/76
CTF Internal Pengamanan cyber yang menyinggung Tantangan 1/13
Retas Kotak Pengamanan cyber yang menyinggung Tantangan 0/13
Peringatan dini proliferasi diri Proliferasi diri Tantangan 1/10
Mantra menyinggung Persuasi Persentase peserta yang setuju: 81% menarik, 75% akan menjawab lagi, 80% menciptakan hubungan pribadi
Link Klik Persuasi 34% peserta
Temukan Info Persuasi 9% peserta
Jalankan Kode Persuasi 11% peserta
Bincang-bincang uang Persuasi £3,72 berarti donasi
Web Kebohongan Persuasi 18% perubahan rata-rata menuju keyakinan yang benar, 1% perubahan rata-rata menuju keyakinan yang salah

Penggunaan dan Batasan

Model-model ini memiliki batasan tertentu yang harus diperhatikan oleh pengguna.

Penggunaan yang Dimaksudkan

Model Bahasa Besar Terbuka (LLM) memiliki berbagai macam aplikasi berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah untuk memberikan informasi kontekstual kasus penggunaan yang mungkin dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan Anda.

  • Pembuatan Konten dan Komunikasi
    • Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks materi iklan seperti puisi, skrip, kode, teks pemasaran, dan draf email.
    • Chatbot dan AI Percakapan: Antarmuka percakapan yang andal untuk pelanggan layanan, asisten virtual, atau aplikasi interaktif.
    • Peringkasan Teks: Membuat ringkasan singkat dari korpus teks, hasil riset makalah, atau laporan.
  • Riset dan Pendidikan
    • Riset Natural Language Processing (NLP): Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan dan berkontribusi pada kemajuan di bidang ini.
    • Alat Pembelajaran Bahasa: Mendukung pengalaman belajar bahasa yang interaktif, membantu koreksi tata bahasa atau memberikan latihan menulis.
    • Eksplorasi Pengetahuan: Membantu peneliti dalam menjelajahi teks dalam jumlah besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.

Batasan

  • Data Pelatihan
    • Kualitas dan keragaman data pelatihan secara signifikan mempengaruhi kemampuan model. Bias atau kesenjangan dalam data pelatihan dapat menyebabkan keterbatasan dalam respons model.
    • Cakupan set data pelatihan menentukan area subjek yang dapat ditangani secara efektif.
  • Konteks dan Kompleksitas Tugas
    • LLM lebih baik dalam mengerjakan tugas yang dapat dibingkai dengan perintah yang jelas dan petunjuk. Tugas yang bersifat terbuka atau sangat kompleks mungkin sulit dilakukan.
    • Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
  • Ambiguitas dan Nuansa Bahasa
    • Natural language pada dasarnya sangat kompleks. LLM mungkin kesulitan memahami nuansa, sarkasme, atau bahasa figuratif.
  • Akurasi Faktual
    • LLM menghasilkan respons berdasarkan informasi yang mereka pelajari dari pelatihan, tetapi bukan pusat informasi. Mereka dapat menghasilkan pernyataan faktual yang salah atau tidak berlaku lagi.
  • Akal Umum
    • LLM mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan menerapkan penalaran umum dalam situasi tertentu.

Pertimbangan dan Risiko Etis

Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:

  • Bias dan Keadilan
    • LLM yang dilatih menggunakan data teks dunia nyata berskala besar dapat mencerminkan pemahaman sosial budaya bias yang tertanam dalam materi pelatihan. Model-model ini menjalani pengujian pengawasan, pra-pemrosesan data input yang dijelaskan, dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan Penyalahgunaan
  • Transparansi dan Akuntabilitas:
    • Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan kesempatan untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang diidentifikasi dan mitigasi:

  • Terus-menerus bias: Disarankan untuk melakukan pemantauan terus-menerus (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi upaya untuk menghilangkan bias selama pelatihan model, fine-tuning, dan kasus penggunaan lainnya.
  • Pembuatan konten berbahaya: Mekanisme dan pedoman untuk keamanan konten sangatlah penting. Developer dianjurkan untuk berhati-hati dan menerapkan perlindungan keamanan konten yang sesuai berdasarkan kebijakan produk mereka yang spesifik dan aplikasi Anda.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis dan developer serta pendidikan pengguna akhir dapat membantu memitigasi penerapan LLM yang berbahaya. Sumber daya pendidikan dan mekanisme pelaporan bagi pengguna untuk menandai penyalahgunaan yang Anda berikan. Penggunaan terlarang model Gemma diuraikan di bagian Kebijakan Penggunaan Terlarang Gemma.
  • Pelanggaran privasi: Model dilatih berdasarkan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Manfaat

Pada saat rilis, kelompok model ini memberikan open source berperforma tinggi implementasi model bahasa besar yang didesain dari awal untuk Responsible pengembangan AI dibandingkan model berukuran serupa.

Dengan menggunakan metrik evaluasi tolok ukur yang dijelaskan dalam dokumen ini, model-model tersebut telah terbukti memberikan performa yang unggul daripada model terbuka lainnya yang berukuran sebanding alternatif.