Kartu model Gemma

Halaman Model: FunctionGemma

Referensi dan Dokumentasi Teknis:

Persyaratan Penggunaan: Persyaratan
Penulis: Google DeepMind

Informasi Model

Deskripsi ringkas dan definisi singkat input dan output.

Deskripsi

CATATAN: FunctionGemma ditujukan untuk di-fine-tune untuk tugas panggilan fungsi tertentu, termasuk kasus penggunaan multi-giliran.

FunctionGemma adalah model terbuka ringan dari Google, yang dibuat sebagai dasar untuk membuat model panggilan fungsi khusus Anda sendiri. FunctionGemma tidak ditujukan untuk digunakan sebagai model dialog langsung, dan dirancang agar berperforma tinggi setelah penyempurnaan lebih lanjut, seperti halnya model dengan ukuran ini. Dibangun di atas model Gemma 3 270M dan dengan riset serta teknologi yang sama dengan yang digunakan untuk membuat model Gemini, FunctionGemma telah dilatih secara khusus untuk panggilan fungsi. Model ini memiliki arsitektur yang sama dengan Gemma 3, tetapi menggunakan format chat yang berbeda. Model ini sangat cocok untuk panggilan fungsi khusus teks. Ukurannya yang sangat kecil memungkinkan deployment di lingkungan dengan sumber daya terbatas seperti laptop, desktop, atau infrastruktur cloud Anda sendiri, sehingga mendemokratisasi akses ke model AI canggih dan membantu mendorong inovasi bagi semua orang. Selain itu, mirip dengan Gemma 270M dasar, model ini telah dioptimalkan agar sangat serbaguna, berperforma baik di berbagai hardware dalam skenario sekali putaran, tetapi harus di-fine-tune pada data khusus tugas sekali putaran atau multi-putaran untuk mencapai akurasi terbaik dalam domain tertentu. Untuk menunjukkan cara model parameter 270M yang disesuaikan dapat mencapai performa tinggi pada alur kerja agentik tertentu, kami telah menyoroti dua kasus penggunaan di aplikasi Google AI Edge Gallery.

  • Tiny Garden: Model yang di-fine-tune untuk mendukung game interaktif yang dikontrol suara. Game ini menangani logika game untuk mengelola sebidang tanah virtual, menguraikan perintah seperti "Tanam bunga matahari di baris atas" dan "Sirami bunga di petak 1 dan 2" menjadi fungsi khusus aplikasi (misalnya, plant_seed, water_plots) dan menargetkan koordinat. Hal ini menunjukkan kemampuan model untuk mendorong mekanisme aplikasi kustom tanpa konektivitas server.

  • Tindakan Seluler: Untuk memungkinkan developer membuat agen pakar mereka sendiri, kami telah memublikasikan kumpulan data dan resep penyesuaian untuk mendemonstrasikan penyesuaian FunctionGemma. Model ini menerjemahkan input pengguna (misalnya, "Buat acara kalender untuk makan siang", "Nyalakan senter") menjadi panggilan fungsi yang memicu alat sistem OS Android. Notebook interaktif ini menunjukkan cara menggunakan model dasar FunctionGemma dan membuat penyesuaian "Tindakan Seluler" dari awal untuk digunakan di aplikasi galeri Google AI Edge. Kasus penggunaan ini menunjukkan kemampuan model untuk bertindak sebagai agen pribadi offline dan pribadi untuk tugas perangkat pribadi.

Input dan output

  • Input:
    • String teks, seperti pertanyaan, perintah, atau dokumen yang akan diringkas
    • Total konteks input 32 ribu token
  • Output:
    • Teks yang dihasilkan sebagai respons terhadap input, seperti jawaban atas pertanyaan, atau ringkasan dokumen
    • Total konteks output hingga 32 ribu token per permintaan, dikurangi token input permintaan

Data Model

Data yang digunakan untuk pelatihan model dan cara data diproses.

Set Data Pelatihan

Model ini dilatih dengan set data teks yang mencakup berbagai sumber. Model ini dilatih dengan 6T token. Tanggal batas pengetahuan untuk data pelatihan adalah Agustus 2024. Berikut komponen utamanya:

  • Definisi Alat Publik - API umum yang ditemukan di web
  • Interaksi Penggunaan Alat - Interaksi ini merupakan campuran perintah, panggilan fungsi, respons fungsi, dan respons bahasa alami dari model untuk meringkas respons panggilan fungsi, atau meminta klarifikasi saat perintah ambigu atau tidak lengkap.

Prapemrosesan Data

Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan pada data pelatihan:

  • Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di berbagai tahap dalam proses penyiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
  • Pemfilteran Data Sensitif: Sebagai bagian dari upaya menjadikan model Gemma terlatih aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
  • Metode tambahan: Memfilter berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.

Informasi Penerapan

Detail tentang internal model.

Hardware

Gemma dilatih menggunakan hardware Tensor Processing Unit (TPU) (TPUv4p, TPUv5p, dan TPUv5e). Pelatihan model bahasa visual (VLM) memerlukan daya komputasi yang signifikan. TPU, yang dirancang khusus untuk operasi matriks yang umum dalam machine learning, menawarkan beberapa keuntungan di domain ini:

  • Performa: TPU dirancang khusus untuk menangani komputasi masif yang terlibat dalam pelatihan VLM. GPU dapat mempercepat pelatihan secara signifikan dibandingkan dengan CPU.
  • Memori: TPU sering kali dilengkapi dengan memori bandwidth tinggi dalam jumlah besar, sehingga memungkinkan penanganan model dan ukuran batch yang besar selama pelatihan. Hal ini dapat meningkatkan kualitas model.
  • Skalabilitas: Pod TPU (cluster TPU besar) memberikan solusi yang skalabel untuk menangani kompleksitas model dasar besar yang terus meningkat. Anda dapat mendistribusikan pelatihan di beberapa perangkat TPU untuk pemrosesan yang lebih cepat dan efisien.
  • Efektivitas biaya: Dalam banyak skenario, TPU dapat memberikan solusi yang lebih hemat biaya untuk melatih model besar dibandingkan dengan infrastruktur berbasis CPU, terutama jika mempertimbangkan waktu dan resource yang dihemat karena pelatihan yang lebih cepat.
  • Keunggulan ini selaras dengan komitmen Google untuk beroperasi secara berkelanjutan.

Software

Pelatihan dilakukan menggunakan JAX dan ML Pathways. JAX memungkinkan peneliti memanfaatkan hardware generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien. ML Pathways adalah upaya terbaru Google untuk membangun sistem kecerdasan buatan yang mampu melakukan generalisasi di berbagai tugas. Cara ini sangat cocok untuk model dasar, termasuk model bahasa besar seperti ini.
Bersama-sama, JAX dan ML Pathways digunakan seperti yang dijelaskan dalam makalah tentang rangkaian model Gemini; "model pemrograman 'pengontrol tunggal' Jax dan Pathways memungkinkan satu proses Python untuk mengatur seluruh proses pelatihan, sehingga menyederhanakan alur kerja pengembangan secara signifikan."

Evaluasi

Metrik dan hasil evaluasi model.

Hasil Benchmark

Benchmark n-shot Function Gemma 270m
BFCL Sederhana 0-shot 61,6
BFCL Paralel 0-shot 63,5
BFCL Multiple 0-shot 39
BFCL Paralel Ganda 0-shot 29,5
BFCL Live Simple 0-shot 36,2
BFCL Live Paralel 0-shot 25,7
Kelipatan Live BFCL 0-shot 22,9
BFCL Live Parallel Multiple 0-shot 20,8
Relevansi BFCL 0-shot 61.1
BFCL Tidak Relevan 0-shot 70,6

Dampak pada Performa setelah Penyesuaian pada Set Data Tindakan Seluler
Untuk menunjukkan nilai spesialisasi untuk model bahasa kecil, kami membandingkan model FunctionGemma dasar dengan model yang disesuaikan menggunakan resep "Tindakan Seluler". Penyesuaian secara signifikan meningkatkan kemampuan model FunctionGemma dasar untuk mengidentifikasi dan memformat panggilan sistem seluler dengan benar.


Model

Hasil evaluasi untuk Tindakan Seluler

Model Base FunctionGemma

58%

Penyesuaian Tindakan Seluler

85%

Performa Dalam Perangkat Kasus Penggunaan yang Di-fine-tune Gemma 270m
Kami mengevaluasi kasus penggunaan yang di-fine-tune di Samsung S25 Ultra untuk menilai latensi dan jejak memori dalam perangkat.

  • Konteks: 512 token pengisian otomatis dan 32 token dekode.
  • Hardware: CPU S25 Ultra menggunakan delegasi XNNPACK LiteRT dengan 4 thread.

Performa Tindakan Seluler Di Perangkat


Backend

Skema kuantisasi

Panjang konteks

Pengisian otomatis (token per detik)

Mendekode (token per detik)

Waktu hingga token pertama (detik)

Ukuran Model (MB)

Memori RSS Puncak (MB)

CPU

dynamic_int8

1024

1718

125.9

0.3

288

551

Performa Tiny Garden di Perangkat


Backend

Skema kuantisasi

Panjang konteks

Pengisian otomatis (token per detik)

Mendekode (token per detik)

Waktu hingga token pertama (detik)

Ukuran Model (MB)

Memori RSS Puncak (MB)

CPU

dynamic_int8

1024

1743

125.7

0.3

288

549

Etika dan Keamanan

Pendekatan dan hasil evaluasi etika dan keamanan.

Pendekatan Evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian red team internal terhadap kebijakan konten yang relevan. Red-teaming dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model ini dievaluasi berdasarkan sejumlah kategori berbeda yang relevan dengan etika dan keamanan, termasuk:

  • Keselamatan Anak: Evaluasi perintah text-to-text dan image-to-text yang mencakup kebijakan keselamatan anak, termasuk pelecehan dan eksploitasi seksual terhadap anak.
  • Keamanan Konten: Evaluasi perintah teks-ke-teks dan gambar-ke-teks yang mencakup kebijakan keamanan, termasuk pelecehan, kekerasan dan adegan sadis, serta ujaran kebencian.
  • Bahaya Representasi: Evaluasi perintah teks-ke-teks dan gambar-ke-teks yang mencakup kebijakan keselamatan termasuk bias, stereotipe, dan asosiasi atau ketidakakuratan yang berbahaya.

Hasil Evaluasi

Untuk semua area pengujian keamanan, kami melihat peningkatan besar dalam kategori keamanan anak, keamanan konten, dan bahaya representasi dibandingkan dengan model Gemma sebelumnya. Semua pengujian dilakukan tanpa filter keamanan untuk mengevaluasi kemampuan dan perilaku model. Model ini menghasilkan pelanggaran kebijakan minimal, dan menunjukkan peningkatan signifikan atas performa model Gemma sebelumnya terkait inferensi yang tidak berdasar. Keterbatasan evaluasi kami adalah hanya menyertakan perintah berbahasa Inggris.

Penggunaan dan Batasan

Model ini memiliki batasan tertentu yang harus diketahui pengguna.

Penggunaan yang Dimaksudkan

Model ini tidak dimaksudkan untuk digunakan sebagai model dialog langsung.
Model Bahasa Besar (LLM) terbuka memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak menyeluruh. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.

  • Pembuatan dan Komunikasi Konten
    • Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, dan draf email.
    • Chatbot dan AI Percakapan: Mendukung antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
    • Ringkasan Teks: Buat ringkasan singkat dari korpus teks, makalah penelitian, atau laporan.
  • Penelitian dan Pendidikan
    • Riset Natural Language Processing (NLP): Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
    • Alat Pembelajaran Bahasa: Mendukung pengalaman pembelajaran bahasa interaktif, membantu mengoreksi tata bahasa atau memberikan latihan menulis.
    • Eksplorasi Pengetahuan: Membantu peneliti dalam menjelajahi kumpulan teks yang besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.

Batasan

  • Data Pelatihan
    • Kualitas dan keragaman data pelatihan sangat memengaruhi kemampuan model. Bias atau kekurangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
    • Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
  • Konteks dan Kompleksitas Tugas
    • Model lebih baik dalam melakukan tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang terbuka atau sangat kompleks mungkin menantang.
    • Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
  • Ambiguitas dan Nuansa Bahasa
    • Bahasa alami pada dasarnya rumit. Model mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
  • Akurasi Faktual
    • Model menghasilkan respons berdasarkan informasi yang dipelajari dari set data pelatihan, tetapi model tersebut bukanlah pusat informasi. Model ini dapat menghasilkan pernyataan faktual yang salah atau sudah tidak berlaku.
  • Common Sense
    • Model mengandalkan pola statistik dalam bahasa. Agen mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.

Pertimbangan dan Risiko Etis

Pengembangan model bahasa besar (LLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:

  • Bias dan Keadilan
    • LLM yang dilatih dengan data teks dunia nyata berskala besar dapat mencerminkan bias sosio-kultural yang tertanam dalam materi pelatihan. Model ini telah melalui pemeriksaan yang cermat, prapemrosesan data input yang dijelaskan, dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan Penyalahgunaan
  • Transparansi dan Akuntabilitas:
    • Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi LLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang teridentifikasi dan mitigasi:

  • Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
  • Pembuatan konten berbahaya: Mekanisme dan pedoman untuk keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu.
  • Penyalahgunaan untuk tujuan jahat: Batasan teknis serta edukasi bagi developer dan pengguna akhir dapat membantu memitigasi aplikasi LLM yang berbahaya. Sumber daya edukasi dan mekanisme pelaporan disediakan bagi pengguna untuk melaporkan penyalahgunaan. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
  • Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus PII (Informasi Identitas Pribadi). Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Manfaat

Pada saat rilis, rangkaian model ini menyediakan implementasi model bahasa besar terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan Responsible AI dibandingkan dengan model berukuran serupa.