Gemma 3n dirilis dengan input audio dan dioptimalkan untuk digunakan di perangkat sehari-hari. Pelajari lebih lanjut

Penyesuaian model Gemma

Penyesuaian model kecerdasan buatan (AI) generatif seperti Gemma mengubah perilaku model. Anda biasanya menyesuaikan Gemma dengan maksud meningkatkan performanya pada tugas atau domain tertentu, atau untuk memenuhi peran dengan lebih baik, seperti layanan pelanggan. Model Gemma dirilis dengan bobot terbuka, yang berarti Anda dapat mengubah bobot tersebut, yang kemudian mengubah perilaku model. Langkah-langkah umum untuk menyempurnakan model Gemma adalah sebagai berikut:

Pilih framework
Mengumpulkan data
Menyesuaikan dan menguji model
Men-deploy model

Pilih framework

Model Gemma kompatibel dengan berbagai framework penyesuaian AI. Setiap framework menawarkan berbagai keunggulan dan biasanya dibatasi pada format model tertentu. Berikut adalah panduan untuk melakukan tuning model Gemma dengan berbagai framework:

Keras menggunakan LoRA
Library Gemma untuk JAX
Hugging Face
Google Cloud GKE (multi-GPU dengan HF Transformers)
Vertex AI Google Cloud
Unsloth
Axolotl
Keras menggunakan penyesuaian terdistribusi

Pastikan format model deployment yang Anda inginkan, seperti format Keras, Safetensors, atau GGUF, didukung sebagai output oleh framework yang Anda pilih.

Mengumpulkan data

Penyesuaian model memerlukan data. Data penyesuaian biasanya terdiri dari pasangan data input dengan respons yang diharapkan. Ada banyak {i>dataset<i} publik yang tersedia secara online untuk pelatihan berbagai tugas atau output. Misalnya, jika Anda ingin melatih model Gemma untuk menerjemahkan deskripsi suku cadang mobil ke nomor suku cadang, set data Anda dapat mencakup hal berikut:

training_data = [
  {"input_text": "Part number for A4 brake caliper", "output_text": "4M0615107BS"},
  {"input_text": "Part number for Beetle fuel pump", "output_text": "6A127026H"},
  {"input_text": "Part number for Camaro cylinder head", "output_text": "12711770"},
]

Jika Anda ingin model Gemma melakukan serangkaian tugas atau peran tertentu, Anda biasanya perlu menyusun set data yang menunjukkan beberapa variasi tugas tersebut. Jumlah data yang Anda perlukan untuk menyesuaikan model bergantung pada sasaran Anda, terutama seberapa besar perubahan perilaku yang Anda inginkan dari model dan seberapa baik performa model yang Anda inginkan berdasarkan tugas yang harus diselesaikan dan tingkat variasi dalam data input.

Secara umum, Anda harus memulai dengan set data kecil untuk penyesuaian tugas, menyesuaikan parameter pelatihan, dan menambahkan data hingga Anda mencapai performa tugas yang memenuhi kebutuhan Anda. Beberapa contoh aplikasi kami menunjukkan bahwa Anda dapat memengaruhi perilaku model Gemma hanya dengan 20 pasangan perintah dan respons. Untuk mengetahui detail selengkapnya, lihat Membangun asisten AI email bisnis dengan Gemma dan Tugas dalam bahasa lisan dengan Gemma.

Menyesuaikan dan menguji model

Setelah memiliki framework penyesuaian dan data penyesuaian, Anda dapat memulai proses penyesuaian model Gemma. Saat melakukan penyesuaian, Anda memiliki beberapa opsi terkait cara melakukan penyesuaian yang memengaruhi resource yang Anda butuhkan untuk menyelesaikannya. Anda juga harus memiliki rencana pengujian untuk model yang disesuaikan guna mengevaluasi apakah model tersebut berperforma seperti yang Anda inginkan setelah penyesuaian.

Parameter-efficient tuning

Saat menyesuaikan model bobot terbuka seperti Gemma, Anda memiliki opsi untuk menyesuaikan semua parameter model atau menggunakan teknik penyesuaian yang efisien dan tidak terlalu intensif sumber dayanya yang memperbarui subset parameter. Pendekatan penyesuaian penuh berarti bahwa saat Anda menerapkan data penyesuaian, Anda menghitung bobot baru untuk semua parameter model. Pendekatan ini memerlukan komputasi dan memori yang intensif, karena Anda melakukan perhitungan ini untuk miliaran parameter. Menggunakan pendekatan penyesuaian yang tidak terlalu intensif resource, yang disebut parameter efficient fine-tuning (PEFT), termasuk teknik seperti penyesuaian Low Rank Adapter (LoRA) dapat menghasilkan hasil yang serupa dengan resource komputasi yang lebih sedikit. Untuk mengetahui detail tentang cara melakukan penyesuaian dengan lebih sedikit resource menggunakan LoRA, lihat Menyesuaikan model Gemma di Keras menggunakan LoRA dan Menyesuaikan Model Gemma di Hugging Face.

Menguji model yang di-tune

Setelah menyesuaikan model untuk tugas tertentu, Anda harus menguji performanya terhadap serangkaian tugas yang ingin Anda lakukan. Anda harus menguji model dengan tugas atau permintaan yang tidak secara khusus digunakan untuk melatihnya. Cara Anda menguji model yang di-tune bergantung pada tugas yang ingin Anda lakukan dan seberapa dekat Anda mengelola input dan output untuk model. Cara umum untuk mengelola pengujian model generatif adalah dengan menggunakan kasus berhasil, gagal, dan di antara keduanya:

Uji keberhasilan: Permintaan yang harus selalu dapat dilakukan model yang di-tune dengan berhasil.
Uji kegagalan: Permintaan yang seharusnya tidak dapat dilakukan oleh model yang di-tuning, atau secara eksplisit menolak untuk dilakukan, jika diminta.
Pengujian batas: Permintaan yang harus dapat dilakukan oleh model yang disesuaikan, jika permintaan tersebut berada dalam batas yang ditentukan, atau serangkaian batas, dari perilaku output yang dapat diterima.

Saat menguji kondisi kegagalan atau batas untuk aplikasi AI generatif Anda, Anda juga harus menerapkan pendekatan, teknik, dan alat keamanan AI generatif seperti yang dijelaskan dalam Responsible Generative AI Toolkit.

Men-deploy model

Setelah menyelesaikan penyesuaian dan pengujian dengan sukses, saatnya men-deploy model Anda. Biasanya, Anda dapat membaca dokumentasi untuk framework yang dipilih tentang cara men-deploy model yang dioptimalkan.

Jika Anda men-deploy model dengan bobot yang di-tuning LoRA, perhatikan bahwa dengan teknik ini, Anda biasanya men-deploy kedua model asli dan bobotnya dengan bobot LoRA sebagai lapisan perhitungan tambahan untuk model.