Lihat repositori Gemma Cookbook untuk mengetahui contoh pembuatan dan penyesuaian. Pelajari lebih lanjut

Halaman ini diterjemahkan oleh Cloud Translation API.

Penyesuaian model Gemma

Menyesuaikan model kecerdasan buatan (AI) generatif seperti Gemma akan mengubah perilaku model. Anda biasanya menyesuaikan Gemma dengan niat untuk meningkatkan performanya pada tugas atau domain tertentu, atau untuk lebih memenuhi peran, seperti layanan pelanggan. Model Gemma dirilis dengan bobot terbuka, yang berarti Anda dapat mengubah bobot tersebut, yang kemudian mengubah perilaku model. Langkah-langkah umum untuk menyesuaikan model Gemma adalah sebagai berikut:

Memilih framework
Mengumpulkan data
Menyesuaikan dan menguji model
Men-deploy model

Memilih framework

Model Gemma kompatibel dengan berbagai framework penyesuaian AI. Setiap framework menawarkan berbagai keunggulan dan biasanya dibatasi pada format model tertentu. Berikut adalah panduan untuk menyesuaikan model Gemma dengan berbagai framework:

Keras menggunakan LoRA
Library Gemma untuk JAX
Hugging Face
Google Cloud GKE (multi-GPU dengan HF Transformers)
Unsloth
Axolotl
Keras menggunakan penyesuaian terdistribusi

Pastikan format model deployment yang Anda inginkan, seperti format Keras, Safetensors, atau GGUF, didukung sebagai output oleh framework yang Anda pilih.

Mengumpulkan data

Penyesuaian model memerlukan data. Data penyesuaian biasanya terdiri dari pasangan data input dengan respons yang diharapkan. Ada banyak set data publik yang tersedia secara online untuk pelatihan pada berbagai tugas atau output. Misalnya, jika Anda ingin melatih model Gemma untuk menerjemahkan deskripsi komponen mobil ke nomor komponen, set data Anda mungkin menyertakan hal berikut:

training_data = [
  {"input_text": "Part number for A4 brake caliper", "output_text": "4M0615107BS"},
  {"input_text": "Part number for Beetle fuel pump", "output_text": "6A127026H"},
  {"input_text": "Part number for Camaro cylinder head", "output_text": "12711770"},
]

Jika ingin model Gemma melakukan serangkaian tugas atau peran tertentu, Anda biasanya perlu mengompilasi set data yang menunjukkan beberapa variasi tugas tersebut. Jumlah data yang diperlukan untuk menyesuaikan model bergantung pada sasaran Anda, terutama jumlah perubahan perilaku yang Anda inginkan dari model dan seberapa baik Anda ingin model berperforma berdasarkan tugas yang akan diselesaikan dan tingkat variasi dalam data input.

Secara umum, Anda harus memulai dengan sekumpulan kecil data untuk penyesuaian tugas, menyesuaikan parameter pelatihan, dan menambahkan data hingga Anda mencapai performa tugas yang memenuhi kebutuhan Anda. Beberapa contoh aplikasi kami menunjukkan bahwa Anda dapat memengaruhi perilaku model Gemma dengan hanya 20 pasangan prompt dan respons. Untuk mengetahui detail selengkapnya, lihat Mem-build asisten AI email bisnis dengan Gemma dan Tugas dalam bahasa lisan dengan Gemma.

Menyesuaikan dan menguji model

Setelah memiliki framework penyesuaian dan data penyesuaian, Anda dapat memulai proses penyesuaian model Gemma. Saat melakukan penyesuaian, Anda memiliki beberapa opsi dalam cara melakukan penyesuaian yang memengaruhi resource yang diperlukan untuk menyelesaikannya. Anda juga harus memiliki rencana pengujian untuk model yang disesuaikan guna mengevaluasi apakah model tersebut berperforma seperti yang Anda inginkan setelah penyesuaian.

Parameter-efficient tuning

Saat menyesuaikan model bobot terbuka seperti Gemma, Anda memiliki opsi untuk menyesuaikan semua parameter model atau menggunakan teknik penyesuaian parameter yang lebih hemat resource yang memperbarui sebagian dari parameter tersebut. Pendekatan penyesuaian lengkap berarti bahwa saat menerapkan data penyesuaian, Anda menghitung bobot baru untuk semua parameter model. Pendekatan ini membutuhkan komputasi dan memori yang intensif, karena Anda melakukan penghitungan ini untuk miliaran parameter. Menggunakan pendekatan penyesuaian yang tidak terlalu intensif resource, yang disebut parameter efficient fine-tuning (PEFT), termasuk teknik seperti penyesuaian Low Rank Adapter (LoRA) dapat menghasilkan hasil yang serupa dengan lebih sedikit resource komputasi. Untuk mengetahui detail tentang cara melakukan penyesuaian dengan lebih sedikit resource menggunakan LoRA, lihat Menyesuaikan model Gemma di Keras menggunakan LoRA dan Menyesuaikan Model Gemma di Hugging Face.

Menguji model yang dioptimalkan

Setelah menyesuaikan model untuk tugas tertentu, Anda harus menguji performanya terhadap kumpulan tugas yang ingin dilakukannya. Anda harus menguji model dengan tugas atau permintaan yang tidak dilatih secara khusus. Cara Anda menguji model yang disesuaikan bergantung pada tugas yang ingin Anda lakukan dan seberapa cermat Anda mengelola input dan output untuk model. Cara umum untuk mengelola pengujian model generatif adalah dengan menggunakan kasus sukses, kegagalan, dan batas:

Pengujian keberhasilan: Meminta agar model yang dioptimalkan selalu dapat berperforma dengan baik.
Pengujian kegagalan: Meminta agar model yang dioptimalkan selalu tidak dapat berfungsi, atau secara eksplisit menolak untuk berfungsi, jika diminta.
Pengujian batas: Permintaan agar model yang dioptimalkan dapat berperforma, jika berada dalam batas yang ditentukan, atau serangkaian batas, dari perilaku output yang dapat diterima.

Saat menguji kondisi kegagalan atau batas untuk aplikasi AI generatif, Anda juga harus menerapkan pendekatan, teknik, dan alat keamanan AI generatif seperti yang dijelaskan dalam Responsible Generative AI Toolkit.

Men-deploy model

Setelah menyelesaikan penyesuaian dan berhasil menyelesaikan pengujian, saatnya untuk men-deploy model Anda. Anda biasanya dapat membaca dokumentasi untuk framework yang dipilih tentang cara men-deploy model yang disesuaikan.

Jika Anda men-deploy model dengan bobot yang disesuaikan LoRA, perhatikan bahwa dengan teknik ini, Anda biasanya men-deploy baik model asli maupun bobotnya dengan bobot LoRA sebagai lapisan penghitungan tambahan untuk model.