Menjalankan inferensi dan pembuatan konten Gemma

Ada dua keputusan utama yang harus dibuat saat Anda ingin menjalankan model Gemma: 1) varian Gemma yang ingin Anda jalankan, dan 2) framework eksekusi AI yang akan Anda gunakan untuk menjalankannya? Masalah utama dalam membuat kedua keputusan ini berkaitan dengan hardware yang Anda dan pengguna miliki untuk menjalankan model.

Ringkasan ini membantu Anda menavigasi keputusan ini dan mulai menggunakan model Gemma. Langkah-langkah umum untuk menjalankan model Gemma adalah sebagai berikut:

Memilih framework

Model Gemma kompatibel dengan berbagai framework eksekusi AI generatif. Salah satu faktor pengambilan keputusan utama dalam menjalankan model Gemma adalah resource komputasi yang Anda miliki (atau akan Anda miliki) untuk menjalankan model. Sebagian besar framework AI yang kompatibel memerlukan hardware khusus, seperti GPU atau TPU, untuk menjalankan model Gemma secara efektif. Alat seperti Google Colab dapat menyediakan resource komputasi khusus ini secara terbatas. Beberapa framework eksekusi AI, seperti Ollama dan Gemma.cpp, memungkinkan Anda menjalankan Gemma di CPU yang lebih umum menggunakan arsitektur ARM atau yang kompatibel dengan x86.

Berikut adalah panduan untuk menjalankan model Gemma dengan berbagai framework runtime AI:

Pastikan format model Gemma deployment yang Anda inginkan, seperti format native Keras, Safetensors, atau GGUF, didukung oleh framework yang Anda pilih.

Memilih varian Gemma

Model Gemma tersedia dalam beberapa varian dan ukuran, termasuk model Gemma dasar atau inti, dan varian model yang lebih khusus seperti PaliGemma dan DataGemma, serta banyak varian yang dibuat oleh komunitas developer AI di situs seperti Kaggle dan Hugging Face. Jika Anda tidak yakin varian mana yang harus dimulai, pilih model Gemma core instruction-tuned (IT) terbaru dengan jumlah parameter terendah. Jenis model Gemma ini memiliki persyaratan komputasi yang rendah dan dapat merespons berbagai perintah tanpa memerlukan pengembangan tambahan.

Pertimbangkan faktor-faktor berikut saat memilih varian Gemma:

  • Inti Gemma, dan keluarga varian lainnya seperti PaliGemma, CodeGemma: Rekomendasikan Gemma (inti). Varian Gemma di luar versi inti memiliki arsitektur yang sama dengan model inti, dan dilatih untuk berperforma lebih baik pada tugas tertentu. Kecuali jika aplikasi atau sasaran Anda selaras dengan spesialisasi varian Gemma tertentu, sebaiknya mulai dengan model inti atau dasar Gemma.
  • Disesuaikan dengan petunjuk (IT), dilatih sebelumnya (PT), disesuaikan dengan cermat (FT), campuran (mix): Rekomendasikan IT.
    • Varian Gemma Instruction-tuned (IT) adalah model yang telah dilatih untuk merespons berbagai petunjuk atau permintaan dalam bahasa manusia. Varian model ini adalah tempat terbaik untuk memulai karena dapat merespons perintah tanpa pelatihan model lebih lanjut.
    • Varian Gemma terlatih (PT) adalah model yang telah dilatih untuk membuat inferensi tentang bahasa atau data lainnya, tetapi belum dilatih untuk mengikuti petunjuk manusia. Model ini memerlukan pelatihan atau penyesuaian tambahan agar dapat melakukan tugas secara efektif, dan ditujukan untuk peneliti atau developer yang ingin mempelajari atau mengembangkan kemampuan model dan arsitekturnya.
    • Varian Gemma yang dioptimalkan (FT) dapat dianggap sebagai varian IT, tetapi biasanya dilatih untuk melakukan tugas tertentu, atau berperforma baik pada benchmark AI generatif tertentu. Grup varian PaliGemma menyertakan sejumlah varian FT.
    • Varian Gemma Campuran (mix) adalah versi model PaliGemma yang telah disesuaikan dengan berbagai petunjuk dan cocok untuk penggunaan umum.
  • Parameters: Rekomendasikan jumlah terkecil yang tersedia. Secara umum, semakin banyak parameter yang dimiliki model, semakin canggih model tersebut. Namun, menjalankan model yang lebih besar memerlukan resource komputasi yang lebih besar dan lebih kompleks, dan umumnya memperlambat pengembangan aplikasi AI. Kecuali jika Anda sudah menentukan bahwa model Gemma yang lebih kecil tidak dapat memenuhi kebutuhan Anda, pilih model dengan jumlah parameter yang sedikit.
  • Tingkat kuantisasi: Rekomendasikan presisi setengah (16-bit), kecuali untuk penyesuaian. Kuantifikasi adalah topik rumit yang pada dasarnya adalah ukuran dan presisi data, dan akibatnya berapa banyak memori yang digunakan model AI generatif untuk penghitungan dan menghasilkan respons. Setelah model dilatih dengan data presisi tinggi, yang biasanya berupa data floating point 32-bit, model seperti Gemma dapat dimodifikasi untuk menggunakan data presisi yang lebih rendah seperti ukuran 16, 8, atau 4-bit. Model Gemma yang dikuantisasi ini masih dapat berperforma baik, bergantung pada kompleksitas tugas, sekaligus menggunakan resource komputasi dan memori yang jauh lebih sedikit. Namun, alat untuk menyesuaikan model kuantisasi terbatas dan mungkin tidak tersedia dalam framework pengembangan AI yang Anda pilih. Biasanya, Anda harus menyesuaikan model seperti Gemma dengan presisi penuh, lalu mengkuantisasi model yang dihasilkan.

Untuk mengetahui daftar model Gemma utama yang dipublikasikan Google, lihat Mulai menggunakan model Gemma, daftar model Gemma.

Menjalankan permintaan pembuatan dan inferensi

Setelah memilih framework eksekusi AI dan varian Gemma, Anda dapat mulai menjalankan model, dan memintanya untuk membuat konten atau menyelesaikan tugas. Untuk mengetahui informasi selengkapnya tentang cara menjalankan Gemma dengan framework tertentu, lihat panduan yang ditautkan di bagian Memilih framework.

Pemformatan perintah

Semua varian Gemma yang disesuaikan dengan petunjuk memiliki persyaratan pemformatan prompt tertentu. Beberapa persyaratan pemformatan ini ditangani secara otomatis oleh framework yang Anda gunakan untuk menjalankan model Gemma, tetapi saat mengirim data perintah langsung ke tokenizer, Anda harus menambahkan tag tertentu, dan persyaratan pemberian tag dapat berubah bergantung pada varian Gemma yang Anda gunakan. Lihat panduan berikut untuk mengetahui informasi tentang pemformatan perintah varian Gemma dan petunjuk sistem: