Menjalankan inferensi dan pembuatan konten Gemma

Ada dua keputusan penting yang harus dibuat saat Anda ingin menjalankan model Gemma: 1) varian Gemma mana yang ingin Anda jalankan, dan 2) framework eksekusi AI mana yang akan Anda gunakan untuk menjalankannya? Masalah utama dalam membuat kedua keputusan ini berkaitan dengan hardware yang tersedia bagi Anda dan pengguna untuk menjalankan model.

Ringkasan ini membantu Anda membuat keputusan tersebut dan mulai menggunakan model Gemma. Langkah-langkah umum untuk menjalankan model Gemma adalah sebagai berikut:

Memilih framework

Model Gemma kompatibel dengan berbagai alat ekosistem. Memilih alat yang tepat bergantung pada hardware yang tersedia (GPU Cloud vs. Laptop Lokal) dan preferensi antarmuka Anda (kode Python vs. Aplikasi Desktop).

Gunakan tabel berikut untuk mengidentifikasi alat terbaik untuk kebutuhan Anda dengan cepat:

Jika Anda ingin... Framework yang Direkomendasikan Terbaik Untuk
Menjalankan secara lokal dengan UI Chat - LM Studio
- Ollama
Pemula, atau pengguna yang menginginkan pengalaman "seperti Gemini" di laptop mereka.
Menjalankan secara efisien di Edge - LiteRT-LM
- llama.cpp
- MLX
Inferensi lokal berperforma tinggi dengan resource minimal.
Membuat/Melatih di Python - Tunix (Tune-in-JAX)
- Hugging Face Transformers
- Keras
- Unsloth
Peneliti dan Developer yang membuat aplikasi kustom atau model fine-tuning.
Men-deploy ke Produksi / Perusahaan - Google Cloud Kubernetes Engine (GKE)
- Gemini Enterprise Agent Platform
- vLLM
- SGLang
Deployment cloud terkelola dan skalabel dengan dukungan MLOps dan keamanan perusahaan.

Detail Framework

Berikut adalah panduan untuk menjalankan model Gemma yang dikategorikan menurut lingkungan deployment Anda.

1. Inferensi Desktop &Lokal (Efisiensi Tinggi)

Alat ini memungkinkan Anda menjalankan Gemma di hardware konsumen (laptop, desktop) dengan memanfaatkan format yang dioptimalkan (seperti GGUF) atau akselerator hardware tertentu.

2. Pengembangan Python (Penelitian &Fine-tuning)

Framework standar untuk developer AI yang membuat aplikasi, pipeline, atau model pelatihan.

3. Deployment Seluler &Edge (Di Perangkat)

Framework yang dirancang untuk menjalankan LLM langsung di perangkat pengguna (Android, iOS, Web) tanpa konektivitas internet, yang sering kali menggunakan NPU (Neural Processing Units).

  • LiteRT-LM: Framework open source sepenuhnya untuk pengembangan LLM di perangkat yang menawarkan performa maksimum dan kontrol terperinci, dengan dukungan langsung untuk akselerasi CPU, GPU, dan NPU di Android dan iOS.

4. Deployment Cloud &Produksi

Layanan terkelola untuk menskalakan aplikasi Anda ke ribuan pengguna atau mengakses daya komputasi yang sangat besar.

Pastikan format model Gemma deployment yang Anda inginkan, seperti format bawaan Keras, Safetensors, atau GGUF, didukung oleh framework yang Anda pilih.

Memilih varian Gemma

Kaggle Jika Anda tidak yakin varian mana yang harus digunakan, pilih model Gemma inti instruction-tuned (IT) terbaru dengan jumlah parameter terendah. Jenis model Gemma ini memiliki persyaratan komputasi yang rendah dan dapat merespons berbagai perintah tanpa memerlukan pengembangan tambahan.

Pertimbangkan faktor-faktor berikut saat memilih varian Gemma:

  • Gemma inti, dan keluarga varian lainnya seperti PaliGemma, CodeGemma: Sebaiknya gunakan Gemma (inti). Varian Gemma di luar versi inti memiliki arsitektur yang sama dengan model inti, dan dilatih untuk berperforma lebih baik dalam tugas tertentu. Kecuali jika aplikasi atau sasaran Anda selaras dengan spesialisasi varian Gemma tertentu, sebaiknya mulai dengan model Gemma inti, atau dasar.
  • Instruction-tuned (IT), pre-trained (PT), fine-tuned (FT), mixed (mix): Sebaiknya gunakan IT.
    • Varian Gemma instruction-tuned (IT) adalah model yang telah dilatih untuk merespons berbagai instruksi atau permintaan dalam bahasa manusia. Varian model ini adalah tempat terbaik untuk memulai karena dapat merespons perintah tanpa pelatihan model lebih lanjut.
    • Varian Gemma pre-trained (PT) adalah model yang telah dilatih untuk membuat inferensi tentang bahasa atau data lainnya, tetapi belum dilatih untuk mengikuti instruksi manusia. Model ini memerlukan pelatihan atau penyetelan tambahan agar dapat melakukan tugas secara efektif, dan ditujukan untuk peneliti atau developer yang ingin mempelajari atau mengembangkan kemampuan model dan arsitekturnya.
    • Varian Gemma fine-tuned (FT) dapat dianggap sebagai varian IT, tetapi biasanya dilatih untuk melakukan tugas tertentu, atau berperforma baik pada benchmark AI generatif tertentu. Keluarga varian PaliGemma mencakup sejumlah varian FT.
    • Varian Gemma mixed (mix) adalah versi model PaliGemma yang telah disesuaikan dengan berbagai instruksi dan cocok untuk penggunaan umum.
  • Parameter: Sebaiknya gunakan jumlah terkecil yang tersedia. Secara umum, semakin banyak parameter yang dimiliki model, semakin mumpuni model tersebut. Namun, menjalankan model yang lebih besar memerlukan resource komputasi yang lebih besar dan kompleks, dan umumnya memperlambat pengembangan aplikasi AI. Kecuali jika Anda telah menentukan bahwa model Gemma yang lebih kecil tidak dapat memenuhi kebutuhan Anda, pilih model dengan jumlah parameter yang kecil.
  • Tingkat kuantisasi: Sebaiknya gunakan presisi setengah (16-bit), kecuali untuk penyetelan. Kuantisasi adalah topik kompleks yang berkaitan dengan ukuran dan presisi data, dan akibatnya, seberapa banyak memori yang digunakan model AI generatif untuk perhitungan dan pembuatan respons. Setelah model dilatih dengan data presisi tinggi, yang biasanya merupakan data floating point 32-bit, model seperti Gemma dapat diubah untuk menggunakan data presisi yang lebih rendah seperti ukuran 16, 8, atau 4-bit. Model Gemma yang dikuantisasi ini masih dapat berperforma baik, bergantung pada kompleksitas tugas, sekaligus menggunakan resource komputasi dan memori yang jauh lebih sedikit. Namun, alat untuk menyetel model yang dikuantisasi terbatas dan mungkin tidak tersedia dalam framework pengembangan AI yang Anda pilih. Biasanya, Anda harus menyetel model seperti Gemma dengan presisi penuh, lalu menguantisasi model yang dihasilkan.

Untuk mengetahui daftar model Gemma utama yang dipublikasikan Google, lihat Memulai model Gemma, Daftar model Gemma.

Menjalankan permintaan pembuatan dan inferensi

Setelah memilih framework eksekusi AI dan varian Gemma, Anda dapat mulai menjalankan model, dan meminta model untuk membuat konten atau menyelesaikan tugas. Untuk mengetahui informasi selengkapnya tentang cara menjalankan Gemma dengan framework tertentu, lihat panduan yang ditautkan di bagian Memilih framework.

Pemformatan perintah

Semua varian Gemma instruction-tuned memiliki persyaratan pemformatan perintah tertentu. Beberapa persyaratan pemformatan ini ditangani secara otomatis oleh framework yang Anda gunakan untuk menjalankan model Gemma, tetapi saat mengirim data perintah langsung ke tokenizer, Anda harus menambahkan tag tertentu, dan persyaratan pemberian tag dapat berubah bergantung pada varian Gemma yang Anda gunakan. Lihat panduan berikut untuk mengetahui informasi tentang pemformatan perintah dan instruksi sistem varian Gemma: