Ada dua keputusan penting yang harus dibuat saat Anda ingin menjalankan model Gemma: 1) varian Gemma yang ingin Anda jalankan, dan 2) framework eksekusi AI yang akan Anda gunakan untuk menjalankannya? Masalah utama dalam membuat kedua keputusan ini berkaitan dengan hardware yang tersedia bagi Anda dan pengguna untuk menjalankan model.
Ringkasan ini membantu Anda membuat keputusan tersebut dan mulai menggunakan model Gemma. Langkah-langkah umum untuk menjalankan model Gemma adalah sebagai berikut:
- Memilih framework untuk menjalankan
- Pilih varian Gemma
- Menjalankan permintaan pembuatan dan inferensi
Pilih framework
Model Gemma kompatibel dengan berbagai alat ekosistem. Memilih yang tepat bergantung pada hardware yang tersedia (GPU Cloud vs. Laptop Lokal) dan preferensi antarmuka Anda (kode Python vs. Aplikasi Desktop).
Gunakan tabel berikut untuk mengidentifikasi alat terbaik untuk kebutuhan Anda dengan cepat:
| Jika Anda ingin... | Framework yang Direkomendasikan | Terbaik Untuk |
|---|---|---|
| Menjalankan secara lokal dengan UI Chat | - LM Studio - Ollama |
Pemula, atau pengguna yang menginginkan pengalaman "mirip Gemini" di laptop mereka. |
| Berjalan secara efisien di Edge | - Gemma.cpp - LiteRT-LM - llama.cpp - MediaPipe LLM Inference API - MLX |
Inferensi lokal berperforma tinggi dengan resource minimal. |
| Bangun/Latih di Python | - Pustaka Gemma untuk JAX - Hugging Face Transformers - Keras - PyTorch - Unsloth |
Peneliti dan Developer yang membangun aplikasi kustom atau menyempurnakan model. |
| Men-deploy ke Produksi / Enterprise | - Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM |
Penerapan cloud terkelola yang skalabel dengan dukungan MLOps dan keamanan tingkat perusahaan. |
Detail Framework
Berikut adalah panduan untuk menjalankan model Gemma yang dikategorikan berdasarkan lingkungan deployment Anda.
1. Inferensi Desktop & Lokal (Efisiensi Tinggi)
Alat ini memungkinkan Anda menjalankan Gemma di hardware konsumen (laptop, desktop) dengan memanfaatkan format yang dioptimalkan (seperti GGUF) atau akselerator hardware tertentu.
- LM Studio: Aplikasi desktop yang memungkinkan Anda mendownload dan melakukan percakapan dengan model Gemma dalam antarmuka yang mudah digunakan. Coding tidak diperlukan.
- llama.cpp: Port C++ open source Llama (dan Gemma) yang populer dan berjalan sangat cepat di CPU dan Apple Silicon.
- LiteRT-LM: Menawarkan antarmuka command line
(CLI) untuk menjalankan model Gemma
.litertlmyang dioptimalkan di desktop (Windows, Linux, macOS), yang didukung oleh LiteRT (sebelumnya TFLite). - MLX: Framework yang dirancang khusus untuk machine learning di Apple Silicon, cocok untuk pengguna Mac yang menginginkan performa bawaan.
- Gemma.cpp: Mesin inferensi C++ mandiri yang ringan khusus dari Google.
- Ollama: Alat untuk menjalankan LLM terbuka secara lokal, yang sering digunakan untuk mendukung aplikasi lain.
2. Pengembangan Python (Penelitian & Penyesuaian)
Framework standar bagi developer AI yang membangun aplikasi, pipeline, atau model pelatihan.
- Hugging Face Transformers: Standar industri untuk akses cepat ke model dan pipeline.
- Unsloth: Library yang dioptimalkan untuk menyesuaikan LLM. Dengan UnSloth, Anda dapat melatih model Gemma 2-5x lebih cepat dengan memori yang jauh lebih sedikit, sehingga memungkinkan penyesuaian di GPU konsumen (misalnya, paket gratis Google Colab).
- Keras / JAX / PyTorch: Library inti untuk riset deep learning dan penerapan arsitektur kustom.
3. Deployment Seluler & Edge (Di Perangkat)
Framework yang dirancang untuk menjalankan LLM secara langsung di perangkat pengguna (Android, iOS, Web) tanpa konektivitas internet, sering kali menggunakan NPU (Neural Processing Unit).
- LiteRT-LM: Framework open source sepenuhnya untuk pengembangan LLM di perangkat yang menawarkan performa maksimal dan kontrol terperinci, dengan dukungan langsung untuk akselerasi CPU, GPU, dan NPU di Android dan iOS.
- MediaPipe LLM Inference API: Cara termudah untuk mengintegrasikan Gemma ke dalam aplikasi lintas platform. Platform ini menawarkan API tingkat tinggi yang berfungsi di Android, iOS, dan Web.
4. Deployment Cloud & Produksi
Layanan terkelola untuk menskalakan aplikasi Anda ke ribuan pengguna atau mengakses daya komputasi yang sangat besar.
- Vertex AI: Platform AI terkelola sepenuhnya dari Google Cloud. Terbaik untuk aplikasi perusahaan yang memerlukan SLA dan penskalaan.
- Google Cloud Kubernetes Engine (GKE): Untuk mengorkestrasi cluster penayangan Anda sendiri.
- vLLM: Mesin inferensi dan penayangan yang memiliki throughput tinggi dan hemat memori, yang sering digunakan dalam deployment cloud.
Pastikan format model Gemma yang akan di-deploy, seperti format bawaan Keras, Safetensors, atau GGUF, didukung oleh framework yang Anda pilih.
Pilih varian Gemma
Model Gemma tersedia dalam beberapa varian dan ukuran, termasuk model dasar atau inti Gemma, dan varian model yang lebih khusus seperti PaliGemma dan DataGemma, serta banyak varian yang dibuat oleh komunitas developer AI di situs seperti Kaggle dan Hugging Face. Jika Anda tidak yakin dengan varian yang harus digunakan, pilih model Gemma inti yang disesuaikan untuk mengikuti perintah (IT) terbaru dengan jumlah parameter terendah. Jenis model Gemma ini memiliki persyaratan komputasi yang rendah dan dapat merespons berbagai perintah tanpa memerlukan pengembangan tambahan.
Pertimbangkan faktor-faktor berikut saat memilih varian Gemma:
- Inti Gemma, dan rangkaian varian lainnya seperti PaliGemma, CodeGemma: Rekomendasikan Gemma (inti). Varian Gemma di luar versi inti memiliki arsitektur yang sama dengan model inti, dan dilatih untuk berperforma lebih baik dalam tugas tertentu. Kecuali jika aplikasi atau sasaran Anda sesuai dengan spesialisasi varian Gemma tertentu, sebaiknya mulai dengan model inti atau dasar Gemma.
- Disetel untuk mengikuti perintah (IT), telah dilatih (PT), di-fine-tune (FT), campuran (mix): Rekomendasikan IT.
- Varian Gemma yang dioptimalkan untuk mengikuti perintah (IT) adalah model yang telah dilatih untuk merespons berbagai perintah atau permintaan dalam bahasa manusia. Varian model ini adalah tempat terbaik untuk memulai karena dapat merespons perintah tanpa pelatihan model lebih lanjut.
- Varian Gemma Terlatih Sebelumnya (PT) adalah model yang telah dilatih untuk membuat inferensi tentang bahasa atau data lain, tetapi belum dilatih untuk mengikuti perintah manusia. Model ini memerlukan pelatihan atau penyesuaian tambahan agar dapat melakukan tugas secara efektif, dan ditujukan untuk peneliti atau developer yang ingin mempelajari atau mengembangkan kemampuan model dan arsitekturnya.
- Varian Gemma yang dioptimalkan (FT) dapat dianggap sebagai varian IT, tetapi biasanya dilatih untuk melakukan tugas tertentu, atau berperforma baik pada tolok ukur AI generatif tertentu. Rangkaian varian PaliGemma mencakup sejumlah varian FT.
- Varian Gemma Campuran (mix) adalah versi model PaliGemma yang telah disesuaikan dengan berbagai instruksi dan cocok untuk penggunaan umum.
- Parameter: Rekomendasikan jumlah terkecil yang tersedia. Secara umum, makin banyak parameter yang dimiliki model, makin mumpuni model tersebut. Namun, menjalankan model yang lebih besar memerlukan resource komputasi yang lebih besar dan lebih kompleks, dan umumnya memperlambat pengembangan aplikasi AI. Kecuali jika Anda telah menentukan bahwa model Gemma yang lebih kecil tidak dapat memenuhi kebutuhan Anda, pilih model dengan jumlah parameter yang kecil.
- Tingkat kuantisasi: Sebaiknya gunakan presisi setengah (16-bit), kecuali untuk penyesuaian. Kuantisasi adalah topik kompleks yang pada dasarnya berkaitan dengan ukuran dan presisi data, dan akibatnya, seberapa banyak memori yang digunakan model AI generatif untuk melakukan perhitungan dan menghasilkan respons. Setelah model dilatih dengan data presisi tinggi, yang biasanya berupa data floating point 32-bit, model seperti Gemma dapat diubah untuk menggunakan data presisi yang lebih rendah seperti ukuran 16, 8, atau 4-bit. Model Gemma yang dikuantisasi ini tetap dapat berperforma baik, bergantung pada kompleksitas tugas, sekaligus menggunakan resource komputasi dan memori yang jauh lebih sedikit. Namun, alat untuk menyetel model terkuantisasi terbatas dan mungkin tidak tersedia dalam framework pengembangan AI yang Anda pilih. Biasanya, Anda harus menyesuaikan model seperti Gemma dengan presisi penuh, lalu menguantisasi model yang dihasilkan.
Untuk mengetahui daftar model utama Gemma yang dipublikasikan Google, lihat Mulai menggunakan model Gemma, Daftar model Gemma.
Menjalankan permintaan pembuatan dan inferensi
Setelah memilih framework eksekusi AI dan varian Gemma, Anda dapat mulai menjalankan model, dan meminta model untuk membuat konten atau menyelesaikan tugas. Untuk mengetahui informasi selengkapnya tentang cara menjalankan Gemma dengan framework tertentu, lihat panduan yang ditautkan di bagian Pilih framework.
Pemformatan perintah
Semua varian Gemma yang dioptimalkan untuk mengikuti perintah memiliki persyaratan pemformatan perintah tertentu. Beberapa persyaratan pemformatan ini ditangani secara otomatis oleh framework yang Anda gunakan untuk menjalankan model Gemma, tetapi saat Anda mengirim data perintah langsung ke tokenizer, Anda harus menambahkan tag tertentu, dan persyaratan pemberian tag dapat berubah bergantung pada varian Gemma yang Anda gunakan. Lihat panduan berikut untuk mengetahui informasi tentang pemformatan perintah varian Gemma dan petunjuk sistem: