Menjalankan Gemma dengan Ollama

Menjalankan model kecerdasan buatan (AI) generatif seperti Gemma dapat menjadi tantangan tanpa hardware yang tepat. Framework open source seperti llama.cpp dan Ollama memudahkan hal ini dengan menyiapkan lingkungan runtime yang telah dikonfigurasi sebelumnya yang memungkinkan Anda menjalankan versi Gemma dengan lebih sedikit resource komputasi. Bahkan, dengan menggunakan llama.cpp dan Ollama, Anda dapat menjalankan versi Gemma di laptop atau perangkat komputasi kecil lainnya tanpa unit pemrosesan grafis (GPU).

Untuk menjalankan model Gemma dengan lebih sedikit resource komputasi, framework llama.cpp dan Ollama menggunakan versi model kuantisasi dalam format file model Unified Format (GGUF) Georgi Gerganov. Model kuantisasi ini dimodifikasi untuk memproses permintaan menggunakan data yang lebih kecil dan kurang akurat. Menggunakan data yang kurang presisi dalam model kuantisasi untuk memproses permintaan biasanya menurunkan kualitas output model, tetapi dengan manfaat juga menurunkan biaya resource komputasi.

Panduan ini menjelaskan cara menyiapkan dan menggunakan Ollama untuk menjalankan Gemma guna menghasilkan respons teks.

Penyiapan

Bagian ini menjelaskan cara menyiapkan Ollama dan menyiapkan instance model Gemma untuk merespons permintaan, termasuk meminta akses model, menginstal software, dan mengonfigurasi model Gemma di Ollama.

Dapatkan akses ke model Gemma

Sebelum menggunakan model Gemma, pastikan Anda telah meminta akses melalui Kaggle dan meninjau persyaratan penggunaan Gemma.

Menginstal Ollama

Sebelum dapat menggunakan Gemma dengan Ollama, Anda harus mendownload dan menginstal software Ollama di perangkat komputasi Anda.

Untuk mendownload dan menginstal Ollama:

  1. Buka halaman download: https://ollama.com/download
  2. Pilih sistem operasi Anda, klik tombol Download, atau ikuti petunjuk di halaman download.
  3. Instal aplikasi dengan menjalankan penginstal.
    • Windows: Jalankan file penginstal *.exe dan ikuti petunjuknya.
    • Mac: Ekstrak paket ZIP dan pindahkan folder aplikasi Ollama ke direktori Applications.
    • Linux: Ikuti petunjuk di penginstal skrip bash.
  4. Pastikan Ollama telah diinstal dengan membuka jendela terminal dan memasukkan perintah berikut:

    ollama --version
    

Anda akan melihat respons yang mirip dengan: ollama version is #.#.##. Jika Anda tidak mendapatkan hasil ini, pastikan file yang dapat dieksekusi Ollama ditambahkan ke jalur sistem operasi Anda.

Mengonfigurasi Gemma di Ollama

Paket penginstalan Ollama tidak menyertakan model apa pun secara default. Anda mendownload model menggunakan perintah pull.

Untuk mengonfigurasi Gemma di Ollama:

  1. Download dan konfigurasikan varian Gemma 3 default dengan membuka jendela terminal dan memasukkan perintah berikut:

    ollama pull gemma3
    
  2. Setelah menyelesaikan download, Anda dapat mengonfirmasi bahwa model tersedia dengan perintah berikut:

    ollama list
    

Secara default, Ollama mendownload varian model Gemma dengan 4 miliar parameter, kuantisasi 4-bit (Q4_0). Anda juga dapat mendownload dan menggunakan ukuran model Gemma lainnya dengan menentukan ukuran parameter.

Model ditentukan sebagai <model_name>:<tag>. Untuk Gemma 3, ada empat ukuran: parameter 1B, 4B, 12B, dan 27B:

  • Parameter 1B gemma3:1b
  • Parameter 4B gemma3:4b
  • Parameter 12B gemma3:12b
  • Parameter 27B gemma3:27b

Anda dapat menemukan tag yang tersedia di situs Ollama, termasuk Gemma 3, Gemma 2, dan Gemma.

Membuat respons

Setelah selesai menginstal model Gemma di Ollama, Anda dapat langsung membuat respons menggunakan perintah run antarmuka command line Ollama. Ollama juga mengonfigurasi layanan web untuk mengakses model, yang dapat Anda uji menggunakan perintah curl.

Untuk membuat respons dari command line:

  • Di jendela terminal, dan masukkan perintah berikut:

    ollama run gemma3 "roses are red"
    
  • Sertakan jalur ke gambar Anda untuk menggunakan input visual:

    ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
    

Untuk membuat respons menggunakan layanan web lokal Ollama:

  • Di jendela terminal, dan masukkan perintah berikut:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma3",\
      "prompt":"roses are red"\
    }'
    
  • Sertakan daftar gambar berenkode base64 untuk menggunakan input visual:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma3",\
      "prompt":"caption this image",\
      "images":[...]\
    }'
    

Model Gemma yang disesuaikan

Ollama menyediakan serangkaian varian model Gemma resmi untuk langsung digunakan yang dikuantifikasi dan disimpan dalam format GGUF. Anda dapat menggunakan model Gemma yang telah disesuaikan sendiri dengan Ollama dengan mengonversinya ke format GGUF. Ollama menyertakan beberapa fungsi untuk mengonversi model yang dioptimalkan dari format Modelfile ke GGUF. Untuk informasi selengkapnya tentang cara mengonversi model yang disesuaikan ke GGUF, lihat README Ollama.

Langkah berikutnya

Setelah Gemma berjalan dengan Ollama, Anda dapat mulai bereksperimen dan mem-build solusi dengan kemampuan AI generatif Gemma. Antarmuka command line untuk Ollama dapat berguna untuk membuat solusi pembuatan skrip. Antarmuka layanan web lokal Ollama dapat berguna untuk membuat aplikasi eksperimental dan penggunaan bervolume rendah.