Menjalankan Gemma dengan Ollama

Menjalankan model kecerdasan buatan (AI) generatif seperti Gemma dapat menjadi tantangan tanpa hardware yang tepat. Framework open source seperti llama.cpp dan Ollama mempermudah hal ini dengan menyiapkan lingkungan runtime yang telah dikikonfigurasi sebelumnya yang memungkinkan Anda menjalankan versi Gemma dengan resource komputasi yang lebih sedikit. Faktanya, dengan menggunakan llama.cpp dan Ollama, Anda dapat menjalankan versi Gemma di laptop atau perangkat komputasi kecil lainnya tanpa unit pemrosesan grafis (GPU).

Untuk menjalankan model Gemma dengan resource komputasi yang lebih sedikit, framework llama.cpp dan Ollama menggunakan versi model yang dikuantisasi dalam format file model Georgi Gerganov Unified Format (GGUF). Model yang dikuantisasi ini diubah untuk memproses permintaan menggunakan data yang lebih kecil dan kurang presisi. Penggunaan data yang kurang presisi dalam model yang dikuantisasi untuk memproses permintaan biasanya menurunkan kualitas output model, tetapi dengan manfaat juga menurunkan biaya resource komputasi.

Panduan ini menjelaskan cara menyiapkan dan menggunakan Ollama untuk menjalankan Gemma guna menghasilkan respons teks.

Penyiapan

Bagian ini menjelaskan cara menyiapkan Ollama dan menyiapkan instance model Gemma untuk merespons permintaan, termasuk meminta akses model, menginstal software, dan mengonfigurasi model Gemma di Ollama.

Menginstal Ollama

Sebelum dapat menggunakan Gemma dengan Ollama, Anda harus mendownload dan menginstal software Ollama di perangkat komputasi.

Untuk mendownload dan menginstal Ollama:

  1. Buka halaman download: https://ollama.com/download
  2. Pilih sistem operasi Anda, klik tombol Download atau ikuti petunjuk di halaman download.
  3. Instal aplikasi dengan menjalankan penginstal.
    • Windows: Jalankan file *.exe penginstal dan ikuti petunjuknya.
    • Mac: Ekstrak paket zip dan pindahkan folder aplikasi Ollama ke direktori Applications.
    • Linux: Ikuti petunjuk dalam penginstal skrip bash.
  4. Pastikan Ollama terinstal dengan membuka jendela terminal dan memasukkan perintah berikut:

    ollama --version

Anda akan melihat respons yang mirip dengan: ollama version is #.#.##. Jika Anda tidak mendapatkan hasil ini, pastikan executable Ollama ditambahkan ke jalur sistem operasi Anda.

Mengonfigurasi Gemma di Ollama

Paket penginstalan Ollama tidak menyertakan model apa pun secara default. Anda mendownload model menggunakan perintah pull.

Untuk mengonfigurasi Gemma di Ollama:

  1. Download dan konfigurasi varian Gemma 4 default dengan membuka jendela terminal dan memasukkan perintah berikut:

    ollama pull gemma4

  2. Setelah menyelesaikan download, Anda dapat mengonfirmasi bahwa model tersedia dengan perintah berikut:

    ollama list

Model ditentukan sebagai <model_name>:<tag>. Untuk Gemma 4, empat ukuran: Parameter E2B, E4B, 26B, dan 31B:

  • Parameter E2B gemma4:e2b
  • Parameter E4B gemma4:e4b
  • Parameter 26B A4B gemma4:26b
  • Parameter 31B gemma4:31b

Anda dapat menemukan tag yang tersedia di situs Ollama, termasuk Gemma 4, Gemma 3n, Gemma 3, Gemma 2 dan Gemma.

Membuat respons

Setelah selesai menginstal model Gemma di Ollama, Anda dapat langsung membuat respons menggunakan perintah run antarmuka command line Ollama. Ollama juga mengonfigurasi layanan web untuk mengakses model, yang dapat Anda uji menggunakan perintah curl.

Untuk membuat respons dari command line:

  • Di jendela terminal, dan masukkan perintah berikut:

    ollama run gemma4 "roses are red"
    
  • Sertakan jalur ke gambar Anda untuk menggunakan input visual:

    ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
    

Untuk membuat respons menggunakan layanan web lokal Ollama:

  • Di jendela terminal, dan masukkan perintah berikut:

    curl http://localhost:11434/api/generate -d '{\
          "model": "gemma4",\
          "prompt":"roses are red"\
    }'
    
  • Sertakan daftar gambar berenkode base64 untuk menggunakan input visual:

    curl http://localhost:11434/api/generate -d '{\
          "model": "gemma4",\
          "prompt":"caption this image",\
          "images":[...]\
    }'
    

Model Gemma yang disesuaikan

Ollama menyediakan serangkaian varian model Gemma resmi untuk penggunaan langsung yang dikuantisasi dan disimpan dalam format GGUF. Anda dapat menggunakan model Gemma yang disesuaikan sendiri dengan Ollama dengan mengonversinya ke format GGUF. Ollama menyertakan beberapa fungsi untuk mengonversi model yang disesuaikan dari format Modelfile ke GGUF. Untuk mengetahui informasi selengkapnya tentang cara mengonversi model yang disesuaikan ke GGUF, lihat README Ollama.

Langkah berikutnya

Setelah Gemma berjalan dengan Ollama, Anda dapat mulai bereksperimen dan membuat solusi dengan kemampuan AI generatif Gemma. Antarmuka command line untuk Ollama dapat berguna untuk membuat solusi pembuatan skrip. Antarmuka layanan web lokal Ollama dapat berguna untuk membuat aplikasi penggunaan eksperimental dan bervolume rendah.

  • Coba integrasikan menggunakan layanan web Ollama untuk membuat asisten kode pribadi yang berjalan secara lokal .
  • Pelajari cara menyetel model Gemma.
  • Pelajari cara menjalankan Gemma dengan Ollama menggunakan layanan Google Cloud Run.
  • Pelajari cara menjalankan Gemma dengan Google Cloud.