Esegui Gemma con Ollama

L'esecuzione di modelli di intelligenza artificiale (IA) generativa come Gemma può essere difficile senza l'hardware giusto. I framework open source come llama.cpp e Ollama semplificano questa operazione configurando un ambiente di runtime preconfigurato che consente di eseguire versioni di Gemma con meno risorse di calcolo. Infatti, utilizzando llama.cpp e Ollama puoi eseguire versioni di Gemma su un laptop o su un altro piccolo dispositivo di calcolo senza un'unità di elaborazione grafica (GPU).

Per eseguire i modelli Gemma con meno risorse di calcolo, i framework llama.cpp e Ollama utilizzano le versioni quantizzate dei modelli nel formato file del modello Georgi Gerganov Unified Format (GGUF). Questi modelli quantizzati vengono modificati per elaborare le richieste utilizzando dati più piccoli e meno precisi. L'utilizzo di dati meno precisi nei modelli quantizzati per elaborare le richieste in genere riduce la qualità dell'output dei modelli, ma con il vantaggio di ridurre anche i costi delle risorse di calcolo.

Questa guida descrive come configurare e utilizzare Ollama per eseguire Gemma al fine di generare risposte di testo.

Configurazione

Questa sezione descrive come configurare Ollama e preparare un'istanza del modello Gemma per rispondere alle richieste, inclusa la richiesta di accesso al modello, l'installazione del software e la configurazione di un modello Gemma in Ollama.

Accedere ai modelli di Gemma

Prima di utilizzare i modelli Gemma, assicurati di aver richiesto l'accesso tramite Kaggle e di aver letto i Termini e condizioni d'uso di Gemma.

Installa Ollama

Prima di poter utilizzare Gemma con Ollama, devi scaricare e installare il software Ollama sul tuo dispositivo di calcolo.

Per scaricare e installare Ollama:

  1. Vai alla pagina di download: https://ollama.com/download
  2. Seleziona il tuo sistema operativo, fai clic sul pulsante Scarica o segui le istruzioni riportate nella pagina di download.
  3. Installa l'applicazione eseguendo il programma di installazione.
    • Windows: esegui il file di installazione *.exe e segui le istruzioni.
    • Mac: estrai il pacchetto ZIP e sposta la cartella dell'applicazione Ollama nella directory Applicazioni.
    • Linux: segui le istruzioni nell'installatore dello script bash.
  4. Verifica che Ollama sia installato aprendo una finestra del terminale e inserendo il seguente comando:

    ollama --version
    

Dovresti visualizzare una risposta simile a: ollama version is #.#.##. Se non ottieni questo risultato, assicurati che l'eseguibile Ollama sia aggiunto al percorso del sistema operativo.

Configurare Gemma in Ollama

Il pacchetto di installazione di Ollama non include alcun modello per impostazione predefinita. Puoi scaricare un modello utilizzando il comando pull.

Per configurare Gemma in Ollama:

  1. Scarica e configura la variante predefinita di Gemma 3 aprendo una finestra del terminale e inserendo il seguente comando:

    ollama pull gemma3
    
  2. Al termine del download, puoi verificare che il modello sia disponibile con il seguente comando:

    ollama list
    

Per impostazione predefinita, Ollama scarica la variante del modello Gemma con 4 miliardi di parametri e quantizzazione a 4 bit (Q4_0). Puoi anche scaricare e utilizzare altre dimensioni del modello Gemma specificando una dimensione del parametro.

I modelli sono specificati come <model_name>:<tag>. Per Gemma 3, quattro dimensioni: parametri 1B, 4B, 12B e 27B:

  • Parametri 1B gemma3:1b
  • Parametri 4B gemma3:4b
  • Parametri 12B gemma3:12b
  • Parametri 27B gemma3:27b

Puoi trovare i tag disponibili sul sito web di Ollama, tra cui Gemma 3, Gemma 2 e Gemma.

Generare risposte

Al termine dell'installazione di un modello Gemma in Ollama, puoi generare immediatamente le risposte utilizzando il comando run dell'interfaccia a riga di comando di Ollama. Ollama configura anche un servizio web per accedere al modello, che puoi testare utilizzando il comando curl.

Per generare la risposta dalla riga di comando:

  • In una finestra del terminale, inserisci il seguente comando:

    ollama run gemma3 "roses are red"
    
  • Includi il percorso dell'immagine per utilizzare un input visivo:

    ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
    

Per generare una risposta utilizzando il servizio web locale Ollama:

  • In una finestra del terminale, inserisci il seguente comando:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma3",\
      "prompt":"roses are red"\
    }'
    
  • Includi un elenco di immagini con codifica Base64 per utilizzare un input visivo:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma3",\
      "prompt":"caption this image",\
      "images":[...]\
    }'
    

Modelli Gemma ottimizzati

Ollama fornisce un insieme di varianti ufficiali del modello Gemma per l'uso immediato, che vengono quantizzate e salvate in formato GGUF. Puoi utilizzare i tuoi modelli Gemma ottimizzati con Ollama convertendoli in formato GGUF. Ollama include alcune funzioni per convertire i modelli ottimizzati da un formato Modelfile a GGUF. Per ulteriori informazioni su come convertire il modello ottimizzato in GGUF, consulta il file README di Ollama.

Passaggi successivi

Una volta eseguito Gemma con Ollama, puoi iniziare a sperimentare e creare soluzioni con le funzionalità di AI generativa di Gemma. L'interfaccia a riga di comando per Ollama può essere utile per creare soluzioni di scripting. L'interfaccia del servizio web locale Ollama può essere utile per creare applicazioni sperimentali e con volume di utilizzo ridotto.