Vraponi Gemma me Ollamën, Vraponi Gemma me Ollama

Përdorimi i modeleve gjenerative të inteligjencës artificiale (AI) si Gemma mund të jetë sfidues pa harduerin e duhur. Kornizat me burim të hapur si llama.cpp dhe Ollama e bëjnë këtë më të lehtë duke vendosur një mjedis të para-konfiguruar të kohës së ekzekutimit që ju lejon të ekzekutoni versionet e Gemma me më pak burime llogaritëse. Në fakt, duke përdorur llama.cpp dhe Ollama mund të ekzekutoni versionet e Gemma në një kompjuter portativ ose pajisje tjetër të vogël kompjuterike pa një njësi përpunimi grafik (GPU).

Për të ekzekutuar modelet Gemma me më pak burime llogaritëse, kornizat llama.cpp dhe Ollama përdorin versione të kuantizuara të modeleve në formatin e skedarit të modelit GPT-Generated Unified Format (GGUF). Këto modele të kuantizuara modifikohen për të përpunuar kërkesat duke përdorur të dhëna më të vogla dhe më pak të sakta. Përdorimi i të dhënave më pak të sakta në modelet e kuantizuara për të përpunuar kërkesat zakonisht ul cilësinë e prodhimit të modeleve, por me përfitimin e uljes së kostove të burimeve llogaritëse.

Ky udhëzues përshkruan se si të konfiguroni dhe përdorni Ollama për të ekzekutuar Gemma për të gjeneruar përgjigje teksti.

Konfigurimi

Ky seksion përshkruan se si të konfiguroni Ollama dhe të përgatitni një shembull të modelit Gemma për t'iu përgjigjur kërkesave, duke përfshirë kërkesën për akses në model, instalimin e softuerit dhe konfigurimin e një modeli Gemma në Ollama.

Merrni akses në modelet Gemma

Përpara se të punoni me modelet Gemma, sigurohuni që keni kërkuar akses nëpërmjet Kaggle dhe keni rishikuar kushtet e përdorimit të Gemma .

Instaloni Olama

Përpara se të përdorni Gemma me Ollama, duhet të shkarkoni dhe instaloni softuerin Olama në pajisjen tuaj kompjuterike.

Për të shkarkuar dhe instaluar Olama:

  1. Shkoni në faqen e shkarkimit: https://ollama.com/download
  2. Zgjidhni sistemin tuaj operativ, klikoni butonin Shkarko ose ndiqni udhëzimet në faqen e shkarkimit.
  3. Instaloni aplikacionin duke ekzekutuar instaluesin.
    • Windows: Ekzekutoni skedarin e instaluesit *.exe dhe ndiqni udhëzimet.
    • Mac: Shpaketoni paketën zip dhe zhvendosni dosjen e aplikacionit Olama në drejtorinë tuaj të aplikacioneve .
    • Linux: Ndiqni udhëzimet në instaluesin e skriptit bash.
  4. Konfirmoni që Olama është instaluar duke hapur një dritare terminali dhe duke futur komandën e mëposhtme:

    ollama --version
    

Ju duhet të shihni një përgjigje të ngjashme me: ollama version is #.#.## . Nëse nuk e merrni këtë rezultat, sigurohuni që ekzekutuesi Ollama të shtohet në shtegun e sistemit tuaj operativ.

Konfiguro Gemma në Ollama

Paketa e instalimit Olama nuk përfshin asnjë model si parazgjedhje. Ju shkarkoni një model duke përdorur komandën pull .

Për të konfiguruar Gemma në Ollama:

  1. Shkarkoni dhe konfiguroni variantin e paracaktuar Gemma 2 duke hapur një dritare terminali dhe duke futur komandën e mëposhtme:

    ollama pull gemma2
    
  2. Pas përfundimit të shkarkimit, mund të konfirmoni se modeli është i disponueshëm me komandën e mëposhtme:

    ollama list
    

Si parazgjedhje, Olama shkarkon parametrin 9 miliardë, variantin e modelit Gemma të kuantizuar 4-bit (Q4_0). Ju gjithashtu mund të shkarkoni dhe përdorni madhësi të tjera të modelit Gemma duke specifikuar një madhësi parametri.

Modelet janë specifikuar si <model_name>:<tag> . Për modelin e parametrave Gemma 2, 2 miliardë, shkruani gemma2:2b . Për modelin e parametrave 27 miliardë, shkruani gemma2:27b . Etiketat e disponueshme mund t'i gjeni në faqen e internetit të Ollama, duke përfshirë Gemma 2 dhe Gemma .

Gjeneroni përgjigje

Kur të përfundoni instalimin e një modeli Gemma në Ollama, mund të gjeneroni përgjigje menjëherë duke përdorur komandën run të ndërfaqes së linjës komanduese të Ollamës. Ollama gjithashtu konfiguron një shërbim në internet për të hyrë në model, të cilin mund ta testoni duke përdorur komandën curl .

Për të gjeneruar përgjigje nga vija e komandës:

  • Në një dritare terminali dhe futni komandën e mëposhtme:

    ollama run gemma2 "roses are red"
    

Për të gjeneruar një përgjigje duke përdorur shërbimin lokal të internetit Olama:

  • Në një dritare terminali dhe futni komandën e mëposhtme:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma2",\
      "prompt":"roses are red"\
    }'
    

Modele të akorduara Gemma

Ollama ofron një grup variantesh të modelit zyrtar Gemma për përdorim të menjëhershëm, të cilat janë të kuantizuara dhe të ruajtura në formatin GGUF. Ju mund të përdorni modelet tuaja të akorduara Gemma me Ollama duke i konvertuar ato në formatin GGUF. Ollama përfshin disa funksione për të kthyer modelet e sintonizuara nga një format Modelfile në GGUF. Për më shumë informacion se si ta konvertoni modelin tuaj të akorduar në GGUF, shihni Olama README .

Hapat e ardhshëm

Pasi të keni Gemma që funksionon me Ollama, mund të filloni të eksperimentoni dhe ndërtoni zgjidhje me aftësitë gjeneruese të AI të Gemma. Ndërfaqja e linjës së komandës për Ollama mund të jetë e dobishme për ndërtimin e zgjidhjeve të skriptimit. Ndërfaqja lokale e shërbimit të uebit Ollama mund të jetë e dobishme për ndërtimin e aplikacioneve eksperimentale dhe të përdorimit me volum të ulët.

,

Përdorimi i modeleve gjenerative të inteligjencës artificiale (AI) si Gemma mund të jetë sfidues pa harduerin e duhur. Kornizat me burim të hapur si llama.cpp dhe Ollama e bëjnë këtë më të lehtë duke vendosur një mjedis të para-konfiguruar të kohës së ekzekutimit që ju lejon të ekzekutoni versionet e Gemma me më pak burime llogaritëse. Në fakt, duke përdorur llama.cpp dhe Ollama mund të ekzekutoni versionet e Gemma në një kompjuter portativ ose pajisje tjetër të vogël kompjuterike pa një njësi përpunimi grafik (GPU).

Për të ekzekutuar modelet Gemma me më pak burime llogaritëse, kornizat llama.cpp dhe Ollama përdorin versione të kuantizuara të modeleve në formatin e skedarit të modelit GPT-Generated Unified Format (GGUF). Këto modele të kuantizuara modifikohen për të përpunuar kërkesat duke përdorur të dhëna më të vogla dhe më pak të sakta. Përdorimi i të dhënave më pak të sakta në modelet e kuantizuara për të përpunuar kërkesat zakonisht ul cilësinë e prodhimit të modeleve, por me përfitimin e uljes së kostove të burimeve llogaritëse.

Ky udhëzues përshkruan se si të konfiguroni dhe përdorni Ollama për të ekzekutuar Gemma për të gjeneruar përgjigje teksti.

Konfigurimi

Ky seksion përshkruan se si të konfiguroni Ollama dhe të përgatitni një shembull të modelit Gemma për t'iu përgjigjur kërkesave, duke përfshirë kërkesën për akses në model, instalimin e softuerit dhe konfigurimin e një modeli Gemma në Ollama.

Merrni akses në modelet Gemma

Përpara se të punoni me modelet Gemma, sigurohuni që keni kërkuar akses nëpërmjet Kaggle dhe keni rishikuar kushtet e përdorimit të Gemma .

Instaloni Olama

Përpara se të përdorni Gemma me Ollama, duhet të shkarkoni dhe instaloni softuerin Olama në pajisjen tuaj kompjuterike.

Për të shkarkuar dhe instaluar Olama:

  1. Shkoni në faqen e shkarkimit: https://ollama.com/download
  2. Zgjidhni sistemin tuaj operativ, klikoni butonin Shkarko ose ndiqni udhëzimet në faqen e shkarkimit.
  3. Instaloni aplikacionin duke ekzekutuar instaluesin.
    • Windows: Ekzekutoni skedarin e instaluesit *.exe dhe ndiqni udhëzimet.
    • Mac: Shpaketoni paketën zip dhe zhvendosni dosjen e aplikacionit Olama në drejtorinë tuaj të aplikacioneve .
    • Linux: Ndiqni udhëzimet në instaluesin e skriptit bash.
  4. Konfirmoni që Olama është instaluar duke hapur një dritare terminali dhe duke futur komandën e mëposhtme:

    ollama --version
    

Ju duhet të shihni një përgjigje të ngjashme me: ollama version is #.#.## . Nëse nuk e merrni këtë rezultat, sigurohuni që ekzekutuesi Ollama të shtohet në shtegun e sistemit tuaj operativ.

Konfiguro Gemma në Ollama

Paketa e instalimit Olama nuk përfshin asnjë model si parazgjedhje. Ju shkarkoni një model duke përdorur komandën pull .

Për të konfiguruar Gemma në Ollama:

  1. Shkarkoni dhe konfiguroni variantin e paracaktuar Gemma 2 duke hapur një dritare terminali dhe duke futur komandën e mëposhtme:

    ollama pull gemma2
    
  2. Pas përfundimit të shkarkimit, mund të konfirmoni se modeli është i disponueshëm me komandën e mëposhtme:

    ollama list
    

Si parazgjedhje, Olama shkarkon parametrin 9 miliardë, variantin e modelit Gemma të kuantizuar 4-bit (Q4_0). Ju gjithashtu mund të shkarkoni dhe përdorni madhësi të tjera të modelit Gemma duke specifikuar një madhësi parametri.

Modelet janë specifikuar si <model_name>:<tag> . Për modelin e parametrave Gemma 2, 2 miliardë, shkruani gemma2:2b . Për modelin e parametrave 27 miliardë, shkruani gemma2:27b . Etiketat e disponueshme mund t'i gjeni në faqen e internetit të Ollama, duke përfshirë Gemma 2 dhe Gemma .

Gjeneroni përgjigje

Kur të përfundoni instalimin e një modeli Gemma në Ollama, mund të gjeneroni përgjigje menjëherë duke përdorur komandën run të ndërfaqes së linjës komanduese të Ollamës. Ollama gjithashtu konfiguron një shërbim në internet për të hyrë në model, të cilin mund ta testoni duke përdorur komandën curl .

Për të gjeneruar përgjigje nga vija e komandës:

  • Në një dritare terminali dhe futni komandën e mëposhtme:

    ollama run gemma2 "roses are red"
    

Për të gjeneruar një përgjigje duke përdorur shërbimin lokal të internetit Olama:

  • Në një dritare terminali dhe futni komandën e mëposhtme:

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma2",\
      "prompt":"roses are red"\
    }'
    

Modele të akorduara Gemma

Ollama ofron një grup variantesh të modelit zyrtar Gemma për përdorim të menjëhershëm, të cilat janë të kuantizuara dhe të ruajtura në formatin GGUF. Ju mund të përdorni modelet tuaja të akorduara Gemma me Ollama duke i konvertuar ato në formatin GGUF. Ollama përfshin disa funksione për të kthyer modelet e sintonizuara nga një format Modelfile në GGUF. Për më shumë informacion se si ta konvertoni modelin tuaj të akorduar në GGUF, shihni Olama README .

Hapat e ardhshëm

Pasi të keni Gemma që funksionon me Ollama, mund të filloni të eksperimentoni dhe ndërtoni zgjidhje me aftësitë gjeneruese të AI të Gemma. Ndërfaqja e linjës së komandës për Ollama mund të jetë e dobishme për ndërtimin e zgjidhjeve të skriptimit. Ndërfaqja lokale e shërbimit të uebit Ollama mund të jetë e dobishme për ndërtimin e aplikacioneve eksperimentale dhe të përdorimit me volum të ulët.