Gemma 4 u lançua me hyrje teksti, audio dhe imazhi dhe dritare konteksti deri në 256K! Mësoni më shumë

Kjo faqe është përkthyer nga Cloud Translation API.

Ekzekutoni Gemma me Llama.cpp

llama.cpp është një bibliotekë e njohur me burim të hapur e projektuar për inferencim lokal efikas.

Fillimi i shpejtë

Instaloni versionin e parandërtuar të llama.cpp

Shembull komande:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Për të filluar dhe për të ekzekutuar modelin në një ndërfaqe të këndshme, mund të filloni një server me:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Kjo krijon një server që ju lejon të hyni në modelin tuaj ose nga një ndërfaqe ( http://localhost:8080 ) ose duke hyrë në pikën fundore OpenAI ( http://localhost:8080/v1 ).

Për më shumë informacion dhe udhëzime se si të përdorni llama.cpp me Gemma, referojuni depos zyrtare:

llama.cpp në GitHub