Ekzekutoni Gemma me Llama.cpp

llama.cpp është një bibliotekë e njohur me burim të hapur e projektuar për inferencim lokal efikas.

Fillimi i shpejtë

Instaloni versionin e parandërtuar të llama.cpp

Shembull komande:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Për të filluar dhe për të ekzekutuar modelin në një ndërfaqe të këndshme, mund të filloni një server me:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Kjo krijon një server që ju lejon të hyni në modelin tuaj ose nga një ndërfaqe ( http://localhost:8080 ) ose duke hyrë në pikën fundore OpenAI ( http://localhost:8080/v1 ).

Për më shumë informacion dhe udhëzime se si të përdorni llama.cpp me Gemma, referojuni depos zyrtare:

llama.cpp në GitHub