Gemma 4 została udostępniona z możliwością wprowadzania tekstu, dźwięku i obrazów oraz długim oknem kontekstu (do 256 tys. tokenów). Więcej informacji

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Uruchamianie Gemma za pomocą Llama.cpp

llama.cpp to popularna biblioteka open source zaprojektowana z myślą o wydajnym wnioskowaniu lokalnym.

Szybki start

Zainstaluj gotową wersję llama.cpp

Przykładowe polecenie:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

Aby rozpocząć i uruchomić model w przyjaznym interfejsie, możesz uruchomić serwer za pomocą tego polecenia:

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

Spowoduje to utworzenie serwera, który umożliwi Ci dostęp do modelu za pomocą interfejsu (http://localhost:8080) lub punktu końcowego OpenAI (http://localhost:8080/v1).

Więcej informacji i instrukcje korzystania z llama.cpp w przypadku Gemy znajdziesz w oficjalnym repozytorium:

llama.cpp na GitHubie