เรียกใช้ Gemma ด้วย Llama.cpp

llama.cpp เป็นไลบรารีโอเพนซอร์สยอดนิยมที่ออกแบบมาเพื่อการอนุมานในเครื่องอย่างมีประสิทธิภาพ

การเริ่มใช้งานอย่างง่าย

ติดตั้ง llama.cpp เวอร์ชันที่สร้างไว้ล่วงหน้า

ตัวอย่างคำสั่ง

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

หากต้องการเริ่มต้นใช้งานและเรียกใช้โมเดลในอินเทอร์เฟซที่สวยงาม คุณสามารถเริ่มเซิร์ฟเวอร์ได้โดยใช้คำสั่งต่อไปนี้

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

ซึ่งจะสร้างเซิร์ฟเวอร์ที่ช่วยให้คุณเข้าถึงโมเดลได้จากอินเทอร์เฟซ (http://localhost:8080) หรือโดยการเข้าถึงปลายทาง OpenAI (http://localhost:8080/v1)

ดูข้อมูลเพิ่มเติมและวิธีการใช้ llama.cpp กับ Gemma ได้ที่ที่เก็บอย่างเป็นทางการ

llama.cpp ใน GitHub