llama.cpp es una biblioteca popular de código abierto diseñada para una inferencia local eficiente.
Inicio rápido
Instala
la versión compilada previamente de llama.cpp
Comando de ejemplo:
# Download and run a model directly from Hugging Face
llama-cli-hfggml-org/gemma-4-E2B-it-GGUF--prompt"Write a poem about the Kraken."# Use System Prompt
llama-cli-hfggml-org/gemma-4-E2B-it-GGUF-sys"You are Hong Gildong."-p"Who are you?"
Para comenzar y ejecutar el modelo en una interfaz agradable, puedes iniciar un servidor con lo siguiente:
llama-server-hfggml-org/gemma-4-E2B-it-GGUF
Esto crea un servidor que te permite acceder a tu modelo desde una interfaz
(http://localhost:8080) o accediendo al extremo de OpenAI
(http://localhost:8080/v1).
Para obtener más información y las instrucciones para usar llama.cpp con Gemma, consulta el repositorio oficial:
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2026-04-17 (UTC)"],[],[]]