Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 MLX 运行 Gemma

MLX 是一个数组框架，用于在 Apple 芯片上进行机器学习。

快速入门

从 Python 软件包索引 (PyPI) 安装

pip install mlx mlx-lm mlx-vlm

示例命令：

# Text Generation
mlx_lm.generate --model mlx-community/gemma-4-e2b-it-4bit --prompt "Who are you?"

# Vision Task
mlx_vlm.generate --model mlx-community/gemma-4-e2b-it-4bit --prompt "Describe this image." --image <path_to_image>

您可以使用以下命令启动服务器：

mlx_vlm.server --port 8080

# Preload a model at startup (Hugging Face repo or local path)
mlx_vlm.server --model mlx-community/gemma-4-e2b-it-4bit

这会创建一个服务器，让您可以通过与 OpenAI 兼容的端点 (http://localhost:8080/v1) 访问模型。

如需详细了解如何将 MLX 与 Gemma 搭配使用，请参阅官方代码库：