MLX로 Gemma 실행

MLX는 Apple Silicon의 머신러닝을 위한 배열 프레임워크입니다.

빠른 시작

Python 패키지 색인 (PyPI)에서 설치

pip install mlx mlx-lm mlx-vlm

명령어 예:

# Text Generation
mlx_lm.generate --model mlx-community/gemma-4-e2b-it-4bit --prompt "Who are you?"

# Vision Task
mlx_vlm.generate --model mlx-community/gemma-4-e2b-it-4bit --prompt "Describe this image." --image <path_to_image>

다음 명령어를 사용하여 서버를 시작할 수 있습니다.

mlx_vlm.server --port 8080

# Preload a model at startup (Hugging Face repo or local path)
mlx_vlm.server --model mlx-community/gemma-4-e2b-it-4bit

이렇게 하면 OpenAI 호환 엔드포인트 (http://localhost:8080/v1)를 사용하여 모델에 액세스할 수 있는 서버가 생성됩니다.

Gemma와 함께 MLX를 사용하는 방법에 관한 자세한 내용과 안내는 공식 저장소를 참고하세요.