Việc chạy các mô hình trí tuệ nhân tạo (AI) tạo sinh như Gemma có thể gặp khó khăn nếu không có phần cứng phù hợp. Các khung nguồn mở như llama.cpp và Ollama giúp bạn dễ dàng thiết lập môi trường thời gian chạy được định cấu hình sẵn để chạy các phiên bản Gemma mà không cần nhiều tài nguyên điện toán. Trên thực tế, khi sử dụng llama.cpp và Ollama, bạn có thể chạy các phiên bản của Gemma trên máy tính xách tay hoặc thiết bị điện toán nhỏ khác mà không cần bộ xử lý đồ hoạ (GPU).
Để chạy các mô hình Gemma với ít tài nguyên điện toán hơn, các khung llama.cpp và Ollama sử dụng các phiên bản được lượng tử hoá của các mô hình ở định dạng tệp mô hình Định dạng hợp nhất Georgi Gerganov (GGUF). Các mô hình được lượng tử hoá này được sửa đổi để xử lý các yêu cầu bằng cách sử dụng dữ liệu nhỏ hơn và ít chính xác hơn. Việc sử dụng dữ liệu ít chính xác hơn trong các mô hình được lượng tử hoá để xử lý các yêu cầu thường làm giảm chất lượng đầu ra của mô hình, nhưng cũng có lợi ích là giảm chi phí tài nguyên điện toán.
Hướng dẫn này mô tả cách thiết lập và sử dụng Ollama để chạy Gemma nhằm tạo phản hồi bằng văn bản.
Thiết lập
Phần này mô tả cách thiết lập Ollama và chuẩn bị một phiên bản mô hình Gemma để phản hồi các yêu cầu, bao gồm cả yêu cầu truy cập mô hình, cài đặt phần mềm và định cấu hình mô hình Gemma trong Ollama.
Cài đặt Ollama
Trước khi có thể sử dụng Gemma với Ollama, bạn phải tải và cài đặt phần mềm Ollama trên thiết bị điện toán của mình.
Cách tải xuống và cài đặt Ollama:
- Truy cập vào trang tải xuống: https://ollama.com/download
- Chọn hệ điều hành của bạn, nhấp vào nút Tải xuống hoặc làm theo hướng dẫn trên trang tải xuống.
- Cài đặt ứng dụng bằng cách chạy trình cài đặt.
- Windows: Chạy tệp trình cài đặt *.exe rồi làm theo hướng dẫn.
- Mac: Giải nén gói zip rồi di chuyển thư mục ứng dụng Ollama vào thư mục Applications (Ứng dụng).
- Linux: Làm theo hướng dẫn trong trình cài đặt tập lệnh bash.
Xác nhận rằng Ollama đã được cài đặt bằng cách mở cửa sổ dòng lệnh và nhập lệnh sau:
ollama --version
Bạn sẽ thấy một phản hồi tương tự như: ollama version is #.#.##. Nếu bạn không nhận được kết quả này, hãy đảm bảo rằng tệp thực thi Ollama đã được thêm vào đường dẫn hệ điều hành.
Định cấu hình Gemma trong Ollama
Theo mặc định, gói cài đặt Ollama không bao gồm bất kỳ mô hình nào. Bạn có thể tải một mô hình xuống bằng lệnh pull.
Cách định cấu hình Gemma trong Ollama:
Tải xuống và định cấu hình biến thể Gemma 4 mặc định bằng cách mở cửa sổ dòng lệnh rồi nhập lệnh sau:
ollama pull gemma4
Sau khi hoàn tất quá trình tải xuống, bạn có thể xác nhận rằng mô hình đã có sẵn bằng lệnh sau:
ollama list
Các mô hình được chỉ định là <model_name>:<tag>. Đối với Gemma 4, có 4 kích thước: E2B, E4B, 26B và 31B tham số:
- Tham số E2B
gemma4:e2b - Thông số E4B
gemma4:e4b - Tham số 26B A4B
gemma4:26b - Tham số 31B
gemma4:31b
Bạn có thể tìm thấy các thẻ có sẵn trên trang web của Ollama, bao gồm Gemma 4, Gemma 3n, Gemma 3, Gemma 2 và Gemma.
Tạo câu trả lời
Khi cài đặt xong một mô hình Gemma trong Ollama, bạn có thể tạo câu trả lời ngay bằng lệnh run của giao diện dòng lệnh Ollama. Ollama cũng định cấu hình một dịch vụ web để truy cập vào mô hình. Bạn có thể kiểm thử dịch vụ này bằng lệnh curl.
Cách tạo phản hồi từ dòng lệnh:
Trong cửa sổ dòng lệnh, hãy nhập lệnh sau:
ollama run gemma4 "roses are red"Thêm đường dẫn đến hình ảnh để sử dụng dữ liệu đầu vào trực quan:
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
Cách tạo câu trả lời bằng dịch vụ web cục bộ Ollama:
Trong cửa sổ dòng lệnh, hãy nhập lệnh sau:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'Đưa vào danh sách hình ảnh được mã hoá base64 để sử dụng dữ liệu đầu vào trực quan:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
Các mô hình Gemma được điều chỉnh
Ollama cung cấp một bộ biến thể mô hình Gemma chính thức để sử dụng ngay, được lượng tử hoá và lưu ở định dạng GGUF. Bạn có thể sử dụng các mô hình Gemma đã điều chỉnh của riêng mình với Ollama bằng cách chuyển đổi chúng sang định dạng GGUF. Ollama có một số chức năng để chuyển đổi các mô hình đã điều chỉnh từ định dạng Modelfile sang GGUF. Để biết thêm thông tin về cách chuyển đổi mô hình đã tinh chỉnh sang GGUF, hãy xem README của Ollama.
Các bước tiếp theo
Sau khi chạy Gemma bằng Ollama, bạn có thể bắt đầu thử nghiệm và xây dựng các giải pháp bằng các chức năng AI tạo sinh của Gemma. Giao diện dòng lệnh cho Ollama có thể hữu ích cho việc xây dựng các giải pháp tập lệnh. Giao diện dịch vụ web cục bộ Ollama có thể hữu ích khi tạo các ứng dụng thử nghiệm và ứng dụng sử dụng ít dữ liệu.
- Hãy thử tích hợp bằng dịch vụ web Ollama để tạo một trợ lý mã cá nhân chạy cục bộ.
- Tìm hiểu cách điều chỉnh mô hình Gemma.
- Tìm hiểu cách chạy Gemma bằng Ollama thông qua các dịch vụ Google Cloud Run.
- Tìm hiểu cách chạy Gemma bằng Google Cloud.