Việc chạy các mô hình trí tuệ nhân tạo (AI) tạo sinh như Gemma có thể khá khó khăn nếu không có phần cứng phù hợp. Các khung nguồn mở như llama.cpp và Ollama giúp bạn thực hiện việc này dễ dàng hơn bằng cách thiết lập môi trường thời gian chạy được định cấu hình sẵn, cho phép bạn chạy các phiên bản Gemma với ít tài nguyên điện toán hơn. Trên thực tế, khi sử dụng llama.cpp và Ollama, bạn có thể chạy các phiên bản Gemma trên máy tính xách tay hoặc thiết bị điện toán nhỏ khác mà không cần bộ xử lý đồ hoạ (GPU).
Để chạy các mô hình Gemma với ít tài nguyên điện toán hơn, khung llama.cpp và Ollama sử dụng các phiên bản đã lượng tử hoá của các mô hình ở định dạng tệp mô hình Georgi Gerganov Unified Format (GGUF). Các mô hình lượng tử hoá này được sửa đổi để xử lý các yêu cầu bằng dữ liệu nhỏ hơn, ít chính xác hơn. Việc sử dụng dữ liệu ít chính xác hơn trong các mô hình lượng tử hoá để xử lý các yêu cầu thường làm giảm chất lượng đầu ra của mô hình, nhưng cũng có lợi ích là giảm chi phí tài nguyên điện toán.
Hướng dẫn này mô tả cách thiết lập và sử dụng Ollama để chạy Gemma nhằm tạo phản hồi văn bản.
Thiết lập
Phần này mô tả cách thiết lập Ollama và chuẩn bị một thực thể mô hình Gemma để phản hồi các yêu cầu, bao gồm cả yêu cầu quyền truy cập vào mô hình, cài đặt phần mềm và định cấu hình mô hình Gemma trong Ollama.
Sử dụng các mô hình Gemma
Trước khi làm việc với các mô hình Gemma, hãy đảm bảo bạn đã yêu cầu quyền truy cập thông qua Kaggle và xem lại điều khoản sử dụng của Gemma.
Cài đặt Ollama
Trước khi có thể sử dụng Gemma với Ollama, bạn phải tải xuống và cài đặt phần mềm Ollama trên thiết bị điện toán của mình.
Cách tải xuống và cài đặt Ollama:
- Truy cập vào trang tải xuống: https://ollama.com/download
- Chọn hệ điều hành, nhấp vào nút Tải xuống hoặc làm theo hướng dẫn trên trang tải xuống.
- Cài đặt ứng dụng bằng cách chạy trình cài đặt.
- Windows: Chạy tệp *.exe của trình cài đặt và làm theo hướng dẫn.
- Mac: Giải nén gói zip rồi di chuyển thư mục ứng dụng Ollama vào thư mục Applications (Ứng dụng).
- Linux: Làm theo hướng dẫn trong trình cài đặt tập lệnh bash.
Xác nhận rằng Ollama đã được cài đặt bằng cách mở cửa sổ dòng lệnh và nhập lệnh sau:
ollama --version
Bạn sẽ thấy một phản hồi tương tự như: ollama version is #.#.##
. Nếu bạn không nhận được kết quả này, hãy đảm bảo rằng tệp thực thi Ollama được thêm vào đường dẫn hệ điều hành.
Định cấu hình Gemma trong Ollama
Theo mặc định, gói cài đặt Ollama không bao gồm bất kỳ mô hình nào. Bạn tải mô hình xuống bằng lệnh pull
.
Cách định cấu hình Gemma trong Ollama:
Tải xuống và định cấu hình biến thể Gemma 3 mặc định bằng cách mở cửa sổ dòng lệnh và nhập lệnh sau:
ollama pull gemma3
Sau khi tải xuống xong, bạn có thể xác nhận rằng mô hình đã có sẵn bằng lệnh sau:
ollama list
Theo mặc định, Ollama sẽ tải biến thể mô hình Gemma có 4 tỷ tham số, lượng tử hoá 4 bit (Q4_0) xuống. Bạn cũng có thể tải xuống và sử dụng các kích thước khác của mô hình Gemma bằng cách chỉ định kích thước tham số.
Mô hình được chỉ định là <model_name>:<tag>
. Đối với Gemma 3, có 4 kích thước: tham số 1B, 4B, 12B và 27B:
- Tham số 1B
gemma3:1b
- Tham số 4B
gemma3:4b
- Tham số 12B
gemma3:12b
- 27B Tham số
gemma3:27b
Bạn có thể tìm thấy các thẻ hiện có trên trang web Ollama, bao gồm cả Gemma 3, Gemma 2 và Gemma.
Tạo câu trả lời
Khi cài đặt xong mô hình Gemma trong Ollama, bạn có thể tạo phản hồi ngay lập tức bằng lệnh run
của giao diện dòng lệnh Ollama.
Ollama cũng định cấu hình một dịch vụ web để truy cập vào mô hình mà bạn có thể kiểm thử bằng lệnh curl
.
Cách tạo phản hồi từ dòng lệnh:
Trong cửa sổ dòng lệnh, hãy nhập lệnh sau:
ollama run gemma3 "roses are red"
Thêm đường dẫn đến hình ảnh để sử dụng dữ liệu đầu vào dạng hình ảnh:
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
Cách tạo phản hồi bằng dịch vụ web cục bộ Ollama:
Trong cửa sổ dòng lệnh, hãy nhập lệnh sau:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"roses are red"\ }'
Thêm danh sách hình ảnh được mã hoá base64 để sử dụng phương thức nhập dữ liệu bằng hình ảnh:
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"caption this image",\ "images":[...]\ }'
Các mô hình Gemma được điều chỉnh
Ollama cung cấp một bộ biến thể mô hình Gemma chính thức để sử dụng ngay lập tức. Các biến thể này được lượng tử hoá và lưu ở định dạng GGUF. Bạn có thể sử dụng các mô hình Gemma đã điều chỉnh của riêng mình với Ollama bằng cách chuyển đổi các mô hình đó sang định dạng GGUF. Ollama bao gồm một số hàm để chuyển đổi mô hình đã điều chỉnh từ định dạng Tệp mô hình sang GGUF. Để biết thêm thông tin về cách chuyển đổi mô hình đã điều chỉnh sang GGUF, hãy xem README của Ollama.
Các bước tiếp theo
Sau khi chạy Gemma với Ollama, bạn có thể bắt đầu thử nghiệm và xây dựng giải pháp bằng các tính năng AI tạo sinh của Gemma. Giao diện dòng lệnh cho Ollama có thể hữu ích cho việc xây dựng các giải pháp tập lệnh. Giao diện dịch vụ web cục bộ Ollama có thể hữu ích cho việc xây dựng các ứng dụng thử nghiệm và ứng dụng có mức sử dụng thấp.
- Hãy thử tích hợp bằng dịch vụ web Ollama để tạo một trợ lý mã cá nhân chạy cục bộ.
- Tìm hiểu cách điều chỉnh mô hình Gemma.
- Tìm hiểu cách chạy Gemma với Ollama thông qua các dịch vụ Google Cloud Run.
- Tìm hiểu cách chạy Gemma bằng Google Cloud.