การเรียกใช้โมเดลปัญญาประดิษฐ์แบบ Generative (Generative AI) เช่น Gemma อาจเป็นเรื่องยากหากไม่มีฮาร์ดแวร์ที่เหมาะสม เฟรมเวิร์กโอเพนซอร์ส เช่น llama.cpp และ Ollama ช่วยให้การดำเนินการนี้ง่ายขึ้นด้วยการตั้งค่าสภาพแวดล้อมรันไทม์ที่กำหนดค่าไว้ล่วงหน้า ซึ่งช่วยให้คุณเรียกใช้ Gemma เวอร์ชันต่างๆ ได้โดยใช้ทรัพยากรการประมวลผลน้อยลง ที่จริงแล้ว คุณสามารถใช้ llama.cpp และ Ollama เพื่อเรียกใช้ Gemma เวอร์ชันต่างๆ ในแล็ปท็อปหรืออุปกรณ์ประมวลผลขนาดเล็กอื่นๆ โดยไม่ต้องมีหน่วยประมวลผลกราฟิก (GPU)
เพื่อที่จะเรียกใช้โมเดล Gemma โดยใช้ทรัพยากรการคำนวณน้อยลง เฟรมเวิร์ก llama.cpp และ Ollama จึงใช้โมเดลเวอร์ชันที่ควอนไทซ์ในรูปแบบไฟล์โมเดล Georgi Gerganov Unified Format (GGUF) โมเดลที่ผ่านการหาปริมาณเหล่านี้ได้รับการแก้ไขเพื่อ ประมวลผลคำขอโดยใช้ข้อมูลที่มีขนาดเล็กลงและมีความแม่นยำน้อยลง การใช้ข้อมูลที่มีความแม่นยำน้อยกว่าในโมเดลที่ผ่านการควอนไทซ์เพื่อประมวลผลคำขอโดยทั่วไปจะลดคุณภาพของเอาต์พุตของโมเดล แต่ก็มีข้อดีคือช่วยลดต้นทุนทรัพยากรการประมวลผลด้วย
คู่มือนี้อธิบายวิธีตั้งค่าและใช้ Ollama เพื่อเรียกใช้ Gemma เพื่อสร้างข้อความ ตอบกลับ
ตั้งค่า
ส่วนนี้จะอธิบายวิธีตั้งค่า Ollama และเตรียมอินสแตนซ์โมเดล Gemma เพื่อตอบสนองต่อคำขอ รวมถึงการขอสิทธิ์เข้าถึงโมเดล การติดตั้งซอฟต์แวร์ และการกำหนดค่าโมเดล Gemma ใน Ollama
ติดตั้ง Ollama
ก่อนที่จะใช้ Gemma กับ Ollama ได้ คุณต้องดาวน์โหลดและติดตั้งซอฟต์แวร์ Ollama ในอุปกรณ์ประมวลผล
วิธีดาวน์โหลดและติดตั้ง Ollama
- ไปที่หน้าดาวน์โหลด: https://ollama.com/download
- เลือกระบบปฏิบัติการ แล้วคลิกปุ่มดาวน์โหลด หรือทำตาม วิธีการในหน้าดาวน์โหลด
- ติดตั้งแอปพลิเคชันโดยเรียกใช้โปรแกรมติดตั้ง
- Windows: เรียกใช้ไฟล์โปรแกรมติดตั้ง *.exe แล้วทำตามวิธีการ
- Mac: แตกแพ็กเกจ zip แล้วย้ายโฟลเดอร์แอปพลิเคชัน Ollama ไปยังไดเรกทอรีแอปพลิเคชัน
- Linux: ทำตามวิธีการในโปรแกรมติดตั้งสคริปต์ Bash
ยืนยันว่าได้ติดตั้ง Ollama แล้วโดยเปิดหน้าต่างเทอร์มินัลและป้อนคำสั่งต่อไปนี้
ollama --version
คุณควรเห็นการตอบกลับที่คล้ายกับ ollama version is #.#.## หากไม่ได้รับผลลัพธ์นี้ ให้ตรวจสอบว่าได้เพิ่มไฟล์ที่เรียกใช้งานได้ของ Ollama ลงในเส้นทางของระบบปฏิบัติการแล้ว
กำหนดค่า Gemma ใน Ollama
แพ็กเกจการติดตั้ง Ollama จะไม่มีโมเดลใดๆ โดยค่าเริ่มต้น คุณ
ดาวน์โหลดโมเดลโดยใช้คำสั่ง pull
วิธีกำหนดค่า Gemma ใน Ollama
ดาวน์โหลดและกำหนดค่าตัวแปร Gemma 4 เริ่มต้นโดยเปิดหน้าต่างเทอร์มินัล แล้วป้อนคำสั่งต่อไปนี้
ollama pull gemma4
หลังจากดาวน์โหลดเสร็จแล้ว คุณสามารถยืนยันว่าโมเดลพร้อมใช้งานได้โดยใช้คำสั่งต่อไปนี้
ollama list
โดยระบุโมเดลเป็น <model_name>:<tag> สำหรับ Gemma 4 มี 4 ขนาด ได้แก่ พารามิเตอร์ E2B,
E4B, 26B และ 31B
- พารามิเตอร์ E2B
gemma4:e2b - พารามิเตอร์ E4B
gemma4:e4b - 26B A4B Parameters
gemma4:26b - พารามิเตอร์ 31B
gemma4:31b
คุณดูแท็กที่พร้อมใช้งานได้ในเว็บไซต์ Ollama ซึ่งรวมถึง Gemma 4, Gemma 3n, Gemma 3, Gemma 2 และ Gemma
สร้างคำตอบ
เมื่อติดตั้งโมเดล Gemma ใน Ollama เสร็จแล้ว คุณจะสร้างคำตอบได้ทันทีโดยใช้อินเทอร์เฟซบรรทัดคำสั่งของ Ollama run นอกจากนี้ Ollama ยังกำหนดค่าเว็บเซอร์วิสสำหรับการเข้าถึงโมเดล ซึ่งคุณสามารถทดสอบได้โดยใช้คำสั่ง curl
วิธีสร้างการตอบกลับจากบรรทัดคำสั่ง
ในหน้าต่างเทอร์มินัลและป้อนคำสั่งต่อไปนี้
ollama run gemma4 "roses are red"ระบุเส้นทางไปยังรูปภาพเพื่อใช้ข้อมูลภาพ
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
วิธีสร้างคำตอบโดยใช้บริการเว็บในเครื่องของ Ollama
ในหน้าต่างเทอร์มินัลและป้อนคำสั่งต่อไปนี้
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'ใส่รายการรูปภาพที่เข้ารหัส Base64 เพื่อใช้ข้อมูลภาพ
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
โมเดล Gemma ที่ปรับแต่งแล้ว
Ollama มีชุดรูปแบบโมเดล Gemma อย่างเป็นทางการให้ใช้งานได้ทันที ซึ่ง ได้รับการควอนไทซ์และบันทึกในรูปแบบ GGUF คุณใช้โมเดล Gemma ที่ปรับแต่งเองกับ Ollama ได้โดยแปลงเป็นรูปแบบ GGUF Ollama มีฟังก์ชันบางอย่างเพื่อ แปลงโมเดลที่ปรับแต่งแล้วจากรูปแบบ Modelfile เป็น GGUF ดูข้อมูลเพิ่มเติมเกี่ยวกับ วิธีแปลงโมเดลที่ปรับแต่งแล้วเป็น GGUF ได้ที่ README ของ Ollama
ขั้นตอนถัดไป
เมื่อเรียกใช้ Gemma ด้วย Ollama แล้ว คุณจะเริ่มทดลองและ สร้างโซลูชันด้วยความสามารถของ Generative AI ของ Gemma ได้ อินเทอร์เฟซบรรทัดคำสั่งสำหรับ Ollama มีประโยชน์ในการสร้างโซลูชันการเขียนสคริปต์ อินเทอร์เฟซบริการเว็บในเครื่องของ Ollama อาจมีประโยชน์ในการสร้างแอปพลิเคชันทดลองและ แอปพลิเคชันที่มีการใช้งานน้อย
- ลองผสานรวมโดยใช้เว็บเซอร์วิส Ollama เพื่อสร้างผู้ช่วยเขียนโค้ดส่วนตัวที่ทำงานในเครื่อง
- ดูวิธีปรับแต่งโมเดล Gemma
- ดูวิธีเรียกใช้ Gemma ด้วย Ollama โดยใช้บริการ Google Cloud Run
- ดูวิธีเรียกใช้ Gemma ด้วย Google Cloud