เมื่อต้องการเรียกใช้โมเดล Gemma คุณต้องตัดสินใจ 2 เรื่องหลักๆ ได้แก่ 1) ต้องการเรียกใช้ Gemma เวอร์ชันใด และ 2) จะใช้เฟรมเวิร์กการดำเนินการ AI ใดในการเรียกใช้ ปัญหาสำคัญในการตัดสินใจทั้ง 2 เรื่องนี้เกี่ยวข้องกับฮาร์ดแวร์ที่คุณและผู้ใช้มีพร้อมใช้งานเพื่อเรียกใช้โมเดล
ภาพรวมนี้จะช่วยคุณในการตัดสินใจเหล่านี้และเริ่มทำงานกับโมเดล Gemma ขั้นตอนทั่วไปในการเรียกใช้โมเดล Gemma มีดังนี้
เลือกเฟรมเวิร์ก
โมเดล Gemma เข้ากันได้กับเครื่องมือในระบบนิเวศที่หลากหลาย การเลือกเครื่องมือที่เหมาะสมขึ้นอยู่กับฮาร์ดแวร์ที่คุณมี (GPU ในระบบคลาวด์เทียบกับแล็ปท็อปในเครื่อง) และความต้องการอินเทอร์เฟซ (โค้ด Python เทียบกับแอปพลิเคชันบนเดสก์ท็อป)
ใช้ตารางต่อไปนี้เพื่อระบุเครื่องมือที่ดีที่สุดสำหรับความต้องการของคุณอย่างรวดเร็ว
| หากคุณต้องการ... | เฟรมเวิร์กที่แนะนำ | เหมาะสำหรับ |
|---|---|---|
| เรียกใช้ในเครื่องด้วย UI ของแชท | - LM Studio - Ollama |
ผู้เริ่มต้นหรือผู้ใช้ที่ต้องการประสบการณ์การใช้งาน "คล้ายกับ Gemini" บนแล็ปท็อป |
| เรียกใช้อย่างมีประสิทธิภาพบน Edge | - LiteRT-LM - llama.cpp - MLX |
การอนุมานในเครื่องที่มีประสิทธิภาพสูงโดยใช้ทรัพยากรน้อยที่สุด |
| สร้าง/ฝึกใน Python | - Tunix (Tune-in-JAX) - Hugging Face Transformers - Keras - Unsloth |
นักวิจัยและนักพัฒนาแอปที่สร้างแอปพลิเคชันที่กำหนดเองหรือปรับแต่งโมเดล |
| ติดตั้งใช้งานในเวอร์ชันที่ใช้งานจริง / ระดับองค์กร | - Google Cloud Kubernetes Engine (GKE) - แพลตฟอร์มเอเจนต์ Gemini Enterprise - vLLM - SGLang |
การติดตั้งใช้งานระบบคลาวด์ที่มีการจัดการและปรับขนาดได้ พร้อมการรักษาความปลอดภัยระดับองค์กรและการสนับสนุน MLOps |
รายละเอียดเฟรมเวิร์ก
ต่อไปนี้คือคำแนะนำสำหรับการเรียกใช้โมเดล Gemma ซึ่งจัดหมวดหมู่ตามสภาพแวดล้อมการติดตั้งใช้งาน
1. การอนุมานบนเดสก์ท็อปและในเครื่อง (ประสิทธิภาพสูง)
เครื่องมือเหล่านี้ช่วยให้คุณเรียกใช้ Gemma บนฮาร์ดแวร์สำหรับผู้บริโภค (แล็ปท็อป เดสก์ท็อป) ได้โดยใช้รูปแบบที่เพิ่มประสิทธิภาพแล้ว (เช่น GGUF) หรือตัวเร่งฮาร์ดแวร์ที่เฉพาะเจาะจง
- LM Studio: แอปพลิเคชันบนเดสก์ท็อปที่ช่วยให้คุณดาวน์โหลดและ แชทกับโมเดล Gemma ในอินเทอร์เฟซที่ใช้งานง่าย และไม่ต้องเขียนโค้ดให้ยุ่งยาก
- llama.cpp: พอร์ต C++ แบบโอเพนซอร์สยอดนิยมของ Llama (และ Gemma) ซึ่งทำงานได้รวดเร็วอย่างไม่น่าเชื่อบน CPU และ Apple Silicon
- LiteRT-LM: มีอินเทอร์เฟซบรรทัดคำสั่ง
(CLI) เพื่อเรียกใช้โมเดล Gemma ที่เพิ่มประสิทธิภาพแล้ว
.litertlmบนเดสก์ท็อป (Windows, Linux, macOS) ซึ่งขับเคลื่อนโดย LiteRT (เดิมชื่อ TFLite) - MLX: เฟรมเวิร์กที่ออกแบบมาโดยเฉพาะสำหรับแมชชีนเลิร์นนิงบน Apple Silicon เหมาะสำหรับผู้ใช้ Mac ที่ต้องการประสิทธิภาพในตัว
- Ollama: เครื่องมือสำหรับเรียกใช้ LLM แบบเปิดในเครื่อง ซึ่งมักใช้เพื่อขับเคลื่อน แอปพลิเคชันอื่นๆ
2. การพัฒนา Python (การวิจัยและการปรับแต่ง)
เฟรมเวิร์กมาตรฐานสำหรับนักพัฒนาแอป AI ที่สร้างแอปพลิเคชัน ไปป์ไลน์ หรือโมเดลการฝึก
- Hugging Face Transformers: มาตรฐานอุตสาหกรรมสำหรับการเข้าถึงโมเดลและไปป์ไลน์อย่างรวดเร็ว
- Unsloth: ไลบรารีที่เพิ่มประสิทธิภาพแล้วสำหรับการปรับแต่ง LLM ช่วยให้คุณฝึกโมเดล Gemma ได้เร็วขึ้น 2-5 เท่าโดยใช้หน่วยความจำน้อยลงอย่างมาก ทำให้สามารถปรับแต่ง GPU สำหรับผู้บริโภคได้ (เช่น ระดับฟรีของ Google Colab)
- Keras / Tunix (Tune-in-JAX): ไลบรารีหลัก สำหรับการวิจัยการเรียนรู้เชิงลึกและการติดตั้งใช้งานสถาปัตยกรรมที่กำหนดเอง
3. การติดตั้งใช้งานบนอุปกรณ์เคลื่อนที่และ Edge (บนอุปกรณ์)
เฟรมเวิร์กที่ออกแบบมาเพื่อเรียกใช้ LLM โดยตรงบนอุปกรณ์ของผู้ใช้ (Android, iOS, เว็บ) โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต ซึ่งมักใช้ NPU (หน่วยประมวลผลประสาท)
- LiteRT-LM: เฟรมเวิร์กแบบโอเพนซอร์สอย่างเต็มรูปแบบสำหรับการพัฒนา LLM บนอุปกรณ์ ซึ่งให้ประสิทธิภาพสูงสุดและการควบคุมที่ละเอียด พร้อมการรองรับการเร่งความเร็ว CPU, GPU และ NPU โดยตรงบน Android และ iOS
4. การติดตั้งใช้งานระบบคลาวด์และเวอร์ชันที่ใช้งานจริง
บริการที่มีการจัดการสำหรับการปรับขนาดแอปพลิเคชันให้รองรับผู้ใช้หลายพันรายหรือการเข้าถึงพลังการประมวลผลจำนวนมาก
- แพลตฟอร์มเอเจนต์ Gemini Enterprise: แพลตฟอร์ม AI ที่มีการจัดการอย่างเต็มรูปแบบของ Google Cloud เหมาะที่สุดสำหรับแอปพลิเคชันระดับองค์กรที่ต้องใช้ SLA และการปรับขนาด
- Google Cloud Kubernetes Engine (GKE): สำหรับการจัดการคลัสเตอร์การให้บริการของคุณเอง
- vLLM
- SGLang: เฟรมเวิร์กการให้บริการที่มีประสิทธิภาพสูงสำหรับโมเดลภาษาขนาดใหญ่ และโมเดลหลายรูปแบบ
ตรวจสอบว่าเฟรมเวิร์กที่คุณเลือกนั้นรองรับรูปแบบโมเดล Gemma ที่คุณต้องการติดตั้งใช้งาน เช่น รูปแบบในตัวของ Keras, Safetensors หรือ GGUF
เลือก Gemma เวอร์ชันที่ต้องการ
โมเดล Gemma มีให้เลือกหลายเวอร์ชันและหลายขนาด รวมถึงโมเดล Gemma พื้นฐานหรือ หลัก และโมเดลเวอร์ชันที่ เฉพาะเจาะจงมากขึ้น เช่น PaliGemma และ DataGemma รวมถึงโมเดลเวอร์ชันต่างๆ มากมายที่ สร้างขึ้นโดยชุมชนนักพัฒนาแอป AI ในเว็บไซต์ต่างๆ เช่น Kaggle และ Hugging Face หากไม่แน่ใจ ว่าควรเริ่มต้นด้วยเวอร์ชันใด ให้เลือกโมเดล Gemma หลักที่ปรับแต่งคำแนะนำ (IT) ล่าสุดซึ่งมี พารามิเตอร์จำนวนน้อยที่สุด โมเดล Gemma ประเภทนี้มีข้อกำหนดด้านการประมวลผลต่ำและสามารถตอบสนองต่อพรอมต์ที่หลากหลายได้โดยไม่ต้องมีการพัฒนาเพิ่มเติม
พิจารณาปัจจัยต่อไปนี้เมื่อเลือก Gemma เวอร์ชันที่ต้องการ
- Gemma หลักและตระกูลเวอร์ชันอื่นๆ เช่น PaliGemma, CodeGemma: แนะนำ Gemma (หลัก) Gemma เวอร์ชันอื่นๆ นอกเหนือจากเวอร์ชันหลักมีสถาปัตยกรรมเดียวกับโมเดลหลัก และได้รับการฝึกให้ทำงานได้ดีขึ้นในงานที่เฉพาะเจาะจง คุณควรเริ่มต้นด้วยโมเดล Gemma หลักหรือพื้นฐาน เว้นแต่แอปพลิเคชันหรือเป้าหมายของคุณจะสอดคล้องกับความเชี่ยวชาญของ Gemma เวอร์ชันที่เฉพาะเจาะจง
- ปรับแต่งคำแนะนำ (IT), ฝึกไว้ล่วงหน้า (PT), ปรับแต่ง (FT), ผสม
(mix): แนะนำ IT
- Gemma เวอร์ชัน ปรับแต่งคำแนะนำ (IT) คือโมเดลที่ได้รับการฝึกให้ตอบสนองต่อคำแนะนำหรือคำขอที่หลากหลายในภาษาของมนุษย์ โมเดลเวอร์ชันเหล่านี้เป็นจุดเริ่มต้นที่ดีที่สุดเนื่องจากสามารถตอบสนองต่อพรอมต์ได้โดยไม่ต้องฝึกโมเดลเพิ่มเติม
- Gemma เวอร์ชัน ฝึกไว้ล่วงหน้า (PT) คือโมเดลที่ได้รับการฝึกให้ทำการอนุมานเกี่ยวกับภาษาหรือข้อมูลอื่นๆ แต่ยังไม่ได้รับการฝึกให้ทำตามคำแนะนำของมนุษย์ โมเดลเหล่านี้ต้องได้รับการฝึกหรือปรับแต่งเพิ่มเติมจึงจะทำงานได้อย่างมีประสิทธิภาพ และเหมาะสำหรับนักวิจัยหรือนักพัฒนาแอปที่ต้องการศึกษาหรือพัฒนาความสามารถของโมเดลและสถาปัตยกรรมของโมเดล
- Gemma เวอร์ชัน ปรับแต่ง (FT) ถือเป็นเวอร์ชัน IT ได้ แต่โดยทั่วไปจะได้รับการฝึกให้ทำงานที่เฉพาะเจาะจง หรือทำงานได้ดีในการวัดประสิทธิภาพ Generative AI ที่เฉพาะเจาะจง ตระกูล PaliGemma เวอร์ชันต่างๆ มีเวอร์ชัน FT จำนวนมาก
- Gemma เวอร์ชัน ผสม (mix) คือโมเดล PaliGemma เวอร์ชันต่างๆ ที่ได้รับการปรับแต่งคำแนะนำด้วยคำแนะนำที่หลากหลายและเหมาะสำหรับการใช้งานทั่วไป
- พารามิเตอร์: แนะนำให้ใช้จำนวนน้อยที่สุดที่มี. โดยทั่วไปแล้ว โมเดลที่มีพารามิเตอร์มากขึ้นจะมีความสามารถมากขึ้น อย่างไรก็ตาม การเรียกใช้โมเดลขนาดใหญ่ขึ้นต้องใช้ทรัพยากรการประมวลผลที่ใหญ่ขึ้นและซับซ้อนมากขึ้น และโดยทั่วไปจะทำให้การพัฒนาแอปพลิเคชัน AI ช้าลง เลือกโมเดลที่มีพารามิเตอร์จำนวนน้อย เว้นแต่คุณจะพิจารณาแล้วว่าโมเดล Gemma ขนาดเล็กกว่าไม่สามารถตอบสนองความต้องการของคุณได้
- ระดับการหาปริมาณ: แนะนำให้ใช้ความแม่นยำครึ่งหนึ่ง (16 บิต) ยกเว้นการปรับแต่ง การหาปริมาณเป็นหัวข้อที่ซับซ้อนซึ่งสรุปได้ว่าข้อมูลมีขนาดและความแม่นยำเท่าใด และด้วยเหตุนี้ โมเดล Generative AI จึงใช้หน่วยความจำเท่าใดในการคำนวณและสร้างการตอบสนอง หลังจากฝึกโมเดลด้วยข้อมูลที่มีความแม่นยำสูง ซึ่งโดยทั่วไปจะเป็นข้อมูลจุดลอยตัว 32 บิตแล้ว โมเดลอย่าง Gemma สามารถแก้ไขให้ใช้ข้อมูลที่มีความแม่นยำต่ำกว่า เช่น ขนาด 16, 8 หรือ 4 บิตได้ โมเดล Gemma ที่หาปริมาณแล้วเหล่านี้ยังคงทำงานได้ดี ทั้งนี้ขึ้นอยู่กับความซับซ้อนของงาน ขณะที่ใช้ทรัพยากรการประมวลผลและหน่วยความจำน้อยลงอย่างมาก อย่างไรก็ตาม เครื่องมือสำหรับการปรับแต่งโมเดลที่หาปริมาณแล้วมีจำกัดและอาจไม่พร้อมใช้งานในเฟรมเวิร์กการพัฒนา AI ที่คุณเลือก โดยปกติ คุณต้องปรับแต่งโมเดลอย่าง Gemma ด้วยความแม่นยำเต็มรูปแบบ แล้วจึงหาปริมาณโมเดลที่ได้
ดูรายการโมเดล Gemma หลักที่ Google เผยแพร่ได้ที่ หัวข้อเริ่มต้นใช้งานโมเดล Gemma, รายการโมเดล Gemma
เรียกใช้คำขอการสร้างและการอนุมาน
หลังจากเลือกเฟรมเวิร์กการดำเนินการ AI และ Gemma เวอร์ชันที่ต้องการแล้ว คุณก็เริ่มเรียกใช้โมเดลและแจ้งให้โมเดลสร้างเนื้อหาหรือทำงานให้เสร็จสมบูรณ์ได้ ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีเรียกใช้ Gemma ด้วยเฟรมเวิร์กที่เฉพาะเจาะจงได้ใน คำแนะนำที่ลิงก์ไว้ในส่วนเลือกเฟรมเวิร์ก
การจัดรูปแบบพรอมต์
Gemma เวอร์ชันที่ปรับแต่งคำแนะนำทั้งหมดมีข้อกำหนดการจัดรูปแบบพรอมต์ที่เฉพาะเจาะจง เฟรมเวิร์กที่คุณใช้เรียกใช้โมเดล Gemma จะจัดการข้อกำหนดการจัดรูปแบบบางอย่างเหล่านี้โดยอัตโนมัติ แต่เมื่อส่งข้อมูลพรอมต์ไปยังตัวแยกคำโดยตรง คุณต้องเพิ่มแท็กที่เฉพาะเจาะจง และข้อกำหนดการติดแท็กอาจเปลี่ยนแปลงไปตาม Gemma เวอร์ชันที่คุณใช้ ดูคำแนะนำต่อไปนี้เพื่อดูข้อมูลเกี่ยวกับการจัดรูปแบบพรอมต์และคำแนะนำระบบของ Gemma เวอร์ชันต่างๆ