คุณต้องตัดสินใจ 2 อย่างหลักๆ เมื่อต้องการเรียกใช้โมเดล Gemma ได้แก่ 1) ตัวแปร Gemma ที่ต้องการเรียกใช้ และ 2) เฟรมเวิร์กการเรียกใช้ AI ที่จะใช้เรียกใช้ ประเด็นสําคัญในการตัดสินใจทั้ง 2 อย่างนี้เกี่ยวข้องกับฮาร์ดแวร์ที่คุณและผู้ใช้มีให้ใช้งานเพื่อเรียกใช้โมเดล
ภาพรวมนี้จะช่วยให้คุณตัดสินใจและเริ่มทํางานกับรูปแบบของ Gemma ได้ ขั้นตอนทั่วไปในการเรียกใช้โมเดล Gemma มีดังนี้
เลือกเฟรมเวิร์ก
โมเดล Gemma ใช้ได้กับเฟรมเวิร์กการดำเนินการ Generative AI ที่หลากหลาย ปัจจัยสําคัญอย่างหนึ่งในการตัดสินใจเรียกใช้โมเดล Gemma คือทรัพยากรการประมวลผลที่คุณมี (หรือจะมี) เพื่อเรียกใช้โมเดล เฟรมเวิร์ก AI ที่เข้ากันได้ส่วนใหญ่ต้องใช้ฮาร์ดแวร์เฉพาะ เช่น GPU หรือ TPU เพื่อเรียกใช้โมเดล Gemma อย่างมีประสิทธิภาพ เครื่องมืออย่าง Google Colab สามารถจัดหาทรัพยากรการประมวลผลเฉพาะทางเหล่านี้ได้ในแบบจํากัด เฟรมเวิร์กการดำเนินการ AI บางรายการ เช่น Ollama และ Gemma.cpp ช่วยให้คุณเรียกใช้ Gemma ใน CPU ที่พบได้ทั่วไปโดยใช้สถาปัตยกรรม ARM หรือที่เข้ากันได้กับ x86 ได้
คู่มือสำหรับเรียกใช้โมเดล Gemma กับเฟรมเวิร์กรันไทม์ AI ต่างๆ มีดังนี้
- Ollama
- Hugging Face Transformers
- คลัง Gemma สำหรับ JAX
- Keras
- PyTorch
- MediaPipe LLM Inference API
- Hugging Face Transformers
- Gemma.cpp
- vLLM
- Google Cloud Vertex AI
- Google Cloud Run
- Google Cloud Kubernetes Engine (GKE)
ตรวจสอบว่าเฟรมเวิร์กที่คุณเลือกรองรับรูปแบบโมเดล Gemma ที่จะนำไปใช้งาน เช่น รูปแบบเนทีฟของ Keras, Safetensors หรือ GGUF
เลือกตัวแปร Gemma
โมเดล Gemma มีหลากหลายรูปแบบและขนาด ซึ่งรวมถึงรูปแบบพื้นฐานหรือหลักของ Gemma และรูปแบบโมเดลเฉพาะทางอื่นๆ เช่น PaliGemma และ DataGemma รวมถึงรูปแบบต่างๆ อีกมากมายที่ชุมชนนักพัฒนา AI สร้างขึ้นในเว็บไซต์ต่างๆ เช่น Kaggle และ Hugging Face หากไม่แน่ใจว่าจะเริ่มต้นด้วยตัวแปรใด ให้เลือกโมเดลการจูนคำสั่ง (IT) หลักของ Gemma เวอร์ชันล่าสุดซึ่งมีจำนวนพารามิเตอร์ต่ำที่สุด โมเดล Gemma ประเภทนี้มีความต้องการด้านการคำนวณต่ำและสามารถตอบสนองต่อพรอมต์ที่หลากหลายได้โดยไม่ต้องมีการพัฒนาเพิ่มเติม
พิจารณาปัจจัยต่อไปนี้เมื่อเลือกตัวแปร Gemma
- Gemma Core และกลุ่มตัวแปรอื่นๆ เช่น PaliGemma, CodeGemma: แนะนำ Gemma (Core) ตัวแปรของ Gemma นอกเหนือจากเวอร์ชันหลักมีสถาปัตยกรรมเดียวกับโมเดลหลัก และได้รับการฝึกให้ทำงานบางอย่างได้ดีขึ้น ทางที่ดีคือให้เริ่มต้นด้วยโมเดลหลักหรือโมเดลฐานของ Gemma เว้นแต่ว่าแอปพลิเคชันหรือเป้าหมายของคุณจะสอดคล้องกับความเชี่ยวชาญของตัวแปร Gemma ที่เฉพาะเจาะจง
- ปรับแต่งตามวิธีการ (IT), ผ่านการฝึกอบรมล่วงหน้า (PT), ปรับแต่งอย่างละเอียด (FT), ผสม (mix): แนะนําให้ใช้ IT
- ตัวแปร Gemma ที่ปรับตามคำสั่ง (IT) คือโมเดลที่ได้รับการฝึกให้ตอบสนองต่อคำสั่งหรือคำขอที่หลากหลายในภาษามนุษย์ ตัวแปรโมเดลเหล่านี้เหมาะสําหรับการเริ่มต้นใช้งานเนื่องจากสามารถตอบสนองต่อพรอมต์ได้โดยไม่ต้องฝึกโมเดลเพิ่มเติม
- ตัวแปร Gemma ที่ฝึกล่วงหน้า (PT) คือโมเดลที่ได้รับการฝึกให้อนุมานเกี่ยวกับภาษาหรือข้อมูลอื่นๆ แต่ยังไม่ได้ฝึกให้ทำตามคำสั่งของมนุษย์ โมเดลเหล่านี้ต้องได้รับการฝึกหรือปรับแต่งเพิ่มเติมจึงจะทำงานได้อย่างมีประสิทธิภาพ และเหมาะสำหรับนักวิจัยหรือนักพัฒนาซอฟต์แวร์ที่ต้องการศึกษาหรือพัฒนาความสามารถของโมเดลและสถาปัตยกรรมของโมเดล
- ตัวแปร Gemma ที่ปรับแต่งอย่างละเอียด (FT) อาจถือเป็นตัวแปร IT แต่โดยทั่วไปจะได้รับการเทรนให้ทํางานเฉพาะอย่าง หรือทํางานได้ดีในเกณฑ์การเปรียบเทียบ Generative AI ที่เฉพาะเจาะจง ตระกูลตัวแปร PaliGemma มีตัวแปร FT หลายรายการ
- ตัวแปร Gemma แบบผสม (mix) คือเวอร์ชันของโมเดล PaliGemma ที่ปรับแต่งคำสั่งด้วยคำสั่งที่หลากหลายและเหมาะสำหรับการใช้งานทั่วไป
- Parameters: แนะนำจำนวนที่น้อยที่สุดที่ใช้ได้ โดยทั่วไปแล้ว ยิ่งโมเดลมีพารามิเตอร์มากเท่าใด ก็ยิ่งมีประสิทธิภาพมากขึ้นเท่านั้น อย่างไรก็ตาม การใช้โมเดลขนาดใหญ่ต้องใช้ทรัพยากรการประมวลผลที่ใหญ่และซับซ้อนขึ้น และมักจะทําให้การพัฒนาแอปพลิเคชัน AI ช้าลง เลือก Gemma ที่มีพารามิเตอร์จำนวนน้อย เว้นแต่คุณจะพิจารณาแล้วว่า Gemma รุ่นที่เล็กกว่าไม่ตรงกับความต้องการของคุณ
- ระดับการแปลงค่า: แนะนำความแม่นยำระดับครึ่ง (16 บิต) ยกเว้นการปรับแต่ง การแปลงเป็นจำนวนเต็มเป็นหัวข้อที่ซับซ้อนซึ่งสรุปได้ว่าเป็นขนาดและความแม่นยำของข้อมูล และส่งผลต่อปริมาณหน่วยความจำที่โมเดล Generative AI ใช้สำหรับการคำนวณและสร้างคำตอบ หลังจากฝึกโมเดลด้วยข้อมูลที่มีความแม่นยำสูง ซึ่งโดยทั่วไปคือข้อมูลทศนิยม 32 บิตแล้ว โมเดลอย่าง Gemma สามารถแก้ไขให้ใช้ข้อมูลที่แม่นยำน้อยกว่า เช่น ขนาด 16, 8 หรือ 4 บิต โมเดล Gemma ที่แปลงเป็นจำนวนเหล่านี้ยังคงทำงานได้ดี โดยขึ้นอยู่กับความซับซ้อนของงาน ขณะเดียวกันก็ใช้ทรัพยากรการประมวลผลและหน่วยความจำน้อยลงอย่างมาก อย่างไรก็ตาม เครื่องมือสำหรับการปรับแต่งโมเดลที่แปลงเป็นจำนวนเต็มมีจำนวนจำกัดและอาจไม่พร้อมใช้งานในเฟรมเวิร์กการพัฒนา AI ที่คุณเลือก โดยทั่วไป คุณต้องปรับแต่งโมเดลอย่างละเอียด เช่น Gemma แบบเต็มความละเอียด จากนั้นจึงแปลงโมเดลที่ได้
ดูรายการโมเดล Gemma ที่สําคัญซึ่ง Google เผยแพร่ได้ที่หัวข้อการเริ่มต้นใช้งานโมเดล Gemma และรายการโมเดล Gemma
เรียกใช้คำขอการสร้างและการอนุมาน
หลังจากเลือกเฟรมเวิร์กการดำเนินการ AI และตัวแปร Gemma แล้ว คุณสามารถเริ่มเรียกใช้โมเดลและแจ้งให้สร้างเนื้อหาหรือทำงานให้เสร็จ ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีเรียกใช้ Gemma กับเฟรมเวิร์กหนึ่งๆ ได้ที่คู่มือที่ลิงก์ในส่วนเลือกเฟรมเวิร์ก
การจัดรูปแบบพรอมต์
ตัวแปร Gemma ที่ปรับตามวิธีการทั้งหมดมีข้อกำหนดเฉพาะเกี่ยวกับการจัดรูปแบบพรอมต์ ข้อกำหนดการจัดรูปแบบบางอย่างจะจัดการโดยเฟรมเวิร์กที่คุณใช้เรียกใช้โมเดล Gemma โดยอัตโนมัติ แต่เมื่อส่งข้อมูลพรอมต์ไปยังตัวแยกวิเคราะห์โดยตรง คุณต้องเพิ่มแท็กที่เฉพาะเจาะจง และข้อกำหนดการติดแท็กอาจเปลี่ยนแปลงได้ ทั้งนี้ขึ้นอยู่กับตัวแปร Gemma ที่คุณใช้ ดูข้อมูลเกี่ยวกับการจัดรูปแบบพรอมต์ตัวแปร Gemma และวิธีการของระบบได้ในคู่มือต่อไปนี้