Gemma เป็นกลุ่มโมเดลปัญญาประดิษฐ์แบบ Generative และคุณสามารถ ใช้โมเดลเหล่านี้ในงานสร้างสรรค์ที่หลากหลาย รวมถึงการตอบคำถาม การสรุป และการให้เหตุผล โมเดล Gemma มีน้ำหนักแบบเปิดและอนุญาตให้ใช้ในเชิงพาณิชย์อย่างมีความรับผิดชอบ ซึ่งช่วยให้คุณปรับแต่งและนำไปใช้ในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้
ตระกูลโมเดล Gemma 4 ครอบคลุมสถาปัตยกรรมที่แตกต่างกัน 3 แบบซึ่งปรับแต่งมาเพื่อ ข้อกำหนดด้านฮาร์ดแวร์ที่เฉพาะเจาะจง
- ขนาดเล็ก: โมเดลพารามิเตอร์ที่มีประสิทธิภาพ 2B และ 4B สร้างขึ้นสำหรับการ ติดตั้งใช้งานในอุปกรณ์เคลื่อนที่ขนาดเล็กมาก, อุปกรณ์ Edge และเบราว์เซอร์ (เช่น Pixel, Chrome)
- Dense: โมเดล Dense ที่มีพารามิเตอร์ 31 พันล้านรายการซึ่งทรงพลังและช่วยลดช่องว่างระหว่าง ประสิทธิภาพระดับเซิร์ฟเวอร์กับการดำเนินการในเครื่อง
- Mixture-of-Experts: โมเดล MoE ขนาด 26 พันล้านพารามิเตอร์ที่มีประสิทธิภาพสูง ซึ่งออกแบบมาเพื่อ การให้เหตุผลขั้นสูงที่มีปริมาณงานสูง
คุณดาวน์โหลดโมเดล Gemma 4 ได้จาก Kaggle และ Hugging Face ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับ Gemma 4 ได้ที่การ์ดโมเดล นอกจากนี้ คุณยังดาวน์โหลดโมเดลหลักของ Gemma เวอร์ชันก่อนหน้าได้ด้วย ดูข้อมูลเพิ่มเติมได้ที่โมเดล Gemma รุ่นก่อนหน้า
ดาวน์โหลดใน Kaggle ดาวน์โหลดใน Hugging Face
ความสามารถ
- เหตุผล: โมเดลทั้งหมดในตระกูลนี้ออกแบบมาให้เป็นโมเดลที่มีความสามารถสูง ในการให้เหตุผล โดยมีโหมดความคิดที่กำหนดค่าได้
- ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต: ประมวลผลข้อความ รูปภาพที่มีการรองรับสัดส่วน และความละเอียดที่หลากหลาย (ทุกโมเดล) วิดีโอ และ เสียง (มีให้ใช้งานในโมเดล E2B และ E4B)
- หน้าต่างบริบทที่เพิ่มขึ้น: โมเดลขนาดเล็กมีหน้าต่างบริบท 128K ขณะที่โมเดลขนาดกลางรองรับ 256K
- ความสามารถในการเขียนโค้ดและเอเจนต์ที่ได้รับการปรับปรุง: มีการปรับปรุงที่เห็นได้ชัดใน การเปรียบเทียบการเขียนโค้ดควบคู่ไปกับการรองรับการเรียกใช้ฟังก์ชัน ในตัว ซึ่งขับเคลื่อน เอเจนต์อัตโนมัติที่มีความสามารถสูง
- การรองรับพรอมต์ของระบบดั้งเดิม: Gemma 4 เปิดตัวการรองรับบทบาทของระบบในตัว ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น
ขนาดพารามิเตอร์และการหาปริมาณ
โมเดล Gemma 4 มีให้เลือก 4 ขนาดพารามิเตอร์ ได้แก่ E2B, E4B, 31B และ 26B A4B โมเดลสามารถใช้กับความแม่นยำเริ่มต้น (16 บิต) หรือใช้กับความแม่นยำที่ต่ำกว่า โดยใช้การหาปริมาณ ขนาดและความแม่นยำที่แตกต่างกันแสดงถึงชุด ของการแลกเปลี่ยนสำหรับแอปพลิเคชัน AI โดยทั่วไปแล้ว โมเดลที่มีพารามิเตอร์และจำนวนบิตสูงกว่า (มีความแม่นยำสูงกว่า) จะมีความสามารถมากกว่า แต่มีค่าใช้จ่ายในการเรียกใช้สูงกว่าในแง่ของรอบการประมวลผล ค่าใช้จ่ายด้านหน่วยความจำ และการใช้พลังงาน โมเดล ที่มีจำนวนพารามิเตอร์และจำนวนบิตต่ำกว่า (ความแม่นยำต่ำกว่า) จะมีความสามารถน้อยกว่า แต่ก็อาจเพียงพอสำหรับงาน AI ของคุณ
ข้อกำหนดด้านหน่วยความจำสำหรับการอนุมานของ Gemma 4
ตารางต่อไปนี้แสดงรายละเอียดข้อกำหนดด้านหน่วยความจำ GPU หรือ TPU โดยประมาณสําหรับ การเรียกใช้การอนุมานด้วยโมเดล Gemma 4 เวอร์ชันที่มีขนาดต่างๆ
| พารามิเตอร์ | BF16 (16 บิต) | SFP8 (8 บิต) | Q4_0 (4 บิต) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 GB | 4.6 GB | 3.2 GB |
| Gemma 4 E4B | 15 GB | 7.5 GB | 5 GB |
| Gemma 4 31B | 58.3 GB | 30.4 GB | 17.4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15.6 GB |
ตารางที่ 1 หน่วยความจำ GPU หรือ TPU โดยประมาณที่จำเป็นในการโหลดโมเดล Gemma 4 โดยอิงตามจำนวนพารามิเตอร์และระดับการหาปริมาณ
ข้อควรพิจารณาที่สำคัญในการวางแผนหน่วยความจำ
- สถาปัตยกรรมที่มีประสิทธิภาพ (E2B และ E4B): ตัว "E" ย่อมาจากพารามิเตอร์ "effective" โมเดลขนาดเล็กจะรวมการฝังต่อเลเยอร์ (PLE) เพื่อ เพิ่มประสิทธิภาพพารามิเตอร์ในการติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์ให้กับโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นเหตุผลที่หน่วยความจำทั้งหมดที่จำเป็นในการโหลดน้ำหนักแบบคงที่สูงกว่าจำนวนพารามิเตอร์ที่มีประสิทธิภาพ
- สถาปัตยกรรม MoE (26B A4B): 26B คือโมเดล Mixture of Experts แม้ว่าโมเดลจะเปิดใช้งานพารามิเตอร์เพียง 4 พันล้านรายการต่อโทเค็นในระหว่างการสร้าง แต่พารามิเตอร์ทั้ง 2.6 หมื่นล้านรายการจะต้องโหลดลงในหน่วยความจำเพื่อรักษาความเร็วในการกำหนดเส้นทางและการอนุมานที่รวดเร็ว ด้วยเหตุนี้ ข้อกำหนดด้านหน่วยความจำพื้นฐานจึงใกล้เคียงกับโมเดล 26B แบบหนาแน่นมากกว่าโมเดล 4B
- น้ำหนักฐานเท่านั้น: ค่าประมาณในตารางก่อนหน้าจะพิจารณาเฉพาะหน่วยความจำที่จำเป็นในการโหลดน้ำหนักของโมเดลแบบคงที่ โดยไม่ได้รวม VRAM เพิ่มเติมที่จำเป็นสำหรับซอฟต์แวร์ที่รองรับหรือหน้าต่างบริบท
- หน้าต่างบริบท (แคช KV): การใช้หน่วยความจำจะเพิ่มขึ้นแบบไดนามิก โดยอิงตามจำนวนโทเค็นทั้งหมดในพรอมต์และคำตอบที่สร้างขึ้น หน้าต่างบริบทที่ใหญ่ขึ้นต้องใช้ VRAM มากขึ้นอย่างมากนอกเหนือจาก น้ำหนักของโมเดลพื้นฐาน
- ค่าใช้จ่ายในการปรับแต่ง: ข้อกำหนดด้านหน่วยความจำสำหรับการปรับแต่งโมเดล Gemma สูงกว่าการอนุมานมาตรฐานอย่างมาก ฟุตพรินท์ที่แน่นอน จะขึ้นอยู่กับเฟรมเวิร์กการพัฒนา ขนาดกลุ่ม และไม่ว่า คุณจะใช้การปรับแต่งความแม่นยำแบบเต็มหรือวิธีการปรับแต่งแบบละเอียดที่มีประสิทธิภาพของพารามิเตอร์ (PEFT) เช่น Low-Rank Adaptation (LoRA)
โมเดล Gemma ก่อนหน้า
คุณสามารถทำงานกับโมเดล Gemma รุ่นก่อนหน้าได้ ซึ่งมีให้บริการใน Kaggle และ Hugging Face ด้วย ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับโมเดล Gemma เวอร์ชันก่อนหน้าได้ที่หน้าการ์ดโมเดลต่อไปนี้
- การ์ดโมเดล Gemma 3
- การ์ดโมเดล Gemma 2
- การ์ดโมเดลของ Gemma 1
พร้อมเริ่มสร้างแล้วหรือยัง เริ่มต้นใช้งาน โมเดล Gemma