ภาพรวมโมเดล Gemma 4

Gemma เป็นกลุ่มผลิตภัณฑ์โมเดล Generative AI ซึ่งคุณสามารถใช้ในงานสร้างสรรค์ที่หลากหลาย รวมถึงการตอบคำถาม การสรุป และการให้เหตุผล โมเดล Gemma มาพร้อมกับน้ำหนักแบบเปิดและ อนุญาตให้ใช้ในเชิงพาณิชย์ อย่างมีความรับผิดชอบ, ซึ่งช่วยให้คุณปรับแต่งและติดตั้งใช้งานในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้

กลุ่มผลิตภัณฑ์โมเดล Gemma 4 มีสถาปัตยกรรมที่แตกต่างกัน 3 แบบซึ่งออกแบบมาให้เหมาะกับข้อกำหนดด้านฮาร์ดแวร์ที่เฉพาะเจาะจง ดังนี้

  • ขนาดเล็ก: โมเดลพารามิเตอร์ที่มีประสิทธิภาพ 2B และ 4B สร้างขึ้นสำหรับการติดตั้งใช้งานบนอุปกรณ์เคลื่อนที่ขนาดเล็กพิเศษ, Edge และเบราว์เซอร์ (เช่น Pixel, Chrome)
  • หนาแน่น: โมเดลพารามิเตอร์หนาแน่น 31B ที่มีประสิทธิภาพสูงซึ่งช่วยลดช่องว่างระหว่างประสิทธิภาพระดับเซิร์ฟเวอร์กับการดำเนินการในเครื่อง
  • Mixture-of-Experts: โมเดล MoE 26B ที่มีประสิทธิภาพสูงซึ่งออกแบบมาเพื่อการให้เหตุผลขั้นสูงที่มีปริมาณงานสูง

คุณสามารถดาวน์โหลดโมเดล Gemma 4 ได้จาก Kaggle และ Hugging Face ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับ Gemma 4 ได้ที่ Model Card นอกจากนี้ โมเดลหลักของ Gemma เวอร์ชันก่อนหน้าก็พร้อมให้ดาวน์โหลดเช่นกัน ดูข้อมูลเพิ่มเติมได้ที่ โมเดล Gemma เวอร์ชันก่อนหน้า

ดาวน์โหลดจาก Kaggle ดาวน์โหลดจาก Hugging Face

ความสามารถ

ขนาดพารามิเตอร์และการหาปริมาณ

โมเดล Gemma 4 มีพารามิเตอร์ 4 ขนาด ได้แก่ E2B, E4B, 31B และ 26B A4B คุณสามารถใช้โมเดลที่มีความแม่นยำเริ่มต้น (16 บิต) หรือมีความแม่นยำต่ำกว่าโดยใช้การหาปริมาณ ขนาดและความแม่นยำที่แตกต่างกันแสดงถึงชุดการแลกเปลี่ยนสำหรับแอปพลิเคชัน AI ของคุณ โดยทั่วไปแล้ว โมเดลที่มีพารามิเตอร์และจำนวนบิตสูงกว่า (ความแม่นยำสูงกว่า) จะมีความสามารถมากกว่า แต่มีค่าใช้จ่ายในการทำงานสูงกว่าในแง่ของรอบการประมวลผล ค่าใช้จ่ายหน่วยความจำ และการใช้พลังงาน โมเดลที่มีพารามิเตอร์และจำนวนบิตต่ำกว่า (ความแม่นยำต่ำกว่า) จะมีความสามารถน้อยกว่า แต่ก็อาจเพียงพอสำหรับงาน AI ของคุณ

ข้อกำหนดด้านหน่วยความจำสำหรับการอนุมานของ Gemma 4

ตารางต่อไปนี้แสดงรายละเอียดข้อกำหนดด้านหน่วยความจำ GPU หรือ TPU โดยประมาณสำหรับการอนุมานด้วยโมเดล Gemma 4 เวอร์ชันต่างๆ

พารามิเตอร์ BF16 (16 บิต) SFP8 (8 บิต) Q4_0 (4 บิต)
Gemma 4 E2B 9.6 GB 4.6 GB 3.2 GB
Gemma 4 E4B 15 GB 7.5 GB 5 GB
Gemma 4 31B 58.3 GB 30.4 GB 17.4 GB
Gemma 4 26B A4B 48 GB 25 GB 15.6 GB

ตารางที่ 1 หน่วยความจำ GPU หรือ TPU โดยประมาณที่จำเป็นในการโหลดโมเดล Gemma 4 ตามจำนวนพารามิเตอร์และระดับการหาปริมาณ

ข้อควรพิจารณาที่สำคัญสำหรับการวางแผนหน่วยความจำ

  • สถาปัตยกรรมที่มีประสิทธิภาพ (E2B และ E4B): "E" ย่อมาจากพารามิเตอร์ "ที่มีประสิทธิภาพ" โมเดลขนาดเล็กใช้การฝังตัวต่อเลเยอร์ (PLE) เพื่อเพิ่มประสิทธิภาพพารามิเตอร์สูงสุดในการติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ตัวถอดรหัสแต่ละเลเยอร์มีการฝังตัวขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์ลงในโมเดล ตารางการฝังตัวเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นเหตุผลที่หน่วยความจำทั้งหมดที่จำเป็นในการโหลดน้ำหนักคงที่สูงกว่าที่จำนวนพารามิเตอร์ที่มีประสิทธิภาพแนะนำ
  • สถาปัตยกรรม MoE (26B A4B): 26B เป็นโมเดล Mixture of Experts แม้ว่าจะเปิดใช้งานพารามิเตอร์เพียง 4 พันล้านรายการต่อโทเค็นระหว่างการสร้าง แต่ระบบต้องโหลดพารามิเตอร์ทั้งหมด 2.6 หมื่นล้านรายการ ลงในหน่วยความจำเพื่อรักษาความเร็วในการกำหนดเส้นทางและการอนุมานที่รวดเร็ว นี่จึงเป็นเหตุผลที่ข้อกำหนดด้านหน่วยความจำพื้นฐานของโมเดลนี้ใกล้เคียงกับโมเดลหนาแน่น 26B มากกว่าโมเดล 4B
  • น้ำหนักพื้นฐานเท่านั้น: การประมาณการในตารางก่อนหน้าพิจารณาเฉพาะหน่วยความจำที่จำเป็น ในการโหลดน้ำหนักโมเดลคงที่เท่านั้น โดยไม่รวม VRAM เพิ่มเติมที่จำเป็นสำหรับซอฟต์แวร์ที่รองรับหรือหน้าต่างบริบท
  • หน้าต่างบริบท (แคช KV): การใช้หน่วยความจำจะเพิ่มขึ้นแบบไดนามิกตามจำนวนโทเค็นทั้งหมดในพรอมต์และการตอบสนองที่สร้างขึ้น หน้าต่างบริบทที่ใหญ่ขึ้นต้องใช้ VRAM มากขึ้นอย่างเห็นได้ชัดนอกเหนือจากน้ำหนักโมเดลพื้นฐาน
  • ค่าใช้จ่ายเพิ่มเติมในการปรับแต่ง: ข้อกำหนดด้านหน่วยความจำสำหรับการ ปรับแต่ง โมเดล Gemma สูงกว่าการอนุมานมาตรฐานมาก การใช้หน่วยความจำที่แน่นอนจะขึ้นอยู่กับเฟรมเวิร์กการพัฒนา ขนาดกลุ่ม และคุณกำลังใช้การปรับแต่งความแม่นยำเต็มรูปแบบเทียบกับวิธีการปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์ (PEFT) เช่น การปรับตัวแบบอันดับต่ำ (LoRA)

โมเดล Gemma เวอร์ชันก่อนหน้า

คุณสามารถใช้โมเดล Gemma รุ่นก่อนหน้า ซึ่งพร้อมให้ใช้งานจาก Kaggle และ Hugging Face ได้เช่นกัน ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับโมเดล Gemma เวอร์ชันก่อนหน้าได้ที่หน้า Model Card ต่อไปนี้

พร้อมที่จะเริ่มสร้างแล้วใช่ไหม เริ่มต้นใช้งาน โมเดล Gemma เลย