Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ภาพรวมโมเดล Gemma 4

Gemma เป็นกลุ่มผลิตภัณฑ์โมเดล Generative AI ซึ่งคุณสามารถใช้ในงานสร้างสรรค์ที่หลากหลาย รวมถึงการตอบคำถาม การสรุป และการให้เหตุผล โมเดล Gemma มาพร้อมกับน้ำหนักแบบเปิดและ อนุญาตให้ใช้ในเชิงพาณิชย์ อย่างมีความรับผิดชอบ, ซึ่งช่วยให้คุณปรับแต่งและติดตั้งใช้งานในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้

กลุ่มผลิตภัณฑ์โมเดล Gemma 4 มีสถาปัตยกรรมที่แตกต่างกัน 3 แบบซึ่งออกแบบมาให้เหมาะกับข้อกำหนดด้านฮาร์ดแวร์ที่เฉพาะเจาะจง ดังนี้

ขนาดเล็ก: โมเดลพารามิเตอร์ที่มีประสิทธิภาพ 2B และ 4B สร้างขึ้นสำหรับการติดตั้งใช้งานบนอุปกรณ์เคลื่อนที่ขนาดเล็กพิเศษ, Edge และเบราว์เซอร์ (เช่น Pixel, Chrome)
หนาแน่น: โมเดลพารามิเตอร์หนาแน่น 31B ที่มีประสิทธิภาพสูงซึ่งช่วยลดช่องว่างระหว่างประสิทธิภาพระดับเซิร์ฟเวอร์กับการดำเนินการในเครื่อง
Mixture-of-Experts: โมเดล MoE 26B ที่มีประสิทธิภาพสูงซึ่งออกแบบมาเพื่อการให้เหตุผลขั้นสูงที่มีปริมาณงานสูง

คุณสามารถดาวน์โหลดโมเดล Gemma 4 ได้จาก Kaggle และ Hugging Face ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับ Gemma 4 ได้ที่ Model Card นอกจากนี้ โมเดลหลักของ Gemma เวอร์ชันก่อนหน้าก็พร้อมให้ดาวน์โหลดเช่นกัน ดูข้อมูลเพิ่มเติมได้ที่ โมเดล Gemma เวอร์ชันก่อนหน้า

ดาวน์โหลดจาก Kaggle ดาวน์โหลดจาก Hugging Face

ความสามารถ

การให้เหตุผล: โมเดลทั้งหมดในกลุ่มผลิตภัณฑ์นี้ได้รับการออกแบบมาให้เป็นโมเดลการให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิด ที่กำหนดค่าได้
ความสามารถแบบหลายรูปแบบที่ขยายเพิ่ม: ประมวลผลข้อความ รูปภาพ ที่มีอัตราส่วนกว้างยาว และความละเอียดที่หลากหลาย (โมเดลทั้งหมด) วิดีโอ และ เสียง (มีฟีเจอร์นี้ในตัวในโมเดล E2B และ E4B)
หน้าต่างบริบทที่ใหญ่ขึ้น: โมเดลขนาดเล็กมีหน้าต่างบริบท 128K ขณะที่โมเดลขนาดกลางรองรับ 256K
ความสามารถในการเขียนโค้ดและการทำงานแบบ Agent ที่ได้รับการปรับปรุง: ประสิทธิภาพการทำงานดีขึ้นอย่างเห็นได้ชัดในการเปรียบเทียบประสิทธิภาพการเขียนโค้ด พร้อมการรองรับการเรียกใช้ฟังก์ชันในตัว ซึ่งช่วยให้ Agent ทำงานได้เองอย่างมีประสิทธิภาพสูง
การรองรับพรอมต์ของระบบในตัว: Gemma 4 มีการรองรับบทบาทของระบบในตัว ซึ่งช่วยให้การสนทนามีโครงสร้างมากขึ้นและควบคุมได้ง่ายขึ้น
การคาดการณ์หลายโทเค็น: โมเดล Gemma 4 ทั้งหมด (E2B, E4B, 31B และ 26B A4B) มีโมเดลร่างเฉพาะสำหรับการถอดรหัสแบบคาดการณ์ ซึ่งช่วยให้การอนุมานเร็วขึ้นอย่างเห็นได้ชัดโดยที่คุณภาพไม่ลดลง

ขนาดพารามิเตอร์และการหาปริมาณ

โมเดล Gemma 4 มีพารามิเตอร์ 4 ขนาด ได้แก่ E2B, E4B, 31B และ 26B A4B คุณสามารถใช้โมเดลที่มีความแม่นยำเริ่มต้น (16 บิต) หรือมีความแม่นยำต่ำกว่าโดยใช้การหาปริมาณ ขนาดและความแม่นยำที่แตกต่างกันแสดงถึงชุดการแลกเปลี่ยนสำหรับแอปพลิเคชัน AI ของคุณ โดยทั่วไปแล้ว โมเดลที่มีพารามิเตอร์และจำนวนบิตสูงกว่า (ความแม่นยำสูงกว่า) จะมีความสามารถมากกว่า แต่มีค่าใช้จ่ายในการทำงานสูงกว่าในแง่ของรอบการประมวลผล ค่าใช้จ่ายหน่วยความจำ และการใช้พลังงาน โมเดลที่มีพารามิเตอร์และจำนวนบิตต่ำกว่า (ความแม่นยำต่ำกว่า) จะมีความสามารถน้อยกว่า แต่ก็อาจเพียงพอสำหรับงาน AI ของคุณ

ข้อกำหนดด้านหน่วยความจำสำหรับการอนุมานของ Gemma 4

ตารางต่อไปนี้แสดงรายละเอียดข้อกำหนดด้านหน่วยความจำ GPU หรือ TPU โดยประมาณสำหรับการอนุมานด้วยโมเดล Gemma 4 เวอร์ชันต่างๆ

พารามิเตอร์	BF16 (16 บิต)	SFP8 (8 บิต)	Q4_0 (4 บิต)
Gemma 4 E2B	9.6 GB	4.6 GB	3.2 GB
Gemma 4 E4B	15 GB	7.5 GB	5 GB
Gemma 4 31B	58.3 GB	30.4 GB	17.4 GB
Gemma 4 26B A4B	48 GB	25 GB	15.6 GB

ตารางที่ 1 หน่วยความจำ GPU หรือ TPU โดยประมาณที่จำเป็นในการโหลดโมเดล Gemma 4 ตามจำนวนพารามิเตอร์และระดับการหาปริมาณ

ข้อควรพิจารณาที่สำคัญสำหรับการวางแผนหน่วยความจำ

สถาปัตยกรรมที่มีประสิทธิภาพ (E2B และ E4B): "E" ย่อมาจากพารามิเตอร์ "ที่มีประสิทธิภาพ" โมเดลขนาดเล็กใช้การฝังตัวต่อเลเยอร์ (PLE) เพื่อเพิ่มประสิทธิภาพพารามิเตอร์สูงสุดในการติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ตัวถอดรหัสแต่ละเลเยอร์มีการฝังตัวขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์ลงในโมเดล ตารางการฝังตัวเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นเหตุผลที่หน่วยความจำทั้งหมดที่จำเป็นในการโหลดน้ำหนักคงที่สูงกว่าที่จำนวนพารามิเตอร์ที่มีประสิทธิภาพแนะนำ
สถาปัตยกรรม MoE (26B A4B): 26B เป็นโมเดล Mixture of Experts แม้ว่าจะเปิดใช้งานพารามิเตอร์เพียง 4 พันล้านรายการต่อโทเค็นระหว่างการสร้าง แต่ระบบต้องโหลดพารามิเตอร์ทั้งหมด 2.6 หมื่นล้านรายการ ลงในหน่วยความจำเพื่อรักษาความเร็วในการกำหนดเส้นทางและการอนุมานที่รวดเร็ว นี่จึงเป็นเหตุผลที่ข้อกำหนดด้านหน่วยความจำพื้นฐานของโมเดลนี้ใกล้เคียงกับโมเดลหนาแน่น 26B มากกว่าโมเดล 4B
น้ำหนักพื้นฐานเท่านั้น: การประมาณการในตารางก่อนหน้าพิจารณาเฉพาะหน่วยความจำที่จำเป็น ในการโหลดน้ำหนักโมเดลคงที่เท่านั้น โดยไม่รวม VRAM เพิ่มเติมที่จำเป็นสำหรับซอฟต์แวร์ที่รองรับหรือหน้าต่างบริบท
หน้าต่างบริบท (แคช KV): การใช้หน่วยความจำจะเพิ่มขึ้นแบบไดนามิกตามจำนวนโทเค็นทั้งหมดในพรอมต์และการตอบสนองที่สร้างขึ้น หน้าต่างบริบทที่ใหญ่ขึ้นต้องใช้ VRAM มากขึ้นอย่างเห็นได้ชัดนอกเหนือจากน้ำหนักโมเดลพื้นฐาน
ค่าใช้จ่ายเพิ่มเติมในการปรับแต่ง: ข้อกำหนดด้านหน่วยความจำสำหรับการ ปรับแต่ง โมเดล Gemma สูงกว่าการอนุมานมาตรฐานมาก การใช้หน่วยความจำที่แน่นอนจะขึ้นอยู่กับเฟรมเวิร์กการพัฒนา ขนาดกลุ่ม และคุณกำลังใช้การปรับแต่งความแม่นยำเต็มรูปแบบเทียบกับวิธีการปรับแต่งที่มีประสิทธิภาพด้านพารามิเตอร์ (PEFT) เช่น การปรับตัวแบบอันดับต่ำ (LoRA)

โมเดล Gemma เวอร์ชันก่อนหน้า

คุณสามารถใช้โมเดล Gemma รุ่นก่อนหน้า ซึ่งพร้อมให้ใช้งานจาก Kaggle และ Hugging Face ได้เช่นกัน ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับโมเดล Gemma เวอร์ชันก่อนหน้าได้ที่หน้า Model Card ต่อไปนี้

Model Card ของ Gemma 3
Model Card ของ Gemma 2
Model Card ของ Gemma 1

พร้อมที่จะเริ่มสร้างแล้วใช่ไหม เริ่มต้นใช้งาน โมเดล Gemma เลย