Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ภาพรวมโมเดล Gemma 4

Gemma เป็นกลุ่มโมเดลปัญญาประดิษฐ์แบบ Generative ที่คุณใช้ในงานสร้างสรรค์ได้หลากหลาย รวมถึงการตอบคำถาม การสรุป และการให้เหตุผล โมเดล Gemma มีน้ำหนักแบบเปิดและอนุญาตให้ใช้ในเชิงพาณิชย์อย่างมีความรับผิดชอบ ซึ่งช่วยให้คุณปรับแต่งและนําไปใช้ในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้

ตระกูลโมเดล Gemma 4 ครอบคลุมสถาปัตยกรรมที่แตกต่างกัน 4 แบบซึ่งปรับแต่งมาให้ตรงกับข้อกำหนดด้านฮาร์ดแวร์ที่เฉพาะเจาะจง

ขนาดเล็ก: โมเดลพารามิเตอร์ที่มีประสิทธิภาพ 2B และ 4B สร้างขึ้นสําหรับ การติดตั้งใช้งานในอุปกรณ์เคลื่อนที่ขนาดเล็กมาก, อุปกรณ์ Edge และเบราว์เซอร์ (เช่น Pixel, Chrome)
Dense: โมเดล Dense ที่มีพารามิเตอร์ 31 พันล้านรายการอันทรงพลัง ซึ่งช่วยลดช่องว่างระหว่าง ประสิทธิภาพระดับเซิร์ฟเวอร์กับการดำเนินการในเครื่อง
Mixture-of-Experts: โมเดล MoE ขนาด 26, 000 ล้านพารามิเตอร์ที่มีประสิทธิภาพสูงซึ่งออกแบบมาเพื่อ การให้เหตุผลขั้นสูงที่มีปริมาณงานสูง
รวมเป็นหนึ่งเดียว: โมเดลตัวเข้ารหัสพารามิเตอร์ 12B แบบฟรีสำหรับงานหลายรูปแบบ แทนที่ตัวเข้ารหัสภาพและเสียงด้วยการฉายเชิงเส้นโดยตรงของ อินพุต

คุณดาวน์โหลดโมเดล Gemma 4 ได้จาก Kaggle และ Hugging Face ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับ Gemma 4 ได้ที่การ์ดโมเดล นอกจากนี้ คุณยังดาวน์โหลดโมเดลหลักของ Gemma เวอร์ชันก่อนหน้าได้ด้วย ดูข้อมูลเพิ่มเติมได้ที่โมเดล Gemma รุ่นก่อนหน้า

ดาวน์โหลดใน Kaggle ดาวน์โหลดใน Hugging Face

ความสามารถ

การให้เหตุผล: โมเดลทั้งหมดในตระกูลนี้ออกแบบมาให้เป็นโมเดลที่มีความสามารถในการให้เหตุผลสูง พร้อมโหมดการคิดที่กำหนดค่าได้
ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต: ประมวลผลข้อความ รูปภาพที่มีสัดส่วนผันแปร และการรองรับความละเอียด (ทุกโมเดล) วิดีโอ และ เสียง (มีอยู่ในโมเดล E2B, E4B และ 12B)
หน้าต่างบริบทที่เพิ่มขึ้น: โมเดลขนาดเล็กมีหน้าต่างบริบท 128,000 รายการ ขณะที่โมเดลขนาดกลางรองรับ 256,000 รายการ
ความสามารถในการเขียนโค้ดและ Agent ที่ได้รับการปรับปรุง: มีการปรับปรุงที่เห็นได้ชัดใน การเปรียบเทียบการเขียนโค้ดควบคู่ไปกับการรองรับการเรียกใช้ฟังก์ชัน ในตัว ซึ่งขับเคลื่อน Agent ที่ทำงานโดยอัตโนมัติที่มีความสามารถสูง
การรองรับพรอมต์ของระบบดั้งเดิม: Gemma 4 เปิดตัวการรองรับบทบาทของระบบในตัว ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น
การคาดการณ์หลายโทเค็น: โมเดล Gemma 4 ทั้งหมด (E2B, E4B, 12B, 31B และ 26B A4B) มีโมเดลร่างเฉพาะสำหรับการ ถอดรหัสแบบคาดเดา ซึ่งช่วยให้การอนุมานเร็วขึ้นอย่างมากโดยไม่มี การสูญเสียคุณภาพ

ขนาดพารามิเตอร์และการหาปริมาณ

โมเดล Gemma 4 มีให้ใช้งานในขนาดพารามิเตอร์ 5 ขนาด ได้แก่ E2B, E4B, 12B, 31B และ 26B A4B โมเดลสามารถใช้กับความแม่นยำเริ่มต้น (16 บิต) หรือใช้กับ ความแม่นยำที่ต่ำกว่าโดยใช้การหาปริมาณ ขนาดและความแม่นยำที่แตกต่างกันแสดงถึง ชุดการแลกเปลี่ยนสำหรับแอปพลิเคชัน AI ของคุณ โดยทั่วไปแล้ว โมเดลที่มีพารามิเตอร์และ จำนวนบิตสูงกว่า (ความแม่นยำสูงกว่า) จะมีความสามารถมากกว่า แต่มีค่าใช้จ่ายสูงกว่า ในการเรียกใช้ในแง่ของรอบการประมวลผล ค่าใช้จ่ายด้านหน่วยความจำ และการใช้พลังงาน โมเดลที่มี พารามิเตอร์และจำนวนบิตต่ำกว่า (ความแม่นยำต่ำกว่า) จะมีความสามารถน้อยกว่า แต่ก็อาจเพียงพอสำหรับงาน AI ของคุณ

ข้อกำหนดด้านหน่วยความจำสำหรับการอนุมานของ Gemma 4

ตารางต่อไปนี้แสดงรายละเอียดข้อกำหนดด้านหน่วยความจำ GPU หรือ TPU โดยประมาณสำหรับการ เรียกใช้การอนุมานด้วยโมเดล Gemma 4 แต่ละเวอร์ชัน

พารามิเตอร์	BF16 (16 บิต)	SFP8 (8 บิต)	Q4_0 (4 บิต)	มือถือ	อุปกรณ์เคลื่อนที่ (ข้อความเท่านั้น)
Gemma 4 E2B	11.4 GB	5.7 GB	2.9 GB	1.1 GB	0.84 GB
Gemma 4 E4B	17.9 GB	8.9 GB	4.5 GB	2.5 GB	2.2 GB
Gemma 4 12B	26.7 GB	13.4 GB	6.7 GB	-	-
Gemma 4 26B A4B	57.7 GB	28.8 GB	14.4 GB	-	-
Gemma 4 31B	69.9 GB	34.9 GB	17.5 GB	-	-

ตารางที่ 1 หน่วยความจำ GPU หรือ TPU โดยประมาณที่จำเป็นในการโหลดโมเดล Gemma 4 โดยอิงตาม จำนวนพารามิเตอร์ ระดับการวัดปริมาณ และค่าใช้จ่ายเพิ่มเติม 20% ของการโหลด สิ่งต่างๆ เพิ่มเติม เวอร์ชันอุปกรณ์เคลื่อนที่จะใช้ LiteRT-LM

ข้อควรพิจารณาที่สำคัญสำหรับการวางแผนหน่วยความจำ

สถาปัตยกรรมที่มีประสิทธิภาพ (E2B และ E4B): ตัว "E" ย่อมาจากพารามิเตอร์ "ที่มีประสิทธิภาพ" โมเดลขนาดเล็กใช้การฝังต่อเลเยอร์ (PLE) เพื่อ เพิ่มประสิทธิภาพพารามิเตอร์ในการติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์ให้กับโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นเหตุผลที่หน่วยความจำทั้งหมดที่จำเป็นในการโหลดน้ำหนักแบบคงที่สูงกว่าจำนวนพารามิเตอร์ที่มีประสิทธิภาพ
สถาปัตยกรรม MoE (26B A4B): 26B เป็นโมเดล Mixture of Experts แม้ว่าโมเดลจะเปิดใช้งานพารามิเตอร์เพียง 4 พันล้านรายการต่อโทเค็นในระหว่างการสร้าง แต่ระบบจะต้องโหลดพารามิเตอร์ทั้งหมด 2.6 หมื่นล้านรายการลงในหน่วยความจำเพื่อรักษาความเร็วในการกำหนดเส้นทางและการอนุมานที่รวดเร็ว ด้วยเหตุนี้ ข้อกำหนดด้านหน่วยความจำพื้นฐานจึงใกล้เคียงกับโมเดล 26B แบบหนาแน่นมากกว่าโมเดล 4B
น้ำหนักฐานเท่านั้น: ค่าประมาณในตารางก่อนหน้าพิจารณาเฉพาะหน่วยความจำที่จำเป็นในการโหลดน้ำหนักโมเดลแบบคงที่เท่านั้น โดยไม่รวม VRAM เพิ่มเติมที่จำเป็นสำหรับซอฟต์แวร์ที่รองรับหรือหน้าต่างบริบท
หน้าต่างบริบท (แคช KV): การใช้หน่วยความจำจะเพิ่มขึ้นแบบไดนามิก โดยอิงตามจำนวนโทเค็นทั้งหมดในพรอมต์และคำตอบที่สร้างขึ้น หน้าต่างบริบทที่ใหญ่ขึ้นต้องใช้ VRAM มากขึ้นอย่างมากนอกเหนือจาก น้ำหนักของโมเดลพื้นฐาน
ค่าใช้จ่ายในการปรับแต่ง: ข้อกำหนดด้านหน่วยความจำสำหรับการปรับแต่งโมเดล Gemma สูงกว่าการอนุมานมาตรฐานอย่างมาก ฟุตพรินท์ที่แน่นอน จะขึ้นอยู่กับเฟรมเวิร์กการพัฒนา ขนาดกลุ่ม และไม่ว่า คุณจะใช้การปรับแต่งความแม่นยำเต็มรูปแบบหรือวิธีการปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์ (PEFT) เช่น Low-Rank Adaptation (LoRA)

การฝึกที่คำนึงถึงการหาปริมาณ (QAT)

สําหรับการติดตั้งใช้งานที่ต้องการประสิทธิภาพสูงสุดโดยมีการประนีประนอมด้านคุณภาพน้อยที่สุด Gemma มีโมเดลการฝึกที่คำนึงถึงการหาปริมาณ (QAT) อย่างเป็นทางการ

QAT แตกต่างจากการแปลงเป็นจำนวนเต็มหลังการฝึก (PTQ) มาตรฐานซึ่งจะบีบอัดโมเดลที่ได้รับการฝึกอย่างเต็มรูปแบบและอาจทำให้คุณภาพลดลง โดย QAT จะผสานรวมการจำลองการแปลงเป็นจำนวนเต็มเข้ากับกระบวนการฝึกเอง ซึ่งช่วยให้โมเดลเรียนรู้ที่จะ ชดเชยการสูญเสียความแม่นยำได้ จึงทำให้ได้โมเดลขนาดเล็กที่ทำงาน ได้เกือบจะเหมือนกับโมเดลพื้นฐานที่มีความแม่นยำสูง

ตารางการกำหนดเส้นทางด่วน

เครื่องมือการติดตั้งใช้งานเป้าหมาย	คำต่อท้ายการดาวน์โหลด	กรณีการใช้งานหลัก
llama.cpp / LM Studio (ในเครื่อง)	`{model-name}-qat-q4_0-gguf`	การติดตั้งใช้งานในเครื่องแบบไม่ต้องตั้งค่าบน CPU, Apple Silicon หรือ GPU สำหรับผู้บริโภค
vLLM / SGLang	เซิร์ฟเวอร์: `{model-name}-qat-w4a16-ct` อุปกรณ์เคลื่อนที่: `{model-name}-qat-mobile-ct`	การอนุมานที่มีปริมาณงานสูงซึ่งใช้เวท 4 บิตที่มีการเปิดใช้งาน 16 บิต
การถอดรหัสแบบคาดเดา	โมเดล: `{model-name}-qat-q4_0-unquantized` ร่าง: `{model-name}-qat-q4_0-unquantized-assistant`	การเรียกใช้โมเดลหลักควบคู่ไปกับโมเดลร่าง MTP ที่ตรงกันเพื่อเร่งการสร้างโทเค็นอย่างมาก โมเดลต้องได้รับการควอนไทซ์
รูปแบบอื่นๆ	`{model-name}-qat-q4_0-unquantized`	น้ำหนักที่ไม่ได้ควอนไทซ์สำหรับการแปลงเป็นรูปแบบอื่นๆ (เช่น MLX)
การนำไปใช้งานบนอุปกรณ์เคลื่อนที่ (Transformers)	`{model-name}-qat-mobile-transformers`	น้ำหนักขอบที่เพิ่มประสิทธิภาพสำหรับกรณีการใช้งานบนอุปกรณ์เคลื่อนที่ โดยใช้เป็นข้อมูลอ้างอิงสำหรับรูปแบบอื่นๆ

คอลเล็กชัน QAT อย่างเป็นทางการใน Hugging Face

collections/google/gemma-4-qat-q4-0
- จุดตรวจสอบ QAT ที่ไม่ได้วัดปริมาณ (-unquantized / -assistant): น้ำหนักความแม่นยำครึ่งหนึ่งที่ดึงมาจากไปป์ไลน์ QAT โดยตรง โมเดลเหล่านี้ เหมาะอย่างยิ่งสำหรับการคอมไพล์ดาวน์สตรีมแบบกำหนดเอง การวิจัย หรือการรัน การถอดรหัสแบบคาดการณ์โดยใช้โมเดลร่างข้อความของผู้ช่วย พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B, 26B A4B และ 31B
- GGUF (-gguf): จุดตรวจสอบพร้อมใช้งานเพื่อความเข้ากันได้ทันที ในระบบนิเวศ LLM ในเครื่อง พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B, 26B A4B และ 31B
- เทนเซอร์ที่บีบอัด (-w4a16-ct): จัดรูปแบบเป็นอนุกรมในรูปแบบดั้งเดิมในมาตรฐาน compressed-tensors เพื่อการแสดงผลในระบบคลาวด์ที่มีการทำงานพร้อมกันสูงและเพิ่มประสิทธิภาพ พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B และ 31B
collections/google/gemma-4-qat-mobile
- เพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่ (-mobile-transformers / -mobile-ct): สร้างขึ้นบนwNa8o8สคีมาที่กำหนดเองซึ่งออกแบบมาโดยเฉพาะสำหรับข้อจำกัดของฮาร์ดแวร์บนอุปกรณ์เคลื่อนที่ โดยใช้เลเยอร์การถอดรหัส 2 บิตที่กำหนดเป้าหมาย แคช KV ที่เพิ่มประสิทธิภาพ และการเปิดใช้งานแบบคงที่เพื่อเพิ่มการประหยัด RAM ในอุปกรณ์สูงสุดโดยไม่ทำให้ โปรเซสเซอร์ที่ขอบทำงานหนักเกินไป พร้อมใช้งานสำหรับ Gemma 4 E2B และ E4B

คุณยังเข้าถึงจุดตรวจสอบ QAT อย่างเป็นทางการทั้งหมดของ Gemma 4 ได้โดยตรงจาก Kaggle

โมเดล Gemma ก่อนหน้า

คุณสามารถใช้โมเดล Gemma รุ่นก่อนหน้าได้ ซึ่งมีให้บริการใน Kaggle และ Hugging Face ด้วย ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับโมเดล Gemma รุ่นก่อนหน้าได้ที่หน้าการ์ดโมเดลต่อไปนี้

พร้อมเริ่มสร้างหรือยัง เริ่มต้นใช้งาน โมเดล Gemma