Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ภาพรวมโมเดล Gemma 4

Gemma เป็นกลุ่มผลิตภัณฑ์โมเดลปัญญาประดิษฐ์แบบ Generative และคุณสามารถ ใช้โมเดลเหล่านี้ในงานการสร้างที่หลากหลาย รวมถึงการตอบคำถาม การสรุป และการให้เหตุผล โมเดล Gemma มีน้ำหนักแบบเปิดและอนุญาตให้ใช้ในเชิงพาณิชย์อย่างมีความรับผิดชอบ ซึ่งช่วยให้คุณปรับแต่งและนำไปใช้ในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้

ตระกูลโมเดล Gemma 4 ครอบคลุมสถาปัตยกรรมที่แตกต่างกัน 4 แบบซึ่งปรับแต่งมาเพื่อ ข้อกำหนดด้านฮาร์ดแวร์ที่เฉพาะเจาะจง

ขนาดเล็ก: โมเดลพารามิเตอร์ที่มีประสิทธิภาพ 2B และ 4B สร้างขึ้นสําหรับ การติดตั้งใช้งานในอุปกรณ์เคลื่อนที่ขนาดเล็กมาก, อุปกรณ์ Edge และเบราว์เซอร์ (เช่น Pixel, Chrome)
Dense: โมเดล Dense ที่มีพารามิเตอร์ 31 พันล้านรายการอันทรงพลัง ซึ่งช่วยลดช่องว่างระหว่าง ประสิทธิภาพระดับเซิร์ฟเวอร์กับการดำเนินการในเครื่อง
Mixture-of-Experts: โมเดล MoE 26B ที่มีประสิทธิภาพสูงซึ่งออกแบบมาเพื่อ การให้เหตุผลขั้นสูงที่มีปริมาณงานสูง
รวมเป็นหนึ่งเดียว: โมเดลตัวเข้ารหัสพารามิเตอร์ 12B แบบฟรีสำหรับงานหลายรูปแบบ แทนที่ตัวเข้ารหัสภาพและเสียงด้วยการฉายเชิงเส้นโดยตรงของ อินพุต

คุณดาวน์โหลดโมเดล Gemma 4 ได้จาก Kaggle และ Hugging Face ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับ Gemma 4 ได้ที่ การ์ดโมเดลและ รายงานทางเทคนิค นอกจากนี้ คุณยังดาวน์โหลดโมเดลหลักของ Gemma เวอร์ชันก่อนหน้าได้ด้วย ดูข้อมูลเพิ่มเติมได้ที่โมเดล Gemma รุ่นก่อนหน้า

ดาวน์โหลดใน Kaggle ดาวน์โหลดใน Hugging Face

ความสามารถ

เหตุผล: โมเดลทั้งหมดในตระกูลนี้ออกแบบมาให้เป็นโมเดลที่มีความสามารถในการคิดสูง พร้อมโหมดการคิดที่กำหนดค่าได้
ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต: ประมวลผลข้อความ รูปภาพที่มีการรองรับสัดส่วน และมติที่หลากหลาย (ทุกโมเดล) วิดีโอ และ เสียง (มีอยู่ในโมเดล E2B, E4B และ 12B)
หน้าต่างบริบทที่ใหญ่ขึ้น: โมเดลขนาดเล็กมีหน้าต่างบริบท 128K ขณะที่โมเดลขนาดกลางรองรับ 256K
ความสามารถในการเขียนโค้ดและ Agent ที่ได้รับการปรับปรุง: มีการปรับปรุงที่เห็นได้ชัดใน การเปรียบเทียบการเขียนโค้ดควบคู่ไปกับการรองรับการเรียกใช้ฟังก์ชัน ในตัว ซึ่งขับเคลื่อน Agent ที่ทำงานโดยอัตโนมัติที่มีความสามารถสูง
การรองรับพรอมต์ของระบบดั้งเดิม: Gemma 4 เปิดตัวการรองรับบทบาทของระบบในตัว ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น
การคาดการณ์หลายโทเค็น: โมเดล Gemma 4 ทั้งหมด (E2B, E4B, 12B, 31B และ 26B A4B) มีโมเดลร่างเฉพาะสำหรับการ ถอดรหัสแบบคาดเดา ซึ่งช่วยให้การอนุมานเร็วขึ้นอย่างมากโดยไม่มี การสูญเสียคุณภาพ

ขนาดพารามิเตอร์และการหาปริมาณ

โมเดล Gemma 4 มีให้เลือก 5 ขนาดพารามิเตอร์ ได้แก่ E2B, E4B, 12B, 31B และ 26B A4B โดยสามารถใช้โมเดลที่มีความแม่นยำเริ่มต้น (16 บิต) หรือมีความแม่นยำต่ำกว่าโดยใช้การหาปริมาณ ขนาดและความแม่นยำที่แตกต่างกันแสดงถึง ชุดการแลกเปลี่ยนสำหรับแอปพลิเคชัน AI ของคุณ โดยทั่วไปแล้ว โมเดลที่มีพารามิเตอร์และจำนวนบิตสูงกว่า (มีความแม่นยำสูงกว่า) จะมีความสามารถมากกว่า แต่มีค่าใช้จ่ายในการเรียกใช้สูงกว่าในแง่ของรอบการประมวลผล ต้นทุนหน่วยความจำ และการใช้พลังงาน โมเดลที่มีพารามิเตอร์และจำนวนบิตต่ำกว่า (ความแม่นยำต่ำกว่า) จะมีความสามารถน้อยกว่า แต่ก็อาจเพียงพอสำหรับงาน AI ของคุณ

ข้อกำหนดด้านหน่วยความจำสำหรับการอนุมานของ Gemma 4

ตารางต่อไปนี้แสดงรายละเอียดข้อกำหนดด้านหน่วยความจำ GPU หรือ TPU โดยประมาณสำหรับการ เรียกใช้การอนุมานด้วยโมเดล Gemma 4 แต่ละเวอร์ชัน

พารามิเตอร์	BF16 (16 บิต)	SFP8 (8 บิต)	Q4_0 (4 บิต)	มือถือ	อุปกรณ์เคลื่อนที่ (ข้อความเท่านั้น)
Gemma 4 E2B	11.4 GB	5.7 GB	2.9 GB	1.1 GB	0.84 GB
Gemma 4 E4B	17.9 GB	8.9 GB	4.5 GB	2.5 GB	2.2 GB
Gemma 4 12B	26.7 GB	13.4 GB	6.7 GB	-	-
Gemma 4 26B A4B	57.7 GB	28.8 GB	14.4 GB	-	-
Gemma 4 31B	69.9 GB	34.9 GB	17.5 GB	-	-

ตารางที่ 1 หน่วยความจำ GPU หรือ TPU โดยประมาณที่จำเป็นในการโหลดโมเดล Gemma 4 โดยอิงตาม จำนวนพารามิเตอร์ ระดับการวัดปริมาณ และค่าใช้จ่ายเพิ่มเติม 20% ของการโหลด สิ่งต่างๆ เพิ่มเติม เวอร์ชันอุปกรณ์เคลื่อนที่จะใช้ LiteRT-LM

ข้อควรพิจารณาที่สำคัญสำหรับการวางแผนหน่วยความจำ

สถาปัตยกรรมที่มีประสิทธิภาพ (E2B และ E4B): ตัว "E" ย่อมาจากพารามิเตอร์ "ที่มีประสิทธิภาพ" โมเดลขนาดเล็กจะรวมการฝังต่อเลเยอร์ (PLE) เพื่อเพิ่มประสิทธิภาพพารามิเตอร์ในการติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์ให้กับโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นเหตุผลที่หน่วยความจำทั้งหมดที่จำเป็นในการโหลดน้ำหนักแบบคงที่สูงกว่าจำนวนพารามิเตอร์ที่มีประสิทธิภาพ
สถาปัตยกรรม MoE (26B A4B): 26B คือโมเดล Mixture of Experts แม้ว่าโมเดลจะเปิดใช้งานพารามิเตอร์เพียง 4 พันล้านรายการต่อโทเค็นในระหว่างการสร้าง แต่ก็ต้องโหลดพารามิเตอร์ทั้งหมด 2.6 หมื่นล้านรายการลงในหน่วยความจำเพื่อรักษาความเร็วในการกำหนดเส้นทางและการอนุมานที่รวดเร็ว ด้วยเหตุนี้ ข้อกำหนดด้านหน่วยความจำพื้นฐานจึงใกล้เคียงกับโมเดล 26B แบบหนาแน่นมากกว่าโมเดล 4B
น้ำหนักฐานเท่านั้น: ค่าประมาณในตารางก่อนหน้าจะพิจารณาเฉพาะหน่วยความจำที่จำเป็นในการโหลดน้ำหนักของโมเดลแบบคงที่ โดยไม่ได้รวม VRAM เพิ่มเติมที่จำเป็นสำหรับซอฟต์แวร์ที่รองรับหรือหน้าต่างบริบท
หน้าต่างบริบท (แคช KV): การใช้หน่วยความจำจะเพิ่มขึ้นแบบไดนามิก โดยอิงตามจำนวนโทเค็นทั้งหมดในพรอมต์และคำตอบที่สร้างขึ้น หน้าต่างบริบทที่ใหญ่ขึ้นต้องใช้ VRAM มากขึ้นอย่างมากนอกเหนือจาก น้ำหนักของโมเดลพื้นฐาน
ค่าใช้จ่ายในการปรับแต่ง: ข้อกำหนดด้านหน่วยความจำสำหรับการปรับแต่งโมเดล Gemma สูงกว่าการอนุมานมาตรฐานอย่างมาก ฟุตพรินท์ที่แน่นอน จะขึ้นอยู่กับเฟรมเวิร์กการพัฒนา ขนาดกลุ่ม และไม่ว่า คุณจะใช้การปรับแต่งความแม่นยำเต็มรูปแบบหรือวิธีการปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์ (PEFT) เช่น Low-Rank Adaptation (LoRA)

การฝึกที่คำนึงถึงการหาปริมาณ (QAT)

สําหรับการติดตั้งใช้งานที่ต้องการประสิทธิภาพสูงสุดโดยมีการประนีประนอมด้านคุณภาพน้อยที่สุด Gemma มีโมเดลการฝึกที่คำนึงถึงการหาปริมาณ (QAT) อย่างเป็นทางการ

QAT แตกต่างจากการแปลงเป็นจำนวนเต็มหลังการฝึก (PTQ) มาตรฐานซึ่งจะบีบอัดโมเดลที่ได้รับการฝึกอย่างเต็มรูปแบบและอาจทำให้คุณภาพลดลง โดย QAT จะผสานรวมการจำลองการแปลงเป็นจำนวนเต็มเข้ากับกระบวนการฝึกเอง ซึ่งช่วยให้โมเดลเรียนรู้ที่จะ ชดเชยการสูญเสียความแม่นยำได้ จึงทำให้ได้โมเดลขนาดเล็กที่ทำงาน ได้เกือบจะเหมือนกับโมเดลพื้นฐานที่มีความแม่นยำสูง

ตารางการกำหนดเส้นทางด่วน

เครื่องมือการติดตั้งใช้งานเป้าหมาย	คำต่อท้ายการดาวน์โหลด	กรณีการใช้งานหลัก
llama.cpp / LM Studio (ในเครื่อง)	`{model-name}-qat-q4_0-gguf`	การติดตั้งใช้งานในเครื่องแบบไม่ต้องตั้งค่าบน CPU, Apple Silicon หรือ GPU สำหรับผู้บริโภค
vLLM / SGLang	เซิร์ฟเวอร์: `{model-name}-qat-w4a16-ct` อุปกรณ์เคลื่อนที่: `{model-name}-qat-mobile-ct`	การอนุมานที่มีปริมาณงานสูงซึ่งใช้เวท 4 บิตที่มีการเปิดใช้งาน 16 บิต
การถอดรหัสเชิงคาดการณ์	โมเดล: `{model-name}-qat-q4_0-unquantized` ร่าง: `{model-name}-qat-q4_0-unquantized-assistant`	การเรียกใช้โมเดลหลักควบคู่ไปกับโมเดลร่าง MTP ที่ตรงกันเพื่อเร่งการสร้างโทเค็นอย่างมาก โมเดลต้องได้รับการควอนไทซ์
รูปแบบอื่นๆ	`{model-name}-qat-q4_0-unquantized`	น้ำหนักที่ไม่ได้ควอนไทซ์สำหรับการแปลงเป็นรูปแบบอื่นๆ (เช่น MLX)
การติดตั้งใช้งานบนอุปกรณ์เคลื่อนที่ (Transformers)	`{model-name}-qat-mobile-transformers`	น้ำหนักขอบที่ปรับให้เหมาะสมกับกรณีการใช้งานบนอุปกรณ์เคลื่อนที่ โดยจะใช้เป็นข้อมูลอ้างอิงสำหรับรูปแบบอื่นๆ

คอลเล็กชัน QAT อย่างเป็นทางการใน Hugging Face

collections/google/gemma-4-qat-q4-0
- จุดตรวจสอบ QAT ที่ไม่ได้วัดปริมาณ (-unquantized / -assistant): น้ำหนักความแม่นยำครึ่งหนึ่งที่ดึงมาจากไปป์ไลน์ QAT โดยตรง โมเดลเหล่านี้ เหมาะอย่างยิ่งสำหรับการคอมไพล์ดาวน์สตรีมแบบกำหนดเอง การวิจัย หรือการรัน การถอดรหัสแบบคาดการณ์โดยใช้โมเดลร่างข้อความของผู้ช่วย พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B, 26B A4B และ 31B
- GGUF (-gguf): จุดตรวจสอบที่พร้อมให้ใช้งานทันที ความเข้ากันได้ในระบบนิเวศ LLM ในเครื่อง พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B, 26B A4B และ 31B
- เทนเซอร์ที่บีบอัด (-w4a16-ct): จัดรูปแบบเป็นอนุกรมในรูปแบบดั้งเดิมในมาตรฐาน compressed-tensors เพื่อการแสดงผลในระบบคลาวด์ที่มีการทำงานพร้อมกันสูงและเพิ่มประสิทธิภาพ พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B และ 31B
collections/google/gemma-4-qat-mobile
- เพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่ (-mobile-transformers / -mobile-ct): สร้างขึ้นบนwNa8o8สคีมาที่กำหนดเองซึ่งออกแบบมาโดยเฉพาะสำหรับข้อจำกัดของฮาร์ดแวร์บนอุปกรณ์เคลื่อนที่ โดยใช้เลเยอร์การถอดรหัส 2 บิตที่กำหนดเป้าหมาย แคช KV ที่เพิ่มประสิทธิภาพ และการเปิดใช้งานแบบคงที่เพื่อเพิ่มการประหยัด RAM ในอุปกรณ์สูงสุดโดยไม่ทำให้ โปรเซสเซอร์ที่ขอบทำงานหนักเกินไป พร้อมใช้งานสำหรับ Gemma 4 E2B และ E4B

คุณยังเข้าถึงจุดตรวจสอบ QAT อย่างเป็นทางการทั้งหมดของ Gemma 4 ได้โดยตรงจาก Kaggle

โมเดล Gemma ก่อนหน้า

คุณสามารถทำงานกับโมเดล Gemma รุ่นก่อนๆ ซึ่งมีให้บริการใน Kaggle และ Hugging Face ด้วย ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับโมเดล Gemma รุ่นก่อนหน้าได้ที่หน้าการ์ดโมเดลต่อไปนี้

พร้อมที่จะเริ่มสร้างแล้วหรือยัง เริ่มต้นใช้งาน โมเดล Gemma