Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

การ์ดโมเดล Gemma 4

แบนเนอร์ Gemma 4

Hugging Face | GitHub | บล็อกการเปิดตัว | เอกสารประกอบ
สัญญาอนุญาต: Apache 2.0 | ผู้เขียน: Google DeepMind

Gemma เป็นกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่สร้างโดย Google DeepMind โมเดล Gemma 4 เป็นแบบ หลายรูปแบบ ซึ่งรองรับอินพุตข้อความและรูปภาพ (รองรับเสียงในโมเดล E2B, E4B และ 12B) และสร้างเอาต์พุตข้อความ รุ่นนี้มีโมเดลแบบเปิดน้ำหนักทั้งใน รูปแบบที่ผ่านการฝึกมาก่อนและรูปแบบที่ปรับตามคำสั่ง Gemma 4 มีหน้าต่างบริบทที่มีโทเค็นได้สูงสุด 256,000 โทเค็น และยังคงรองรับหลายภาษาในกว่า 140 ภาษา

Gemma 4 มีทั้งสถาปัตยกรรมแบบหนาแน่นและแบบ Mixture-of-Experts (MoE) จึงเหมาะกับงานต่างๆ เช่น การสร้างข้อความ การเขียนโค้ด และการให้เหตุผล โมเดล มีให้เลือก 5 ขนาด ได้แก่ E2B, E4B, 12B, 26B A4B และ 31B ขนาดที่หลากหลายทำให้สามารถใช้งานได้ใน สภาพแวดล้อมต่างๆ ตั้งแต่โทรศัพท์ระดับไฮเอนด์ไปจนถึงแล็ปท็อปและเซิร์ฟเวอร์ ซึ่งเป็นการกระจาย การเข้าถึง AI ที่ล้ำสมัย

Gemma 4 มาพร้อมความสามารถและความก้าวหน้าด้านสถาปัตยกรรมที่สำคัญดังนี้

การให้เหตุผล - โมเดลทั้งหมดในตระกูลนี้ได้รับการออกแบบมาให้เป็นเครื่องมือให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิดที่กำหนดค่าได้
ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต - ประมวลผลข้อความ รูปภาพที่มีสัดส่วน การแสดงผลและความละเอียดที่หลากหลาย (ทุกโมเดล), วิดีโอ และเสียง (มีให้ใช้งาน ในโมเดล E2B, E4B และ 12B โดยเฉพาะ)
สถาปัตยกรรมที่หลากหลายและมีประสิทธิภาพ - มีตัวแปร Dense และ Mixture-of-Experts (MoE) ขนาดต่างๆ เพื่อการติดตั้งใช้งานที่ปรับขนาดได้
เพิ่มประสิทธิภาพสำหรับอุปกรณ์ - โมเดลขนาดเล็กได้รับการออกแบบมาโดยเฉพาะเพื่อ การดำเนินการในเครื่องอย่างมีประสิทธิภาพบนแล็ปท็อปและอุปกรณ์เคลื่อนที่
หน้าต่างบริบทที่ใหญ่ขึ้น - โมเดลขนาดเล็กมีหน้าต่างบริบทขนาด 128,000 ส่วนโมเดลขนาดกลางรองรับ 256,000
ความสามารถในการเขียนโค้ดและแบบ Agent ที่ได้รับการปรับปรุง - ปรับปรุงเกณฑ์มาตรฐานการเขียนโค้ดได้อย่างเห็นได้ชัด พร้อมกับการรองรับการเรียกใช้ฟังก์ชันแบบเนทีฟ ซึ่งขับเคลื่อน Agent ที่ทำงานโดยอัตโนมัติที่มีความสามารถสูง
การรองรับพรอมต์ของระบบโดยกำเนิด - Gemma 4 เปิดตัวการรองรับบทบาท system โดยกำเนิด ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น

ภาพรวมของโมเดล

โมเดล Gemma 4 ออกแบบมาเพื่อให้ประสิทธิภาพระดับแนวหน้าในแต่ละขนาด โดยมุ่งเป้าไปที่สถานการณ์การใช้งานตั้งแต่ในอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge (E2B, E4B) ไปจนถึง GPU สำหรับผู้บริโภคและเวิร์กสเตชัน (12B, 26B A4B, 31B) โมเดลเหล่านี้เหมาะ สำหรับการให้เหตุผล เวิร์กโฟลว์แบบ Agent การเขียนโค้ด และความเข้าใจแบบ Multimodal

โมเดลใช้กลไกการสนใจแบบไฮบริดที่สลับการสนใจแบบหน้าต่างบานเลื่อนในเครื่องกับการสนใจแบบทั่วโลกเต็มรูปแบบ เพื่อให้มั่นใจว่าเลเยอร์สุดท้ายจะเป็นแบบทั่วโลกเสมอ การออกแบบแบบไฮบริดนี้ให้ความเร็วในการประมวลผลและใช้หน่วยความจำน้อย ของโมเดลขนาดเล็กโดยไม่ลดทอนความตระหนักรู้เชิงลึกที่จำเป็น สำหรับงานที่ซับซ้อนและมีบริบทขนาดยาว เพื่อเพิ่มประสิทธิภาพหน่วยความจำสำหรับบริบทที่ยาว เลเยอร์ทั่วโลก มีคีย์และค่าที่รวมกัน และใช้ Proportional RoPE (p-RoPE)

โมเดลแบบหนาแน่น

พร็อพเพอร์ตี้	E2B	E4B	1.2 หมื่นล้าน Unified	31B Dense
พารามิเตอร์ทั้งหมด	2.3 พันล้านพารามิเตอร์ (5.1 พันล้านพารามิเตอร์เมื่อใช้การฝัง)	4.5 พันล้านพารามิเตอร์ (8 พันล้านพารามิเตอร์เมื่อใช้การฝัง)	11.95 พันล้าน	30.7 พันล้าน
เลเยอร์	35	42	48	60
หน้าต่างเลื่อน	512 โทเค็น	512 โทเค็น	1024 โทเค็น	1024 โทเค็น
ความยาวบริบท	128,000 โทเค็น	128,000 โทเค็น	256,000 โทเค็น	256,000 โทเค็น
ขนาดคำศัพท์	262K	262K	262K	262K
รูปแบบที่รองรับ	ข้อความ, รูปภาพ, เสียง	ข้อความ, รูปภาพ, เสียง	ข้อความ, รูปภาพ, เสียง	ข้อความ รูปภาพ
พารามิเตอร์ของ Vision Encoder	~150 ล้าน	~150 ล้าน	-	~550 ล้าน
พารามิเตอร์ของตัวเข้ารหัสเสียง	~300 ล้าน	~300 ล้าน	-	ไม่มีเสียง

"E" ใน E2B และ E4B ย่อมาจากพารามิเตอร์ "effective" โมเดลขนาดเล็ก ใช้การฝังต่อเลเยอร์ (PLE) เพื่อเพิ่มประสิทธิภาพพารามิเตอร์ในการ การติดตั้งใช้งานในอุปกรณ์ PLE จะให้การฝังขนาดเล็กของตัวเองแก่เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์สำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์หรือพารามิเตอร์ลงใน โมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นสาเหตุที่จำนวนพารามิเตอร์ที่มีประสิทธิภาพจึงน้อยกว่าจำนวนทั้งหมดมาก

คำว่า "Unified" ใน Gemma 4 12B Unified หมายถึงสถาปัตยกรรมที่ไม่มีตัวเข้ารหัส โมเดล Gemma 4 อื่นๆ ใช้ตัวเข้ารหัสเฉพาะเพื่อประมวลผลข้อมูลหลายรูปแบบก่อน ส่งไปยัง LLM Gemma 4 12B จะตัดตัวเข้ารหัสเหล่านี้ออกทั้งหมด โดยการฉายแพตช์รูปภาพดิบและรูปคลื่นเสียงลงในพื้นที่ฝังของ LLM โดยตรงผ่านเลเยอร์เชิงเส้นแบบเบา แนวทางแบบรวมนี้หมายความว่า รูปแบบทั้งหมดจะไหลเข้าสู่ Transformer แบบดีโคดเดอร์อย่างเดียว ซึ่งจะช่วยลด เวลาในการตอบสนองแบบมัลติโมดัล และช่วยให้ปรับแต่งโมเดลทั้งหมดได้ในครั้งเดียว

โมเดล Mixture-of-Experts (MoE)

พร็อพเพอร์ตี้	26B A4B MoE
พารามิเตอร์ทั้งหมด	25.2 พันล้าน
พารามิเตอร์ที่ใช้งานอยู่	3.8 พันล้าน
เลเยอร์	30
หน้าต่างเลื่อน	1024 โทเค็น
ความยาวบริบท	256,000 โทเค็น
ขนาดคำศัพท์	262K
จำนวนผู้เชี่ยวชาญ	ใช้งานอยู่ 8 / ทั้งหมด 128 และแชร์ 1
รูปแบบที่รองรับ	ข้อความ รูปภาพ
พารามิเตอร์ของ Vision Encoder	~550 ล้าน

"A" ใน 26B A4B ย่อมาจาก "พารามิเตอร์ที่ใช้งานอยู่" ซึ่งตรงข้ามกับจำนวนพารามิเตอร์ทั้งหมดที่โมเดลมี การเปิดใช้งานเฉพาะชุดย่อย 4 พันล้านพารามิเตอร์ในระหว่างการอนุมานทำให้โมเดล Mixture-of-Experts ทำงานได้เร็วกว่าที่พารามิเตอร์ทั้งหมด 26 พันล้านอาจบ่งบอกไว้มาก จึงเป็นตัวเลือกที่ยอดเยี่ยมสำหรับการอนุมานที่รวดเร็วเมื่อเทียบกับโมเดลแบบหนาแน่นขนาด 31 พันล้านพารามิเตอร์ เนื่องจากทำงานได้เร็วเกือบเท่าโมเดลที่มีพารามิเตอร์ 4 พันล้านรายการ

ผลการเปรียบเทียบ

เราประเมินโมเดลเหล่านี้กับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ผลการประเมินที่ทำเครื่องหมาย ในตารางเป็นของโมเดลที่ปรับแต่งตามคำสั่ง

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 12B Unified	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (ไม่ต้องคิด)
MMLU Pro	85.2%	82.6%	77.2%	69.4%	60.0%	67.6%
AIME 2026 no tools	89.2%	88.3%	77.5%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	72.0%	52.0%	44.0%	29.1%
ELO ของ Codeforces	2150	1718	1659	940	633	110
GPQA Diamond	84.3%	82.3%	78.8%	58.6%	43.4%	42.4%
Tau2 (ค่าเฉลี่ยในช่วง 3)	76.9%	68.2%	69.0%	42.2%	24.5%	16.2%
HLE no tools	19.5%	8.7%	5.2%	-	-	-
HLE พร้อมการค้นหา	26.5%	17.2%	-	-	-	-
BigBench Extra Hard	74.4%	64.8%	53.0%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	83.4%	76.6%	67.4%	70.7%
การมองเห็น
MMMU Pro	76.9%	73.8%	69.1%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (ระยะการแก้ไขโดยเฉลี่ย ยิ่งต่ำยิ่งดี)	0.131	0.149	0.164	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	79.7%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	48.7%	28.7%	23.5%	-
เสียง
CoVoST	-	-	38.5^*	35.54	33.47	-
FLEURS (ยิ่งต่ำยิ่งดี)	-	-	0.069^*	0.08	0.09	-
บริบทแบบยาว
MRCR v2 8 needle 128k (ค่าเฉลี่ย)	66.4%	44.1%	43.4%	25.4%	19.1%	13.5%

^*ไม่รวมภาษาจีน

ความสามารถหลัก

โมเดล Gemma 4 สามารถจัดการงานได้หลากหลายประเภทในข้อความ ภาพ และเสียง ความสามารถหลักๆ มีดังนี้

การคิด - โหมดการให้เหตุผลในตัวที่ช่วยให้โมเดลคิดทีละขั้นตอนก่อนตอบ
บริบทแบบยาว - หน้าต่างบริบทที่มีโทเค็นสูงสุด 128,000 โทเค็น (E2B/E4B) และ 256,000 โทเค็น (12B/26B A4B/31B)
การทำความเข้าใจรูปภาพ - การตรวจจับออบเจ็กต์ การแยกวิเคราะห์เอกสาร/PDF การทำความเข้าใจหน้าจอและ UI การทำความเข้าใจแผนภูมิ OCR (รวมถึงแบบหลายภาษา) การจดจำลายมือ และการชี้ ระบบประมวลผลรูปภาพได้โดยมี สัดส่วนภาพและความละเอียดที่หลากหลาย
การทำความเข้าใจวิดีโอ - วิเคราะห์วิดีโอโดยการประมวลผลลำดับของเฟรม
อินพุตหลายรูปแบบแบบสลับ - ผสมข้อความและรูปภาพได้อย่างอิสระในลำดับใดก็ได้ ภายในพรอมต์เดียว
การเรียกใช้ฟังก์ชัน - การรองรับการใช้เครื่องมือที่มีโครงสร้างโดยเนทีฟ ซึ่งช่วยให้เวิร์กโฟลว์ของเอเจนต์ทำงานได้
การเขียนโค้ด - การสร้าง การเติมให้สมบูรณ์ และการแก้ไขโค้ด
หลายภาษา - รองรับภาษามากกว่า 35 ภาษาได้ทันที โดยได้รับการฝึกมาล่วงหน้าในภาษามากกว่า 140 ภาษา
เสียง (E2B, E4B และ 12B Unified เท่านั้น) - การจดจำคำพูดอัตโนมัติ (ASR) และ การแปลคำพูดเป็นข้อความที่แปลแล้วในหลายภาษา

แนวทางปฏิบัติแนะนำ

ใช้การกำหนดค่าและแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

1. พารามิเตอร์การสุ่มตัวอย่าง

ใช้การกำหนดค่าการสุ่มตัวอย่างที่ได้มาตรฐานต่อไปนี้ในทุกกรณีการใช้งาน

temperature=1.0
top_p=0.95
top_k=64

2. การกำหนดค่าโหมดการคิด

โมเดลใช้บทบาท system, assistant และ user มาตรฐานเมื่อเทียบกับ Gemma 3 หากต้องการจัดการกระบวนการคิดอย่างเหมาะสม ให้ใช้โทเค็นควบคุมต่อไปนี้

ทริกเกอร์การคิด: การคิดจะเปิดใช้ได้โดยการรวมโทเค็น <|think|> ไว้ที่จุดเริ่มต้นของพรอมต์ของระบบ หากต้องการปิดใช้การคิด ให้นำโทเค็นออก
การสร้างมาตรฐาน: เมื่อเปิดใช้การคิด โมเดลจะแสดงการให้เหตุผลภายในตามด้วยคำตอบสุดท้ายโดยใช้โครงสร้างต่อไปนี้ <|channel>thought\n[เหตุผลภายใน]<channel|>
ปิดใช้ลักษณะการคิด: สำหรับโมเดลทั้งหมด ยกเว้นรุ่นย่อย E2B และ E4B หากปิดใช้การคิด โมเดลจะยังคงสร้างแท็ก แต่มีบล็อกความคิดว่างเปล่า: <|channel>thought\n<channel|>[คำตอบ สุดท้าย]

โปรดทราบว่าไลบรารีจำนวนมาก เช่น Transformers และ llama.cpp จะจัดการความซับซ้อนของเทมเพลตการแชทให้คุณ

3. การสนทนาหลายรอบ

ไม่มีเนื้อหาที่ต้องใช้ความคิดในประวัติ: ในการสนทนาไปมา ผลลัพธ์ของเอาต์พุตโมเดลในอดีตควรมีเพียงคำตอบสุดท้าย ความคิด จากเทิร์นของโมเดลก่อนหน้าต้องไม่ถูกเพิ่มก่อนที่เทิร์นของผู้ใช้รายถัดไปจะเริ่ม ขึ้น ยกเว้นเทิร์นการเรียกใช้เครื่องมือที่ควรเก็บเนื้อหาการคิดไว้

4. ลำดับวิธีการ

วางตำแหน่งดังนี้เพื่อให้ได้ประสิทธิภาพสูงสุดเมื่อใช้ข้อมูลหลายรูปแบบ

เนื้อหารูปภาพก่อนข้อความในพรอมต์
เนื้อหาเสียงหลังจากข้อความในพรอมต์

5. ความละเอียดของรูปภาพที่ปรับเปลี่ยนได้

นอกเหนือจากสัดส่วนภาพที่เปลี่ยนแปลงได้แล้ว Gemma 4 ยังรองรับความละเอียดของรูปภาพที่เปลี่ยนแปลงได้ ผ่านงบประมาณโทเค็นภาพที่กำหนดค่าได้ ซึ่งควบคุมจำนวนโทเค็นที่ ใช้เพื่อแสดงรูปภาพ งบประมาณโทเค็นที่สูงขึ้นจะช่วยรักษา รายละเอียดภาพได้มากขึ้นโดยต้องเสียค่าใช้จ่ายในการคำนวณเพิ่มเติม ในขณะที่งบประมาณที่ต่ำลงจะช่วยให้การอนุมานเร็วขึ้น สำหรับงานที่ไม่จำเป็นต้องมีความเข้าใจแบบละเอียด

งบประมาณโทเค็นที่รองรับ ได้แก่ 70, 140, 280, 560 และ 1120
- ใช้งบประมาณที่ต่ำกว่าสำหรับการจัดประเภท การใส่คำบรรยายแทนเสียง หรือการทำความเข้าใจวิดีโอ ซึ่งการอนุมานที่เร็วขึ้นและการประมวลผลหลายเฟรม มีน้ำหนักมากกว่ารายละเอียดที่ละเอียด
- ใช้งบประมาณที่สูงขึ้นสำหรับงานต่างๆ เช่น OCR, การแยกวิเคราะห์เอกสาร หรือการอ่านข้อความขนาดเล็ก

6. เสียง

ใช้โครงสร้างพรอมต์ต่อไปนี้สำหรับการประมวลผลเสียง

การจดจำคำพูดจากเสียง (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

การแปลเสียงพูดอัตโนมัติ (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. ความยาวของเสียงและวิดีโอ

ทุกโมเดลรองรับอินพุตรูปภาพและประมวลผลวิดีโอเป็นเฟรมได้ ในขณะที่โมเดล E2B, E4B และ 12B รองรับอินพุตเสียงด้วย เสียงมีความยาวได้สูงสุด 30 วินาที วิดีโอรองรับความยาวสูงสุด 60 วินาที โดยสมมติว่าระบบประมวลผลรูปภาพ ที่ 1 เฟรมต่อวินาที

ข้อมูลโมเดล

ข้อมูลที่ใช้ในการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

ชุดข้อมูลการฝึกเบื้องต้นของเราคือชุดข้อมูลขนาดใหญ่และหลากหลาย ซึ่งครอบคลุมโดเมนและรูปแบบที่หลากหลาย รวมถึงเอกสารบนเว็บ โค้ด รูปภาพ และเสียง โดยมีวันที่สิ้นสุดคือเดือนมกราคม 2025 โดยมี องค์ประกอบสำคัญดังนี้

เอกสารบนเว็บ: ข้อความบนเว็บที่หลากหลายช่วยให้โมเดลได้เห็นรูปแบบภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกประกอบด้วยเนื้อหาในกว่า 140 ภาษา
โค้ด: การให้โมเดลได้เห็นโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และ รูปแบบของภาษาโปรแกรม ซึ่งจะช่วยปรับปรุงความสามารถในการสร้าง โค้ดและทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
คณิตศาสตร์: การฝึกข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การแทนค่าด้วยสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
รูปภาพ: รูปภาพที่หลากหลายช่วยให้โมเดลสามารถทำงานวิเคราะห์รูปภาพและดึงข้อมูลภาพได้

การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้มีความสำคัญอย่างยิ่งต่อการฝึกโมเดลมัลติโมดัลที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลที่แตกต่างกันได้หลากหลาย

การประมวลผลข้อมูลเบื้องต้น

ต่อไปนี้คือวิธีการทำความสะอาดข้อมูลและกรองข้อมูลที่สำคัญซึ่งใช้กับข้อมูลการฝึก

การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่ด้วย
การกรองข้อมูลที่ละเอียดอ่อน: ในการสร้างโมเดลที่ผ่านการฝึกมาก่อนของ Gemma ให้ปลอดภัยและเชื่อถือได้ เราได้ใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนอื่นๆ บางอย่างออกจากชุดการฝึก
วิธีอื่นๆ: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตามนโยบายของเรา

จริยธรรมและความปลอดภัย

เมื่อโมเดลแบบเปิดกลายเป็นหัวใจสำคัญของโครงสร้างพื้นฐานขององค์กร ที่มาและความปลอดภัยจึงเป็นสิ่งสำคัญยิ่ง Gemma 4 พัฒนาโดย Google DeepMind และผ่านการประเมินความปลอดภัยอย่างเข้มงวดเช่นเดียวกับโมเดล Gemini ที่เป็นกรรมสิทธิ์ของเรา

แนวทางการประเมิน

โมเดล Gemma 4 พัฒนาขึ้นโดยความร่วมมือกับทีมความปลอดภัยภายในและทีม AI ที่มีความรับผิดชอบ เราได้ทำการประเมินทั้งแบบอัตโนมัติและที่ดำเนินการโดยเจ้าหน้าที่เพื่อช่วยปรับปรุงความปลอดภัยของโมเดล การประเมินเหล่านี้สอดคล้องกับหลักการเกี่ยวกับ AI ของ Google รวมถึงนโยบายด้านความปลอดภัย ซึ่งมีเป้าหมายเพื่อป้องกันไม่ให้โมเดล Generative AI ของเราสร้างเนื้อหาที่เป็นอันตราย ซึ่งรวมถึงเนื้อหาต่อไปนี้

เนื้อหาที่เกี่ยวข้องกับสื่อที่มีการล่วงละเมิดทางเพศเด็กและการแสวงหาประโยชน์จากเด็ก
เนื้อหาที่เป็นอันตราย (เช่น การส่งเสริมการฆ่าตัวตาย หรือการให้คำแนะนำในกิจกรรม ที่อาจก่อให้เกิดอันตรายในชีวิตจริง)
เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง
วาจาสร้างความเกลียดชัง (เช่น การลดทอนคุณค่าความเป็นมนุษย์ของสมาชิกในกลุ่มที่ได้รับการคุ้มครอง)
การคุกคาม (เช่น การสนับสนุนให้ใช้ความรุนแรงต่อผู้อื่น)

ผลการประเมิน

สำหรับการทดสอบด้านความปลอดภัยทั้งหมด เราเห็นการปรับปรุงที่สำคัญในทุกหมวดหมู่ของ ความปลอดภัยของเนื้อหาเมื่อเทียบกับโมเดล Gemma ก่อนหน้า โดยรวมแล้ว โมเดล Gemma 4 มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 และ 3n อย่างมากในการปรับปรุงความปลอดภัย ขณะเดียวกันก็ ยังคงปฏิเสธที่ไม่สมเหตุสมผลในระดับต่ำ การทดสอบทั้งหมดดำเนินการโดยไม่มีตัวกรองความปลอดภัย เพื่อประเมินความสามารถและลักษณะการทำงานของโมเดล ทั้งสำหรับข้อความเป็นข้อความ และรูปภาพต่อข้อความ รวมถึงในโมเดลทุกขนาด โมเดลนี้ละเมิดนโยบายน้อยมาก และแสดงให้เห็นถึงประสิทธิภาพที่ปรับปรุงขึ้นอย่างมากเมื่อเทียบกับโมเดล Gemma รุ่นก่อนหน้า

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

การใช้งานที่ตั้งใจไว้

โมเดลหลายรูปแบบ (ประมวลผลวิสัยทัศน์ ภาษา และ/หรือเสียงได้) มี การใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น จุดประสงค์ของรายการนี้คือการ ให้ข้อมูลตามบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ที่ผู้สร้างโมเดล พิจารณาเป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล

การสร้างและการสื่อสารเนื้อหา
- การสร้างข้อความ: โมเดลเหล่านี้ใช้เพื่อสร้างข้อความที่สร้างสรรค์ ในรูปแบบต่างๆ เช่น บทกวี สคริปต์ โค้ด ข้อความทางการตลาด และฉบับร่างอีเมล
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับ การบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของคลังข้อความ เอกสารงานวิจัย หรือรายงาน
- การแยกข้อมูลรูปภาพ: คุณใช้โมเดลเหล่านี้เพื่อแยก ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารด้วยข้อความได้
- การประมวลผลและการโต้ตอบด้วยเสียง: โมเดล E2B, E4B และ 12B สามารถวิเคราะห์และตีความอินพุตเสียง ซึ่งช่วยให้โต้ตอบและถอดเสียงเป็นคำได้ ด้วยเสียง
การวิจัยและการศึกษา
- การวิจัยด้านการประมวลผลภาษาธรรมชาติ (NLP) และ VLM: โมเดลเหล่านี้สามารถเป็นพื้นฐานให้นักวิจัยได้ทดลองใช้เทคนิค VLM และ NLP พัฒนาอัลกอริทึม และช่วยส่งเสริมความก้าวหน้าในสาขานี้
- เครื่องมือการเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือให้แบบฝึกหัดการเขียน
- การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยการสร้างข้อมูลสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลฝึกฝนมีผลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลฝึกฝนอาจทำให้คำตอบของโมเดลมีข้อจำกัด
- ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตของเรื่องที่โมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
บริบทและความซับซ้อนของงาน
- โมเดลทำงานได้ดีกับงานที่สามารถกำหนดกรอบด้วยพรอมต์และ คำสั่งที่ชัดเจน งานที่เป็นปลายเปิดหรือมีความซับซ้อนสูงอาจเป็นเรื่องท้าทาย
- ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากปริมาณบริบท ที่ให้ (โดยทั่วไปแล้ว บริบทที่ยาวขึ้นจะทำให้เอาต์พุตดีขึ้น จนถึง จุดหนึ่ง)
ความคลุมเครือและความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยธรรมชาติ โมเดลอาจเข้าใจความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมาได้ยาก
ความถูกต้องตามข้อเท็จจริง
- โมเดลจะสร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ ซึ่งอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
Common Sense
- โมเดลอาศัยรูปแบบทางสถิติในภาษา โดยอาจขาด ความสามารถในการใช้เหตุผลตามสามัญสำนึกในบางสถานการณ์

ข้อควรพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลวิชันภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

อคติและความยุติธรรม
- VLM ที่ได้รับการฝึกด้วยข้อมูลข้อความและรูปภาพในโลกแห่งความเป็นจริงขนาดใหญ่สามารถแสดงถึง อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการฝึก โมเดล Gemma 4 ได้รับการตรวจสอบอย่างละเอียด การประมวลผลข้อมูลอินพุตเบื้องต้น และการประเมินหลังการฝึก ตามที่รายงานในการ์ดนี้เพื่อช่วยลดความเสี่ยงของอคติเหล่านี้
การให้ข้อมูลที่ไม่ถูกต้องและการละเมิด
- VLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เรามีหลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ
ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้สรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบจะช่วยให้เรามีโอกาสแชร์ นวัตกรรมด้วยการทำให้เทคโนโลยี VLM เข้าถึงได้สำหรับนักพัฒนาซอฟต์แวร์และ นักวิจัยทั่วทั้งระบบนิเวศ AI

ความเสี่ยงที่ระบุและการลดความเสี่ยง:

การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและ ใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยลดการใช้ VLM ในแอปพลิเคชันที่เป็นอันตรายได้ เรามีแหล่งข้อมูลด้านการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการละเมิด
การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกด้วยข้อมูลที่กรองเพื่อนำ ข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
การคงอยู่ของอคติ: ขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคการลดอคติ ระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ

ประโยชน์

ในขณะที่เปิดตัว โมเดลตระกูลนี้มีการใช้งานโมเดลวิทัศน์ภาษาแบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน