
Hugging Face |
GitHub |
บล็อกการเปิดตัว |
เอกสารประกอบ
ใบอนุญาต: Apache 2.0 | ผู้เขียน: Google DeepMind
Gemma เป็นกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่สร้างโดย Google DeepMind โมเดล Gemma 4 เป็นโมเดล หลายรูปแบบที่ประมวลผลอินพุตข้อความและรูปภาพ (โดยโมเดลขนาดเล็กจะรองรับเสียง) และสร้างเอาต์พุตข้อความ รุ่นนี้มีโมเดลแบบเปิดน้ำหนักทั้งใน รูปแบบที่ผ่านการฝึกมาก่อนและรูปแบบที่ปรับตามคำสั่ง Gemma 4 มีหน้าต่างบริบทที่มีโทเค็นได้สูงสุด 256,000 โทเค็น และรองรับหลายภาษาในกว่า 140 ภาษา
Gemma 4 มีทั้งสถาปัตยกรรมแบบ Dense และ Mixture-of-Experts (MoE) จึงเหมาะกับงานต่างๆ เช่น การสร้างข้อความ การเขียนโค้ด และการให้เหตุผล โมเดล มีให้ใช้งานใน 4 ขนาด ได้แก่ E2B, E4B, 26B A4B และ 31B โมเดลเหล่านี้มีขนาดหลากหลาย จึงสามารถนําไปใช้ในสภาพแวดล้อมต่างๆ ได้ตั้งแต่ โทรศัพท์ระดับไฮเอนด์ไปจนถึงแล็ปท็อปและเซิร์ฟเวอร์ ซึ่งเป็นการกระจายการเข้าถึง AI ที่ล้ำสมัย
Gemma 4 มาพร้อมความสามารถและความก้าวหน้าทางสถาปัตยกรรมที่สำคัญดังนี้
การให้เหตุผล - โมเดลทั้งหมดในตระกูลนี้ได้รับการออกแบบมาให้เป็นเครื่องมือให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิดที่กำหนดค่าได้
ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต - ประมวลผลข้อความ รูปภาพที่มีสัดส่วน ภาพและความละเอียดที่หลากหลาย (ทุกรุ่น) วิดีโอ และเสียง (มีให้ใช้งาน ในรุ่น E2B และ E4B โดยเฉพาะ)
สถาปัตยกรรมที่หลากหลายและมีประสิทธิภาพ - มีตัวแปรแบบ Dense และ Mixture-of-Experts (MoE) ขนาดต่างๆ เพื่อการติดตั้งใช้งานที่ปรับขนาดได้
เพิ่มประสิทธิภาพสำหรับอุปกรณ์ - โมเดลขนาดเล็กได้รับการออกแบบมาโดยเฉพาะเพื่อ การดำเนินการในเครื่องอย่างมีประสิทธิภาพบนแล็ปท็อปและอุปกรณ์เคลื่อนที่
หน้าต่างบริบทที่เพิ่มขึ้น - โมเดลขนาดเล็กมีหน้าต่างบริบท 128,000 ขณะที่โมเดลขนาดกลางรองรับ 256,000
ความสามารถในการเขียนโค้ดและ Agent ที่ได้รับการปรับปรุง - ปรับปรุงเกณฑ์มาตรฐานการเขียนโค้ดอย่างเห็นได้ชัด พร้อมกับการรองรับการเรียกใช้ฟังก์ชันแบบเนทีฟ ซึ่งขับเคลื่อน เอเจนต์อัตโนมัติที่มีความสามารถสูง
การรองรับพรอมต์ของระบบโดยกำเนิด - Gemma 4 เปิดตัวการรองรับบทบาท
systemโดยกำเนิด ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น
ภาพรวมของโมเดล
โมเดล Gemma 4 ออกแบบมาเพื่อมอบประสิทธิภาพระดับแนวหน้าในแต่ละขนาด โดยมุ่งเป้าไปที่สถานการณ์การใช้งานตั้งแต่ในอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge (E2B, E4B) ไปจนถึง GPU สำหรับผู้บริโภคและเวิร์กสเตชัน (26B A4B, 31B) โมเดลเหล่านี้เหมาะสำหรับ การให้เหตุผล เวิร์กโฟลว์แบบ Agent การเขียนโค้ด และความเข้าใจแบบ Multimodal
โมเดลใช้กลไกความใส่ใจแบบไฮบริดที่สลับการทำงานของกลไกความใส่ใจแบบเลื่อนหน้าต่างในเครื่องกับกลไกความใส่ใจแบบทั่วโลกเต็มรูปแบบ เพื่อให้มั่นใจว่าเลเยอร์สุดท้ายจะเป็นแบบทั่วโลกเสมอ การออกแบบแบบไฮบริดนี้ให้ความเร็วในการประมวลผลและใช้หน่วยความจำน้อยเหมือนโมเดลขนาดเล็ก โดยไม่ลดทอนความสามารถในการรับรู้ที่จำเป็นสำหรับงานที่ซับซ้อนและมีบริบทขนาดยาว หากต้องการเพิ่มประสิทธิภาพหน่วยความจำสำหรับบริบทที่ยาว ฟีเจอร์เลเยอร์ส่วนกลาง จะมีคีย์และค่าแบบรวม และใช้ Proportional RoPE (p-RoPE)
โมเดลแบบหนาแน่น
| พร็อพเพอร์ตี้ | E2B | E4B | 31B Dense |
|---|---|---|---|
| พารามิเตอร์ทั้งหมด | 2.3 พันล้านพารามิเตอร์ (5.1 พันล้านพารามิเตอร์เมื่อใช้การฝัง) | 4.5 พันล้านพารามิเตอร์ (8 พันล้านพารามิเตอร์เมื่อใช้การฝัง) | 30.7 พันล้าน |
| เลเยอร์ | 35 | 42 | 60 |
| หน้าต่างเลื่อน | 512 โทเค็น | 512 โทเค็น | 1024 โทเค็น |
| ความยาวบริบท | โทเค็น 128,000 รายการ | โทเค็น 128,000 รายการ | โทเค็น 256,000 รายการ |
| ขนาดคำศัพท์ | 262K | 262K | 262K |
| รูปแบบที่รองรับ | ข้อความ รูปภาพ เสียง | ข้อความ รูปภาพ เสียง | ข้อความ รูปภาพ |
| พารามิเตอร์ของ Vision Encoder | ~150 ล้าน | ~150 ล้าน | ~550 ล้าน |
| พารามิเตอร์ของตัวเข้ารหัสเสียง | ~300 ล้าน | ~300 ล้าน | ไม่มีเสียง |
"E" ใน E2B และ E4B ย่อมาจากพารามิเตอร์ "effective" โมเดลขนาดเล็ก ใช้การฝังต่อเลเยอร์ (PLE) เพื่อเพิ่มประสิทธิภาพพารามิเตอร์ในการ การติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์หรือพารามิเตอร์ลงในโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นสาเหตุที่จำนวนพารามิเตอร์ที่มีผลจึงน้อยกว่าจำนวนทั้งหมดมาก
โมเดล Mixture-of-Experts (MoE)
| พร็อพเพอร์ตี้ | 26B A4B MoE |
|---|---|
| พารามิเตอร์ทั้งหมด | 25,200 ล้าน |
| พารามิเตอร์ที่ใช้งานอยู่ | 3.8 พันล้าน |
| เลเยอร์ | 30 |
| หน้าต่างเลื่อน | 1024 โทเค็น |
| ความยาวบริบท | โทเค็น 256,000 รายการ |
| ขนาดคำศัพท์ | 262K |
| จำนวนผู้เชี่ยวชาญ | ใช้งานอยู่ 8 / ทั้งหมด 128 และแชร์ 1 |
| รูปแบบที่รองรับ | ข้อความ รูปภาพ |
| พารามิเตอร์ของ Vision Encoder | ~550 ล้าน |
"A" ใน 26B A4B ย่อมาจาก "พารามิเตอร์ที่ใช้งานอยู่" ซึ่งตรงข้ามกับจำนวนพารามิเตอร์ทั้งหมดที่โมเดลมี การเปิดใช้งานชุดย่อย 4B ของพารามิเตอร์ระหว่างการอนุมานเท่านั้นทำให้โมเดล Mixture-of-Experts ทำงานได้เร็วกว่าที่พารามิเตอร์ทั้งหมด 26B อาจบอกไว้มาก จึงเป็นตัวเลือกที่ยอดเยี่ยมสำหรับการอนุมานที่รวดเร็วเมื่อเทียบกับโมเดลแบบหนาแน่นขนาด 31 พันล้านพารามิเตอร์ เนื่องจากทำงานได้เร็วเกือบเท่าโมเดลที่มีพารามิเตอร์ 4 พันล้านรายการ
ผลการเปรียบเทียบ
เราประเมินโมเดลเหล่านี้กับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ผลการประเมินที่ทำเครื่องหมาย ในตารางเป็นของโมเดลที่ปรับแต่งตามคำสั่ง
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (ไม่มีความคิด) | |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 no tools | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| ELO ของ Codeforces | 2150 | 1718 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| Tau2 (ค่าเฉลี่ยในช่วง 3) | 76.9% | 68.2% | 42.2% | 24.5% | 16.2% |
| HLE no tools | 19.5% | 8.7% | - | - | - |
| HLE พร้อมการค้นหา | 26.5% | 17.2% | - | - | - |
| BigBench Extra Hard | 74.4% | 64.8% | 33.1% | 21.9% | 19.3% |
| MMMLU | 88.4% | 86.3% | 76.6% | 67.4% | 70.7% |
| การมองเห็น | |||||
| MMMU Pro | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| OmniDocBench 1.5 (ระยะการแก้ไขโดยเฉลี่ย ยิ่งต่ำยิ่งดี) | 0.131 | 0.149 | 0.181 | 0.290 | 0.365 |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM | 61.3% | 58.1% | 28.7% | 23.5% | - |
| เสียง | |||||
| CoVoST | - | - | 35.54 | 33.47 | - |
| FLEURS (ยิ่งต่ำยิ่งดี) | - | - | 0.08 | 0.09 | - |
| บริบทแบบยาว | |||||
| MRCR v2 8 needle 128k (ค่าเฉลี่ย) | 66.4% | 44.1% | 25.4% | 19.1% | 13.5% |
ความสามารถหลัก
โมเดล Gemma 4 ทำงานได้หลากหลายประเภททั้งในข้อความ ภาพ และเสียง ความสามารถหลักๆ มีดังนี้
- การคิด - โหมดการให้เหตุผลในตัวที่ช่วยให้โมเดลคิดทีละขั้นตอนก่อนตอบ
- บริบทแบบยาว - หน้าต่างบริบทที่มีโทเค็นสูงสุด 128,000 โทเค็น (E2B/E4B) และ 256,000 โทเค็น (26B A4B/31B)
- การทำความเข้าใจรูปภาพ - การตรวจจับออบเจ็กต์ การแยกวิเคราะห์เอกสาร/PDF การทำความเข้าใจหน้าจอและ UI การทำความเข้าใจแผนภูมิ OCR (รวมถึงแบบหลายภาษา) การจดจำลายมือ และการชี้ ระบบประมวลผลรูปภาพได้โดยมีสัดส่วนภาพและความละเอียดที่หลากหลาย
- การทำความเข้าใจวิดีโอ - วิเคราะห์วิดีโอโดยการประมวลผลลำดับของเฟรม
- อินพุตหลายรูปแบบแบบสลับ - ผสมข้อความและรูปภาพได้อย่างอิสระในลำดับใดก็ได้ ภายในพรอมต์เดียว
- การเรียกใช้ฟังก์ชัน - การรองรับเครื่องมือที่มีโครงสร้างแบบเนทีฟ ซึ่งช่วยให้เวิร์กโฟลว์ของเอเจนต์ทำงานได้
- การเขียนโค้ด - การสร้าง การเติมให้สมบูรณ์ และการแก้ไขโค้ด
- หลายภาษา - รองรับภาษามากกว่า 35 ภาษาได้ทันที โดยได้รับการฝึกมาก่อนในภาษามากกว่า 140 ภาษา
- เสียง (E2B และ E4B เท่านั้น) - การจดจำคำพูดอัตโนมัติ (ASR) และ การแปลคำพูดเป็นข้อความที่แปลแล้วในหลายภาษา
เริ่มต้นใช้งาน
คุณใช้โมเดล Gemma 4 ทั้งหมดกับ Transformers เวอร์ชันล่าสุดได้ หากต้องการเริ่มต้นใช้งาน ให้ติดตั้งทรัพยากร Dependency ที่จำเป็นในสภาพแวดล้อมของคุณโดยทำดังนี้
pip install -U transformers torch accelerate
เมื่อติดตั้งทุกอย่างแล้ว คุณจะโหลดโมเดลได้โดยใช้โค้ดด้านล่าง
import torch
from transformers import AutoProcessor, AutoModelForCausalLM
MODEL_ID = "google/gemma-4-E2B-it"
# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
dtype=torch.bfloat16,
device_map="auto"
)
เมื่อโหลดโมเดลแล้ว คุณจะเริ่มสร้างเอาต์พุตได้โดยทำดังนี้
# Prompt
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
# Process input
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]
# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
# Parse thinking
processor.parse_response(response)
หากต้องการเปิดใช้การให้เหตุผล ให้ตั้งค่า enable_thinking=True และฟังก์ชัน parse_response
จะจัดการการแยกวิเคราะห์เอาต์พุตการคิด
แนวทางปฏิบัติแนะนำ
ใช้การกำหนดค่าและแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อให้ได้ประสิทธิภาพที่ดีที่สุด
1. พารามิเตอร์การสุ่มตัวอย่าง
ใช้การกำหนดค่าการสุ่มตัวอย่างที่ได้มาตรฐานต่อไปนี้ในทุกกรณีการใช้งาน
temperature=1.0top_p=0.95top_k=64
2. การกำหนดค่าโหมดการคิด
โมเดลนี้ใช้บทบาทมาตรฐาน system, assistant และ user
เมื่อเทียบกับ Gemma 3 หากต้องการจัดการกระบวนการคิดอย่างเหมาะสม ให้ใช้โทเค็นควบคุมต่อไปนี้
- ทริกเกอร์การคิด: การคิดจะเปิดใช้ได้โดยการรวมโทเค็น
<|think|>ไว้ที่จุดเริ่มต้นของพรอมต์ระบบ หากต้องการปิดใช้การคิด ให้นำโทเค็นออก - การสร้างมาตรฐาน: เมื่อเปิดใช้การคิด โมเดลจะแสดงผลการให้เหตุผลภายใน
ตามด้วยคำตอบสุดท้ายโดยใช้โครงสร้างนี้
<|channel>thought\n[การให้เหตุผลภายใน]<channel|> - ลักษณะการคิดที่ปิดใช้งาน: สำหรับโมเดลทั้งหมด ยกเว้นรุ่นย่อย E2B และ E4B หากปิดใช้งานการคิด โมเดลจะยังคงสร้างแท็ก แต่มีบล็อกความคิดว่างเปล่า:
<|channel>thought\n<channel|>[คำตอบ สุดท้าย]
โปรดทราบว่าไลบรารีจำนวนมาก เช่น Transformers และ llama.cpp จะจัดการความซับซ้อนของเทมเพลตแชทให้คุณ
3. การสนทนาหลายรอบ
- ไม่มีเนื้อหาการคิดในประวัติ: ในการสนทนาแบบหลายรอบ เอาต์พุตโมเดลในอดีตควรมีเพียงคำตอบสุดท้าย ความคิด จากโมเดลรอบก่อนหน้าต้องไม่ถูกเพิ่มก่อนที่รอบของผู้ใช้คนถัดไปจะเริ่ม
4. ลำดับรูปแบบ
- วางเนื้อหารูปภาพและ/หรือเสียงก่อนข้อความในพรอมต์เพื่อให้ได้ประสิทธิภาพสูงสุดด้วยอินพุตแบบหลายรูปแบบ
5. ความละเอียดของรูปภาพที่ปรับเปลี่ยนได้
นอกเหนือจากสัดส่วนภาพที่เปลี่ยนแปลงได้แล้ว Gemma 4 ยังรองรับความละเอียดของรูปภาพที่เปลี่ยนแปลงได้ ผ่านงบประมาณโทเค็นภาพที่กำหนดค่าได้ ซึ่งควบคุมจำนวนโทเค็นที่ ใช้เพื่อแสดงรูปภาพ งบประมาณโทเค็นที่สูงขึ้นจะช่วยรักษาความละเอียดของภาพได้มากขึ้น แต่ต้องใช้การคำนวณเพิ่มเติม ในขณะที่งบประมาณที่ต่ำลงจะช่วยให้การอนุมานเร็วขึ้น สำหรับงานที่ไม่จำเป็นต้องมีความเข้าใจอย่างละเอียด
- งบประมาณโทเค็นที่รองรับ ได้แก่ 70, 140, 280, 560 และ
1120
- ใช้งบประมาณที่ต่ำกว่าสำหรับการจัดประเภท การใส่คำบรรยายแทนเสียง หรือการทำความเข้าใจวิดีโอ ซึ่งการอนุมานที่เร็วขึ้นและการประมวลผลหลายเฟรม มีน้ำหนักมากกว่ารายละเอียดที่ละเอียด
- ใช้งบประมาณที่สูงขึ้นสำหรับงานต่างๆ เช่น OCR, การแยกวิเคราะห์เอกสาร หรือการอ่านข้อความขนาดเล็ก
6. เสียง
ใช้โครงสร้างพรอมต์ต่อไปนี้สำหรับการประมวลผลเสียง
- การรู้จำคำพูดจากเสียง (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- การแปลเสียงพูดอัตโนมัติ (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. ความยาวของเสียงและวิดีโอ
ทุกรุ่นรองรับอินพุตรูปภาพและประมวลผลวิดีโอเป็นเฟรมได้ ในขณะที่รุ่น E2B และ E4B รองรับอินพุตเสียงด้วย เสียงมีความยาวได้สูงสุด 30 วินาที วิดีโอรองรับความยาวสูงสุด 60 วินาที โดยสมมติว่าระบบประมวลผลรูปภาพที่ 1 เฟรมต่อวินาที
ข้อมูลโมเดล
ข้อมูลที่ใช้ในการฝึกโมเดลและวิธีประมวลผลข้อมูล
ชุดข้อมูลการฝึก
ชุดข้อมูลการฝึกเบื้องต้นของเราคือคอลเล็กชันข้อมูลขนาดใหญ่และหลากหลาย ซึ่งครอบคลุมโดเมนและรูปแบบที่หลากหลาย รวมถึงเอกสารบนเว็บ โค้ด รูปภาพ และเสียง โดยมีวันที่สิ้นสุดคือเดือนมกราคม 2025 โดยมี องค์ประกอบสำคัญดังนี้
- เอกสารบนเว็บ: ข้อความบนเว็บที่หลากหลายช่วยให้โมเดลได้เห็นรูปแบบภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกประกอบด้วยเนื้อหาในกว่า 140 ภาษา
- โค้ด: การแสดงโมเดลต่อโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และ รูปแบบของภาษาโปรแกรม ซึ่งจะช่วยปรับปรุงความสามารถในการสร้าง โค้ดและทําความเข้าใจคําถามที่เกี่ยวข้องกับโค้ด
- คณิตศาสตร์: การฝึกข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การแทนค่าสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
- รูปภาพ: รูปภาพที่หลากหลายช่วยให้โมเดลสามารถทำงานวิเคราะห์รูปภาพและดึงข้อมูลภาพได้
การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้มีความสำคัญอย่างยิ่งต่อการฝึกโมเดลมัลติโมดัลที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลที่แตกต่างกันได้หลากหลาย
การประมวลผลข้อมูลเบื้องต้น
ต่อไปนี้คือวิธีการทำความสะอาดข้อมูลและกรองข้อมูลที่สำคัญซึ่งใช้กับข้อมูลฝึกฝน
- การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่ด้วย
- การกรองข้อมูลที่ละเอียดอ่อน: ในการสร้างโมเดล Gemma ที่ผ่านการฝึกมาก่อนให้มีความปลอดภัยและเชื่อถือได้ เราได้ใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนอื่นๆ บางอย่างออกจากชุดการฝึก
- วิธีอื่นๆ: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตามนโยบายของเรา
จริยธรรมและความปลอดภัย
เมื่อโมเดลแบบเปิดกลายเป็นหัวใจสำคัญของโครงสร้างพื้นฐานขององค์กร ที่มาและความปลอดภัยจึงเป็นสิ่งสำคัญยิ่ง Gemma 4 พัฒนาโดย Google DeepMind และผ่านการประเมินความปลอดภัยอย่างเข้มงวดเช่นเดียวกับโมเดล Gemini ที่เป็นกรรมสิทธิ์ของเรา
แนวทางการประเมิน
โมเดล Gemma 4 พัฒนาขึ้นโดยความร่วมมือกับทีมความปลอดภัยภายในและทีม AI ที่มีความรับผิดชอบ เราได้ทำการประเมินทั้งแบบอัตโนมัติและที่ดำเนินการโดยเจ้าหน้าที่เพื่อช่วยปรับปรุงความปลอดภัยของโมเดล การประเมินเหล่านี้สอดคล้องกับหลักการเกี่ยวกับ AI ของ Google รวมถึงนโยบายด้านความปลอดภัย ซึ่งมีเป้าหมายเพื่อป้องกันไม่ให้โมเดล Generative AI ของเราสร้างเนื้อหาที่เป็นอันตราย ซึ่งรวมถึงเนื้อหาต่อไปนี้
- เนื้อหาที่เกี่ยวข้องกับสื่อที่มีการล่วงละเมิดทางเพศเด็กและการแสวงหาประโยชน์จากเด็ก
- เนื้อหาที่เป็นอันตราย (เช่น การส่งเสริมการฆ่าตัวตาย หรือการให้คำแนะนำในกิจกรรม ที่อาจก่อให้เกิดอันตรายในชีวิตจริง)
- เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง
- วาจาสร้างความเกลียดชัง (เช่น การลดทอนคุณค่าความเป็นมนุษย์ของสมาชิกในกลุ่มที่ได้รับการคุ้มครอง)
- การคุกคาม (เช่น การสนับสนุนให้ใช้ความรุนแรงต่อผู้อื่น)
ผลการประเมิน
สำหรับการทดสอบด้านความปลอดภัยทั้งหมด เราเห็นการปรับปรุงที่สำคัญในทุกหมวดหมู่ของ ความปลอดภัยของเนื้อหาเมื่อเทียบกับโมเดล Gemma ก่อนหน้า โดยรวมแล้ว โมเดล Gemma 4 มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 และ 3n อย่างมากในการปรับปรุงความปลอดภัย ขณะเดียวกันก็ ยังคงการปฏิเสธที่ไม่สมเหตุสมผลไว้ในระดับต่ำ การทดสอบทั้งหมดดำเนินการโดยไม่มีตัวกรองความปลอดภัย เพื่อประเมินความสามารถและลักษณะการทำงานของโมเดล ทั้งในส่วนของข้อความเป็นข้อความ และรูปภาพต่อข้อความ รวมถึงในโมเดลทุกขนาด โมเดลนี้มีการละเมิดนโยบายน้อยมาก และแสดงให้เห็นถึงประสิทธิภาพที่ปรับปรุงขึ้นอย่างมากเมื่อเทียบกับโมเดล Gemma รุ่นก่อนหน้า
การใช้งานและข้อจำกัด
โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ
การใช้งานที่ตั้งใจไว้
โมเดลหลายรูปแบบ (ประมวลผลภาพ ภาษา และ/หรือเสียงได้) มี การใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น จุดประสงค์ของรายการนี้คือการ ให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดล พิจารณาเป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล
- การสร้างและการสื่อสารเนื้อหา
- การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้เพื่อสร้างข้อความที่สร้างสรรค์ ในรูปแบบต่างๆ เช่น บทกวี สคริปต์ โค้ด ข้อความทางการตลาด และฉบับร่างอีเมล
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับ การบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของคลังข้อความ เอกสารงานวิจัย หรือรายงาน
- การแยกข้อมูลรูปภาพ: คุณใช้โมเดลเหล่านี้เพื่อแยก ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารด้วยข้อความได้
- การประมวลผลและการโต้ตอบด้วยเสียง: โมเดลขนาดเล็ก (E2B และ E4B) สามารถวิเคราะห์และตีความอินพุตเสียง ซึ่งช่วยให้โต้ตอบและถอดเสียงเป็นคำได้ ด้วยเสียง
- การวิจัยและการศึกษา
- การวิจัยด้านการประมวลผลภาษาธรรมชาติ (NLP) และ VLM: โมเดลเหล่านี้สามารถเป็นพื้นฐานให้นักวิจัยได้ทดลองใช้เทคนิค VLM และ NLP พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขานี้
- เครื่องมือการเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
- การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยการสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง
ข้อจำกัด
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลฝึกฝนมีผลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลฝึกฝนอาจทำให้คำตอบของโมเดลมีข้อจำกัด
- ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตของเรื่องที่โมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
- บริบทและความซับซ้อนของงาน
- โมเดลทำงานได้ดีกับงานที่สามารถกำหนดกรอบด้วยพรอมต์และ คำสั่งที่ชัดเจน งานที่เป็นปลายเปิดหรือมีความซับซ้อนสูงอาจเป็นเรื่องท้าทาย
- ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากปริมาณบริบทที่ให้ (โดยทั่วไปบริบทที่ยาวขึ้นจะทำให้เอาต์พุตดีขึ้นจนถึงจุดหนึ่ง)
- ความคลุมเครือและความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยธรรมชาติ โมเดลอาจเข้าใจ ความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมาได้ยาก
- ความถูกต้องตามข้อเท็จจริง
- โมเดลจะสร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ ซึ่งอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- Common Sense
- โมเดลอาศัยรูปแบบทางสถิติในภาษา โดยอาจขาด ความสามารถในการใช้เหตุผลตามสามัญสำนึกในบางสถานการณ์
ข้อควรพิจารณาและความเสี่ยงด้านจริยธรรม
การพัฒนาโมเดลวิชันภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความยุติธรรม
- VLM ที่ได้รับการฝึกด้วยข้อมูลข้อความและรูปภาพในโลกแห่งความเป็นจริงขนาดใหญ่สามารถแสดงถึง อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการฝึก โมเดล Gemma 4 ได้รับการตรวจสอบอย่างละเอียด การประมวลผลล่วงหน้าของข้อมูลอินพุต และการประเมินหลังการฝึก ตามที่รายงานในการ์ดนี้เพื่อช่วยลดความเสี่ยงของอคติเหล่านี้
- ข้อมูลที่ผิดและการใช้ในทางที่ผิด
- VLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เรามีหลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้สรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบจะช่วยให้เรามีโอกาสแชร์ นวัตกรรมด้วยการทำให้เทคโนโลยี VLM เข้าถึงได้สำหรับนักพัฒนาแอปและ นักวิจัยทั่วทั้งระบบนิเวศ AI
ความเสี่ยงที่ระบุและการลดความเสี่ยง
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและ ใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาแอปและผู้ใช้ปลายทางจะช่วยลดความเสี่ยงจากการใช้ VLM ในแอปพลิเคชันที่เป็นอันตรายได้ เรามีแหล่งข้อมูลด้านการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการละเมิด
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกด้วยข้อมูลที่กรองเพื่อนำ ข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
- การคงอยู่ของอคติ: ขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคการลดอคติ ระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
ประโยชน์
ในขณะที่เปิดตัว โมเดลตระกูลนี้จะมีการใช้งานโมเดลภาษาที่มองเห็นได้แบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน