Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

การ์ดโมเดล Gemma 4

แบนเนอร์ Gemma 4

Hugging Face | GitHub | บล็อกการเปิดตัว | เอกสารประกอบ
ใบอนุญาต: Apache 2.0 | ผู้เขียน: Google DeepMind

Gemma เป็นกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่สร้างโดย Google DeepMind โมเดล Gemma 4 เป็นโมเดล หลายรูปแบบที่ประมวลผลอินพุตข้อความและรูปภาพ (โดยโมเดลขนาดเล็กจะรองรับเสียง) และสร้างเอาต์พุตข้อความ รุ่นนี้มีโมเดลแบบเปิดน้ำหนักทั้งใน รูปแบบที่ผ่านการฝึกมาก่อนและรูปแบบที่ปรับตามคำสั่ง Gemma 4 มีหน้าต่างบริบทที่มีโทเค็นได้สูงสุด 256,000 โทเค็น และรองรับหลายภาษาในกว่า 140 ภาษา

Gemma 4 มีทั้งสถาปัตยกรรมแบบ Dense และ Mixture-of-Experts (MoE) จึงเหมาะกับงานต่างๆ เช่น การสร้างข้อความ การเขียนโค้ด และการให้เหตุผล โมเดล มีให้ใช้งานใน 4 ขนาด ได้แก่ E2B, E4B, 26B A4B และ 31B โมเดลเหล่านี้มีขนาดหลากหลาย จึงสามารถนําไปใช้ในสภาพแวดล้อมต่างๆ ได้ตั้งแต่ โทรศัพท์ระดับไฮเอนด์ไปจนถึงแล็ปท็อปและเซิร์ฟเวอร์ ซึ่งเป็นการกระจายการเข้าถึง AI ที่ล้ำสมัย

Gemma 4 มาพร้อมความสามารถและความก้าวหน้าทางสถาปัตยกรรมที่สำคัญดังนี้

การให้เหตุผล - โมเดลทั้งหมดในตระกูลนี้ได้รับการออกแบบมาให้เป็นเครื่องมือให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิดที่กำหนดค่าได้
ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต - ประมวลผลข้อความ รูปภาพที่มีสัดส่วน ภาพและความละเอียดที่หลากหลาย (ทุกรุ่น) วิดีโอ และเสียง (มีให้ใช้งาน ในรุ่น E2B และ E4B โดยเฉพาะ)
สถาปัตยกรรมที่หลากหลายและมีประสิทธิภาพ - มีตัวแปรแบบ Dense และ Mixture-of-Experts (MoE) ขนาดต่างๆ เพื่อการติดตั้งใช้งานที่ปรับขนาดได้
เพิ่มประสิทธิภาพสำหรับอุปกรณ์ - โมเดลขนาดเล็กได้รับการออกแบบมาโดยเฉพาะเพื่อ การดำเนินการในเครื่องอย่างมีประสิทธิภาพบนแล็ปท็อปและอุปกรณ์เคลื่อนที่
หน้าต่างบริบทที่เพิ่มขึ้น - โมเดลขนาดเล็กมีหน้าต่างบริบท 128,000 ขณะที่โมเดลขนาดกลางรองรับ 256,000
ความสามารถในการเขียนโค้ดและ Agent ที่ได้รับการปรับปรุง - ปรับปรุงเกณฑ์มาตรฐานการเขียนโค้ดอย่างเห็นได้ชัด พร้อมกับการรองรับการเรียกใช้ฟังก์ชันแบบเนทีฟ ซึ่งขับเคลื่อน เอเจนต์อัตโนมัติที่มีความสามารถสูง
การรองรับพรอมต์ของระบบโดยกำเนิด - Gemma 4 เปิดตัวการรองรับบทบาท system โดยกำเนิด ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น

ภาพรวมของโมเดล

โมเดล Gemma 4 ออกแบบมาเพื่อมอบประสิทธิภาพระดับแนวหน้าในแต่ละขนาด โดยมุ่งเป้าไปที่สถานการณ์การใช้งานตั้งแต่ในอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge (E2B, E4B) ไปจนถึง GPU สำหรับผู้บริโภคและเวิร์กสเตชัน (26B A4B, 31B) โมเดลเหล่านี้เหมาะสำหรับ การให้เหตุผล เวิร์กโฟลว์แบบ Agent การเขียนโค้ด และความเข้าใจแบบ Multimodal

โมเดลใช้กลไกความใส่ใจแบบไฮบริดที่สลับการทำงานของกลไกความใส่ใจแบบเลื่อนหน้าต่างในเครื่องกับกลไกความใส่ใจแบบทั่วโลกเต็มรูปแบบ เพื่อให้มั่นใจว่าเลเยอร์สุดท้ายจะเป็นแบบทั่วโลกเสมอ การออกแบบแบบไฮบริดนี้ให้ความเร็วในการประมวลผลและใช้หน่วยความจำน้อยเหมือนโมเดลขนาดเล็ก โดยไม่ลดทอนความสามารถในการรับรู้ที่จำเป็นสำหรับงานที่ซับซ้อนและมีบริบทขนาดยาว หากต้องการเพิ่มประสิทธิภาพหน่วยความจำสำหรับบริบทที่ยาว ฟีเจอร์เลเยอร์ส่วนกลาง จะมีคีย์และค่าแบบรวม และใช้ Proportional RoPE (p-RoPE)

โมเดลแบบหนาแน่น

พร็อพเพอร์ตี้	E2B	E4B	31B Dense
พารามิเตอร์ทั้งหมด	2.3 พันล้านพารามิเตอร์ (5.1 พันล้านพารามิเตอร์เมื่อใช้การฝัง)	4.5 พันล้านพารามิเตอร์ (8 พันล้านพารามิเตอร์เมื่อใช้การฝัง)	30.7 พันล้าน
เลเยอร์	35	42	60
หน้าต่างเลื่อน	512 โทเค็น	512 โทเค็น	1024 โทเค็น
ความยาวบริบท	โทเค็น 128,000 รายการ	โทเค็น 128,000 รายการ	โทเค็น 256,000 รายการ
ขนาดคำศัพท์	262K	262K	262K
รูปแบบที่รองรับ	ข้อความ รูปภาพ เสียง	ข้อความ รูปภาพ เสียง	ข้อความ รูปภาพ
พารามิเตอร์ของ Vision Encoder	~150 ล้าน	~150 ล้าน	~550 ล้าน
พารามิเตอร์ของตัวเข้ารหัสเสียง	~300 ล้าน	~300 ล้าน	ไม่มีเสียง

"E" ใน E2B และ E4B ย่อมาจากพารามิเตอร์ "effective" โมเดลขนาดเล็ก ใช้การฝังต่อเลเยอร์ (PLE) เพื่อเพิ่มประสิทธิภาพพารามิเตอร์ในการ การติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์หรือพารามิเตอร์ลงในโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นสาเหตุที่จำนวนพารามิเตอร์ที่มีผลจึงน้อยกว่าจำนวนทั้งหมดมาก

โมเดล Mixture-of-Experts (MoE)

พร็อพเพอร์ตี้	26B A4B MoE
พารามิเตอร์ทั้งหมด	25,200 ล้าน
พารามิเตอร์ที่ใช้งานอยู่	3.8 พันล้าน
เลเยอร์	30
หน้าต่างเลื่อน	1024 โทเค็น
ความยาวบริบท	โทเค็น 256,000 รายการ
ขนาดคำศัพท์	262K
จำนวนผู้เชี่ยวชาญ	ใช้งานอยู่ 8 / ทั้งหมด 128 และแชร์ 1
รูปแบบที่รองรับ	ข้อความ รูปภาพ
พารามิเตอร์ของ Vision Encoder	~550 ล้าน

"A" ใน 26B A4B ย่อมาจาก "พารามิเตอร์ที่ใช้งานอยู่" ซึ่งตรงข้ามกับจำนวนพารามิเตอร์ทั้งหมดที่โมเดลมี การเปิดใช้งานชุดย่อย 4B ของพารามิเตอร์ระหว่างการอนุมานเท่านั้นทำให้โมเดล Mixture-of-Experts ทำงานได้เร็วกว่าที่พารามิเตอร์ทั้งหมด 26B อาจบอกไว้มาก จึงเป็นตัวเลือกที่ยอดเยี่ยมสำหรับการอนุมานที่รวดเร็วเมื่อเทียบกับโมเดลแบบหนาแน่นขนาด 31 พันล้านพารามิเตอร์ เนื่องจากทำงานได้เร็วเกือบเท่าโมเดลที่มีพารามิเตอร์ 4 พันล้านรายการ

ผลการเปรียบเทียบ

เราประเมินโมเดลเหล่านี้กับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ผลการประเมินที่ทำเครื่องหมาย ในตารางเป็นของโมเดลที่ปรับแต่งตามคำสั่ง

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (ไม่มีความคิด)
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026 no tools	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
ELO ของ Codeforces	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2 (ค่าเฉลี่ยในช่วง 3)	76.9%	68.2%	42.2%	24.5%	16.2%
HLE no tools	19.5%	8.7%	-	-	-
HLE พร้อมการค้นหา	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
การมองเห็น
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (ระยะการแก้ไขโดยเฉลี่ย ยิ่งต่ำยิ่งดี)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
เสียง
CoVoST	-	-	35.54	33.47	-
FLEURS (ยิ่งต่ำยิ่งดี)	-	-	0.08	0.09	-
บริบทแบบยาว
MRCR v2 8 needle 128k (ค่าเฉลี่ย)	66.4%	44.1%	25.4%	19.1%	13.5%

ความสามารถหลัก

โมเดล Gemma 4 ทำงานได้หลากหลายประเภททั้งในข้อความ ภาพ และเสียง ความสามารถหลักๆ มีดังนี้

การคิด - โหมดการให้เหตุผลในตัวที่ช่วยให้โมเดลคิดทีละขั้นตอนก่อนตอบ
บริบทแบบยาว - หน้าต่างบริบทที่มีโทเค็นสูงสุด 128,000 โทเค็น (E2B/E4B) และ 256,000 โทเค็น (26B A4B/31B)
การทำความเข้าใจรูปภาพ - การตรวจจับออบเจ็กต์ การแยกวิเคราะห์เอกสาร/PDF การทำความเข้าใจหน้าจอและ UI การทำความเข้าใจแผนภูมิ OCR (รวมถึงแบบหลายภาษา) การจดจำลายมือ และการชี้ ระบบประมวลผลรูปภาพได้โดยมีสัดส่วนภาพและความละเอียดที่หลากหลาย
การทำความเข้าใจวิดีโอ - วิเคราะห์วิดีโอโดยการประมวลผลลำดับของเฟรม
อินพุตหลายรูปแบบแบบสลับ - ผสมข้อความและรูปภาพได้อย่างอิสระในลำดับใดก็ได้ ภายในพรอมต์เดียว
การเรียกใช้ฟังก์ชัน - การรองรับเครื่องมือที่มีโครงสร้างแบบเนทีฟ ซึ่งช่วยให้เวิร์กโฟลว์ของเอเจนต์ทำงานได้
การเขียนโค้ด - การสร้าง การเติมให้สมบูรณ์ และการแก้ไขโค้ด
หลายภาษา - รองรับภาษามากกว่า 35 ภาษาได้ทันที โดยได้รับการฝึกมาก่อนในภาษามากกว่า 140 ภาษา
เสียง (E2B และ E4B เท่านั้น) - การจดจำคำพูดอัตโนมัติ (ASR) และ การแปลคำพูดเป็นข้อความที่แปลแล้วในหลายภาษา

เริ่มต้นใช้งาน

คุณใช้โมเดล Gemma 4 ทั้งหมดกับ Transformers เวอร์ชันล่าสุดได้ หากต้องการเริ่มต้นใช้งาน ให้ติดตั้งทรัพยากร Dependency ที่จำเป็นในสภาพแวดล้อมของคุณโดยทำดังนี้

pip install -U transformers torch accelerate

เมื่อติดตั้งทุกอย่างแล้ว คุณจะโหลดโมเดลได้โดยใช้โค้ดด้านล่าง

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

เมื่อโหลดโมเดลแล้ว คุณจะเริ่มสร้างเอาต์พุตได้โดยทำดังนี้

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

หากต้องการเปิดใช้การให้เหตุผล ให้ตั้งค่า enable_thinking=True และฟังก์ชัน parse_response จะจัดการการแยกวิเคราะห์เอาต์พุตการคิด

แนวทางปฏิบัติแนะนำ

ใช้การกำหนดค่าและแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

1. พารามิเตอร์การสุ่มตัวอย่าง

ใช้การกำหนดค่าการสุ่มตัวอย่างที่ได้มาตรฐานต่อไปนี้ในทุกกรณีการใช้งาน

temperature=1.0
top_p=0.95
top_k=64

2. การกำหนดค่าโหมดการคิด

โมเดลนี้ใช้บทบาทมาตรฐาน system, assistant และ user เมื่อเทียบกับ Gemma 3 หากต้องการจัดการกระบวนการคิดอย่างเหมาะสม ให้ใช้โทเค็นควบคุมต่อไปนี้

ทริกเกอร์การคิด: การคิดจะเปิดใช้ได้โดยการรวมโทเค็น <|think|> ไว้ที่จุดเริ่มต้นของพรอมต์ระบบ หากต้องการปิดใช้การคิด ให้นำโทเค็นออก
การสร้างมาตรฐาน: เมื่อเปิดใช้การคิด โมเดลจะแสดงผลการให้เหตุผลภายใน ตามด้วยคำตอบสุดท้ายโดยใช้โครงสร้างนี้ <|channel>thought\n[การให้เหตุผลภายใน]<channel|>
ลักษณะการคิดที่ปิดใช้งาน: สำหรับโมเดลทั้งหมด ยกเว้นรุ่นย่อย E2B และ E4B หากปิดใช้งานการคิด โมเดลจะยังคงสร้างแท็ก แต่มีบล็อกความคิดว่างเปล่า: <|channel>thought\n<channel|>[คำตอบ สุดท้าย]

โปรดทราบว่าไลบรารีจำนวนมาก เช่น Transformers และ llama.cpp จะจัดการความซับซ้อนของเทมเพลตแชทให้คุณ

3. การสนทนาหลายรอบ

ไม่มีเนื้อหาการคิดในประวัติ: ในการสนทนาแบบหลายรอบ เอาต์พุตโมเดลในอดีตควรมีเพียงคำตอบสุดท้าย ความคิด จากโมเดลรอบก่อนหน้าต้องไม่ถูกเพิ่มก่อนที่รอบของผู้ใช้คนถัดไปจะเริ่ม

4. ลำดับรูปแบบ

วางเนื้อหารูปภาพและ/หรือเสียงก่อนข้อความในพรอมต์เพื่อให้ได้ประสิทธิภาพสูงสุดด้วยอินพุตแบบหลายรูปแบบ

5. ความละเอียดของรูปภาพที่ปรับเปลี่ยนได้

นอกเหนือจากสัดส่วนภาพที่เปลี่ยนแปลงได้แล้ว Gemma 4 ยังรองรับความละเอียดของรูปภาพที่เปลี่ยนแปลงได้ ผ่านงบประมาณโทเค็นภาพที่กำหนดค่าได้ ซึ่งควบคุมจำนวนโทเค็นที่ ใช้เพื่อแสดงรูปภาพ งบประมาณโทเค็นที่สูงขึ้นจะช่วยรักษาความละเอียดของภาพได้มากขึ้น แต่ต้องใช้การคำนวณเพิ่มเติม ในขณะที่งบประมาณที่ต่ำลงจะช่วยให้การอนุมานเร็วขึ้น สำหรับงานที่ไม่จำเป็นต้องมีความเข้าใจอย่างละเอียด

งบประมาณโทเค็นที่รองรับ ได้แก่ 70, 140, 280, 560 และ 1120
- ใช้งบประมาณที่ต่ำกว่าสำหรับการจัดประเภท การใส่คำบรรยายแทนเสียง หรือการทำความเข้าใจวิดีโอ ซึ่งการอนุมานที่เร็วขึ้นและการประมวลผลหลายเฟรม มีน้ำหนักมากกว่ารายละเอียดที่ละเอียด
- ใช้งบประมาณที่สูงขึ้นสำหรับงานต่างๆ เช่น OCR, การแยกวิเคราะห์เอกสาร หรือการอ่านข้อความขนาดเล็ก

6. เสียง

ใช้โครงสร้างพรอมต์ต่อไปนี้สำหรับการประมวลผลเสียง

การรู้จำคำพูดจากเสียง (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

การแปลเสียงพูดอัตโนมัติ (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. ความยาวของเสียงและวิดีโอ

ทุกรุ่นรองรับอินพุตรูปภาพและประมวลผลวิดีโอเป็นเฟรมได้ ในขณะที่รุ่น E2B และ E4B รองรับอินพุตเสียงด้วย เสียงมีความยาวได้สูงสุด 30 วินาที วิดีโอรองรับความยาวสูงสุด 60 วินาที โดยสมมติว่าระบบประมวลผลรูปภาพที่ 1 เฟรมต่อวินาที

ข้อมูลโมเดล

ข้อมูลที่ใช้ในการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

ชุดข้อมูลการฝึกเบื้องต้นของเราคือคอลเล็กชันข้อมูลขนาดใหญ่และหลากหลาย ซึ่งครอบคลุมโดเมนและรูปแบบที่หลากหลาย รวมถึงเอกสารบนเว็บ โค้ด รูปภาพ และเสียง โดยมีวันที่สิ้นสุดคือเดือนมกราคม 2025 โดยมี องค์ประกอบสำคัญดังนี้

เอกสารบนเว็บ: ข้อความบนเว็บที่หลากหลายช่วยให้โมเดลได้เห็นรูปแบบภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกประกอบด้วยเนื้อหาในกว่า 140 ภาษา
โค้ด: การแสดงโมเดลต่อโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และ รูปแบบของภาษาโปรแกรม ซึ่งจะช่วยปรับปรุงความสามารถในการสร้าง โค้ดและทําความเข้าใจคําถามที่เกี่ยวข้องกับโค้ด
คณิตศาสตร์: การฝึกข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การแทนค่าสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
รูปภาพ: รูปภาพที่หลากหลายช่วยให้โมเดลสามารถทำงานวิเคราะห์รูปภาพและดึงข้อมูลภาพได้

การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้มีความสำคัญอย่างยิ่งต่อการฝึกโมเดลมัลติโมดัลที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลที่แตกต่างกันได้หลากหลาย

การประมวลผลข้อมูลเบื้องต้น

ต่อไปนี้คือวิธีการทำความสะอาดข้อมูลและกรองข้อมูลที่สำคัญซึ่งใช้กับข้อมูลฝึกฝน

การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่ด้วย
การกรองข้อมูลที่ละเอียดอ่อน: ในการสร้างโมเดล Gemma ที่ผ่านการฝึกมาก่อนให้มีความปลอดภัยและเชื่อถือได้ เราได้ใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนอื่นๆ บางอย่างออกจากชุดการฝึก
วิธีอื่นๆ: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตามนโยบายของเรา

จริยธรรมและความปลอดภัย

เมื่อโมเดลแบบเปิดกลายเป็นหัวใจสำคัญของโครงสร้างพื้นฐานขององค์กร ที่มาและความปลอดภัยจึงเป็นสิ่งสำคัญยิ่ง Gemma 4 พัฒนาโดย Google DeepMind และผ่านการประเมินความปลอดภัยอย่างเข้มงวดเช่นเดียวกับโมเดล Gemini ที่เป็นกรรมสิทธิ์ของเรา

แนวทางการประเมิน

โมเดล Gemma 4 พัฒนาขึ้นโดยความร่วมมือกับทีมความปลอดภัยภายในและทีม AI ที่มีความรับผิดชอบ เราได้ทำการประเมินทั้งแบบอัตโนมัติและที่ดำเนินการโดยเจ้าหน้าที่เพื่อช่วยปรับปรุงความปลอดภัยของโมเดล การประเมินเหล่านี้สอดคล้องกับหลักการเกี่ยวกับ AI ของ Google รวมถึงนโยบายด้านความปลอดภัย ซึ่งมีเป้าหมายเพื่อป้องกันไม่ให้โมเดล Generative AI ของเราสร้างเนื้อหาที่เป็นอันตราย ซึ่งรวมถึงเนื้อหาต่อไปนี้

เนื้อหาที่เกี่ยวข้องกับสื่อที่มีการล่วงละเมิดทางเพศเด็กและการแสวงหาประโยชน์จากเด็ก
เนื้อหาที่เป็นอันตราย (เช่น การส่งเสริมการฆ่าตัวตาย หรือการให้คำแนะนำในกิจกรรม ที่อาจก่อให้เกิดอันตรายในชีวิตจริง)
เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง
วาจาสร้างความเกลียดชัง (เช่น การลดทอนคุณค่าความเป็นมนุษย์ของสมาชิกในกลุ่มที่ได้รับการคุ้มครอง)
การคุกคาม (เช่น การสนับสนุนให้ใช้ความรุนแรงต่อผู้อื่น)

ผลการประเมิน

สำหรับการทดสอบด้านความปลอดภัยทั้งหมด เราเห็นการปรับปรุงที่สำคัญในทุกหมวดหมู่ของ ความปลอดภัยของเนื้อหาเมื่อเทียบกับโมเดล Gemma ก่อนหน้า โดยรวมแล้ว โมเดล Gemma 4 มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 และ 3n อย่างมากในการปรับปรุงความปลอดภัย ขณะเดียวกันก็ ยังคงการปฏิเสธที่ไม่สมเหตุสมผลไว้ในระดับต่ำ การทดสอบทั้งหมดดำเนินการโดยไม่มีตัวกรองความปลอดภัย เพื่อประเมินความสามารถและลักษณะการทำงานของโมเดล ทั้งในส่วนของข้อความเป็นข้อความ และรูปภาพต่อข้อความ รวมถึงในโมเดลทุกขนาด โมเดลนี้มีการละเมิดนโยบายน้อยมาก และแสดงให้เห็นถึงประสิทธิภาพที่ปรับปรุงขึ้นอย่างมากเมื่อเทียบกับโมเดล Gemma รุ่นก่อนหน้า

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

การใช้งานที่ตั้งใจไว้

โมเดลหลายรูปแบบ (ประมวลผลภาพ ภาษา และ/หรือเสียงได้) มี การใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น จุดประสงค์ของรายการนี้คือการ ให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดล พิจารณาเป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล

การสร้างและการสื่อสารเนื้อหา
- การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้เพื่อสร้างข้อความที่สร้างสรรค์ ในรูปแบบต่างๆ เช่น บทกวี สคริปต์ โค้ด ข้อความทางการตลาด และฉบับร่างอีเมล
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับ การบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของคลังข้อความ เอกสารงานวิจัย หรือรายงาน
- การแยกข้อมูลรูปภาพ: คุณใช้โมเดลเหล่านี้เพื่อแยก ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารด้วยข้อความได้
- การประมวลผลและการโต้ตอบด้วยเสียง: โมเดลขนาดเล็ก (E2B และ E4B) สามารถวิเคราะห์และตีความอินพุตเสียง ซึ่งช่วยให้โต้ตอบและถอดเสียงเป็นคำได้ ด้วยเสียง
การวิจัยและการศึกษา
- การวิจัยด้านการประมวลผลภาษาธรรมชาติ (NLP) และ VLM: โมเดลเหล่านี้สามารถเป็นพื้นฐานให้นักวิจัยได้ทดลองใช้เทคนิค VLM และ NLP พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขานี้
- เครื่องมือการเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
  - การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยการสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลฝึกฝนมีผลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลฝึกฝนอาจทำให้คำตอบของโมเดลมีข้อจำกัด
- ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตของเรื่องที่โมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
บริบทและความซับซ้อนของงาน
- โมเดลทำงานได้ดีกับงานที่สามารถกำหนดกรอบด้วยพรอมต์และ คำสั่งที่ชัดเจน งานที่เป็นปลายเปิดหรือมีความซับซ้อนสูงอาจเป็นเรื่องท้าทาย
- ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากปริมาณบริบทที่ให้ (โดยทั่วไปบริบทที่ยาวขึ้นจะทำให้เอาต์พุตดีขึ้นจนถึงจุดหนึ่ง)
ความคลุมเครือและความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยธรรมชาติ โมเดลอาจเข้าใจ ความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมาได้ยาก
ความถูกต้องตามข้อเท็จจริง
- โมเดลจะสร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ ซึ่งอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
Common Sense
- โมเดลอาศัยรูปแบบทางสถิติในภาษา โดยอาจขาด ความสามารถในการใช้เหตุผลตามสามัญสำนึกในบางสถานการณ์

ข้อควรพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลวิชันภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

อคติและความยุติธรรม
- VLM ที่ได้รับการฝึกด้วยข้อมูลข้อความและรูปภาพในโลกแห่งความเป็นจริงขนาดใหญ่สามารถแสดงถึง อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการฝึก โมเดล Gemma 4 ได้รับการตรวจสอบอย่างละเอียด การประมวลผลล่วงหน้าของข้อมูลอินพุต และการประเมินหลังการฝึก ตามที่รายงานในการ์ดนี้เพื่อช่วยลดความเสี่ยงของอคติเหล่านี้
ข้อมูลที่ผิดและการใช้ในทางที่ผิด
- VLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เรามีหลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ
ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้สรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบจะช่วยให้เรามีโอกาสแชร์ นวัตกรรมด้วยการทำให้เทคโนโลยี VLM เข้าถึงได้สำหรับนักพัฒนาแอปและ นักวิจัยทั่วทั้งระบบนิเวศ AI

ความเสี่ยงที่ระบุและการลดความเสี่ยง

การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและ ใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาแอปและผู้ใช้ปลายทางจะช่วยลดความเสี่ยงจากการใช้ VLM ในแอปพลิเคชันที่เป็นอันตรายได้ เรามีแหล่งข้อมูลด้านการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการละเมิด
การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกด้วยข้อมูลที่กรองเพื่อนำ ข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
การคงอยู่ของอคติ: ขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคการลดอคติ ระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ

ประโยชน์

ในขณะที่เปิดตัว โมเดลตระกูลนี้จะมีการใช้งานโมเดลภาษาที่มองเห็นได้แบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน