การ์ดโมเดล Gemma 4

แบนเนอร์ Gemma 4

Hugging Face | GitHub | บล็อกการเปิดตัว | เอกสารประกอบ
สัญญาอนุญาต: Apache 2.0 | ผู้เขียน: Google DeepMind

Gemma เป็นตระกูลโมเดลแบบเปิดที่สร้างโดย Google DeepMind โมเดล Gemma 4 เป็นแบบ หลายรูปแบบ ซึ่งประมวลผลอินพุตข้อความและรูปภาพ (รองรับเสียงในโมเดล E2B, E4B และ 12B) และสร้างเอาต์พุตข้อความ การเปิดตัวนี้รวมถึงโมเดลแบบเปิดที่มีทั้ง ตัวแปรที่ได้รับการฝึกเบื้องต้นและตัวแปรที่ได้รับการปรับแต่งตามคำสั่ง Gemma 4 มีหน้าต่างบริบทขนาด สูงสุด 256,000 โทเค็น และยังคงรองรับหลายภาษาในกว่า 140 ภาษา

Gemma 4 มีสถาปัตยกรรมทั้งแบบ Dense และ Mixture-of-Experts (MoE) จึงเหมาะสำหรับงานต่างๆ เช่น การสร้างข้อความ การเขียนโค้ด และการให้เหตุผล โมเดลมีให้เลือก 5 ขนาด ได้แก่ E2B, E4B, 12B, 26B A4B และ 31B ขนาดที่หลากหลายทำให้สามารถนำไปใช้ในสภาพแวดล้อมต่างๆ ได้ตั้งแต่โทรศัพท์ระดับไฮเอนด์ไปจนถึงแล็ปท็อปและเซิร์ฟเวอร์ ซึ่งเป็นการกระจายการเข้าถึง AI ที่ล้ำสมัย

Gemma 4 มาพร้อมความสามารถและความก้าวหน้าทางสถาปัตยกรรมที่สำคัญดังนี้

  • การให้เหตุผล - โมเดลทั้งหมดในตระกูลนี้ได้รับการออกแบบมาให้เป็นเครื่องมือให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิดที่กำหนดค่าได้

  • ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต - ประมวลผลข้อความ รูปภาพที่มีสัดส่วน การแสดงผลและความละเอียดที่หลากหลาย (ทุกโมเดล), วิดีโอ และเสียง (มีให้ใช้งาน ในโมเดล E2B, E4B และ 12B โดยเฉพาะ)

  • สถาปัตยกรรมที่หลากหลายและมีประสิทธิภาพ - มีตัวแปร Dense และ Mixture-of-Experts (MoE) ขนาดต่างๆ เพื่อการติดตั้งใช้งานที่ปรับขนาดได้

  • เพิ่มประสิทธิภาพสำหรับอุปกรณ์ - โมเดลขนาดเล็กได้รับการออกแบบมาโดยเฉพาะเพื่อ การดำเนินการในเครื่องอย่างมีประสิทธิภาพบนแล็ปท็อปและอุปกรณ์เคลื่อนที่

  • หน้าต่างบริบทที่เพิ่มขึ้น - โมเดลขนาดเล็กมีหน้าต่างบริบท 128,000 รายการ ส่วนโมเดลขนาดกลางรองรับ 256,000 รายการ

  • ความสามารถในการเขียนโค้ดและ Agent ที่ได้รับการปรับปรุง - ปรับปรุงได้อย่างเห็นได้ชัด ในการเปรียบเทียบการเขียนโค้ดควบคู่ไปกับการรองรับการเรียกใช้ฟังก์ชันแบบเนทีฟ ซึ่งขับเคลื่อน Agent ที่ทำงานโดยอัตโนมัติที่มีความสามารถสูง

  • การรองรับพรอมต์ของระบบดั้งเดิม - Gemma 4 เปิดตัวการรองรับดั้งเดิมสำหรับบทบาท system ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น

ภาพรวมของโมเดล

โมเดล Gemma 4 ออกแบบมาเพื่อให้ประสิทธิภาพระดับแนวหน้าในแต่ละขนาด โดยมุ่งเป้าไปที่สถานการณ์การใช้งานตั้งแต่ในอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge (E2B, E4B) ไปจนถึง GPU สำหรับผู้บริโภคและเวิร์กสเตชัน (12B, 26B A4B, 31B) โมเดลเหล่านี้เหมาะ สำหรับการให้เหตุผล เวิร์กโฟลว์แบบ Agent การเขียนโค้ด และความเข้าใจแบบ Multimodal

โมเดลใช้กลไกความสนใจแบบไฮบริดที่สลับความสนใจแบบหน้าต่างเลื่อนในเครื่องกับความสนใจแบบทั่วโลกเต็มรูปแบบ เพื่อให้มั่นใจว่าเลเยอร์สุดท้ายจะเป็นแบบทั่วโลกเสมอ การออกแบบแบบไฮบริดนี้ช่วยให้โมเดลน้ำหนักเบามีความเร็วในการประมวลผลและใช้หน่วยความจำน้อยโดยไม่ลดทอนความตระหนักรู้เชิงลึกที่จำเป็นสำหรับงานที่มีบริบทที่ซับซ้อนและยาว เพื่อเพิ่มประสิทธิภาพหน่วยความจำสำหรับบริบทที่ยาว เลเยอร์ทั่วโลกจึงมีคีย์และค่าที่รวมกัน และใช้ Proportional RoPE (p-RoPE)

โมเดลแบบหนาแน่น

พร็อพเพอร์ตี้ E2B E4B 12B Unified 31B Dense
พารามิเตอร์ทั้งหมด 2.3 พันล้านพารามิเตอร์ (5.1 พันล้านพารามิเตอร์เมื่อรวมการฝัง) 4.5 พันล้านพารามิเตอร์ (8 พันล้านพารามิเตอร์เมื่อใช้การฝัง) 11.95 พันล้าน 30.7 พันล้าน
เลเยอร์ 35 42 48 60
หน้าต่างเลื่อน 512 โทเค็น 512 โทเค็น 1024 โทเค็น 1024 โทเค็น
ความยาวบริบท 128,000 โทเค็น 128,000 โทเค็น 256,000 โทเค็น 256,000 โทเค็น
ขนาดคำศัพท์ 262K 262K 262K 262K
รูปแบบที่รองรับ ข้อความ, รูปภาพ, เสียง ข้อความ, รูปภาพ, เสียง ข้อความ, รูปภาพ, เสียง ข้อความ รูปภาพ
พารามิเตอร์ของ Vision Encoder ~150 ล้าน ~150 ล้าน - ~550 ล้าน
พารามิเตอร์ของตัวเข้ารหัสเสียง ~300 ล้าน ~300 ล้าน - ไม่มีเสียง

"E" ใน E2B และ E4B ย่อมาจากพารามิเตอร์ "effective" โมเดลขนาดเล็ก ใช้การฝังต่อเลเยอร์ (PLE) เพื่อเพิ่มประสิทธิภาพพารามิเตอร์ในการ การติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์หรือพารามิเตอร์ลงในโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นสาเหตุที่จำนวนพารามิเตอร์ที่มีประสิทธิภาพจึงน้อยกว่าจำนวนทั้งหมดมาก

คำว่า "Unified" ใน Gemma 4 12B Unified หมายถึงสถาปัตยกรรมที่ไม่มีตัวเข้ารหัส โมเดล Gemma 4 อื่นๆ ใช้ตัวเข้ารหัสเฉพาะเพื่อประมวลผลข้อมูลหลายรูปแบบก่อนที่จะส่งไปยัง LLM Gemma 4 12B จะตัดตัวเข้ารหัสเหล่านี้ออกทั้งหมด โดยการฉายแพตช์รูปภาพและรูปแบบคลื่นเสียงดิบลงในพื้นที่ฝังของ LLM โดยตรงผ่านเลเยอร์เชิงเส้นแบบเบา แนวทางแบบรวมนี้หมายความว่า รูปแบบทั้งหมดจะไหลเข้าสู่ Transformer แบบถอดรหัสอย่างเดียว ซึ่งจะช่วยลด เวลาในการตอบสนองแบบมัลติโมดัล และช่วยให้ปรับแต่งโมเดลทั้งหมดได้ในครั้งเดียว

โมเดล Mixture-of-Experts (MoE)

พร็อพเพอร์ตี้ 26B A4B MoE
พารามิเตอร์ทั้งหมด 25.2 พันล้าน
พารามิเตอร์ที่ใช้งานอยู่ 3.8 พันล้าน
เลเยอร์ 30
หน้าต่างเลื่อน 1024 โทเค็น
ความยาวบริบท 256,000 โทเค็น
ขนาดคำศัพท์ 262K
จำนวนผู้เชี่ยวชาญ ใช้งานอยู่ 8 / ทั้งหมด 128 และแชร์ 1
รูปแบบที่รองรับ ข้อความ รูปภาพ
พารามิเตอร์ของ Vision Encoder ~550 ล้าน

"A" ใน 26B A4B ย่อมาจาก "พารามิเตอร์ที่ใช้งานอยู่" ซึ่งตรงข้ามกับจำนวนพารามิเตอร์ทั้งหมดที่โมเดลมี การเปิดใช้งานเฉพาะชุดย่อย 4 พันล้านพารามิเตอร์ของ พารามิเตอร์ระหว่างการอนุมานทำให้โมเดล Mixture-of-Experts ทำงานได้เร็วกว่า พารามิเตอร์ทั้งหมด 26 พันล้านรายการมาก จึงเป็นตัวเลือกที่ยอดเยี่ยมสำหรับการอนุมานที่รวดเร็วเมื่อเทียบกับโมเดล 31B แบบหนาแน่น เนื่องจากทำงานได้เร็วเกือบเท่าโมเดลที่มีพารามิเตอร์ 4 พันล้าน

ผลการเปรียบเทียบ

เราประเมินโมเดลเหล่านี้กับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ผลการประเมินที่ทำเครื่องหมาย ในตารางเป็นของโมเดลที่ปรับแต่งตามคำสั่ง

Gemma 4 31B Gemma 4 26B A4B Gemma 4 12B Unified Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (ไม่มีความคิด)
MMLU Pro 85.2% 82.6% 77.2% 69.4% 60.0% 67.6%
AIME 2026 no tools 89.2% 88.3% 77.5% 42.5% 37.5% 20.8%
LiveCodeBench v6 80.0% 77.1% 72.0% 52.0% 44.0% 29.1%
ELO ของ Codeforces 2150 1718 1659 940 633 110
GPQA Diamond 84.3% 82.3% 78.8% 58.6% 43.4% 42.4%
Tau2 (ค่าเฉลี่ยในช่วง 3) 76.9% 68.2% 69.0% 42.2% 24.5% 16.2%
HLE no tools 19.5% 8.7% 5.2% - - -
HLE พร้อมการค้นหา 26.5% 17.2% - - - -
BigBench Extra Hard 74.4% 64.8% 53.0% 33.1% 21.9% 19.3%
MMMLU 88.4% 86.3% 83.4% 76.6% 67.4% 70.7%
การมองเห็น
MMMU Pro 76.9% 73.8% 69.1% 52.6% 44.2% 49.7%
OmniDocBench 1.5 (ระยะการแก้ไขโดยเฉลี่ย ยิ่งต่ำยิ่งดี) 0.131 0.149 0.164 0.181 0.290 0.365
MATH-Vision 85.6% 82.4% 79.7% 59.5% 52.4% 46.0%
MedXPertQA MM 61.3% 58.1% 48.7% 28.7% 23.5% -
เสียง
CoVoST - - 38.5 35.54 33.47 -
FLEURS (ยิ่งต่ำยิ่งดี) - - 0.069 0.08 0.09 -
บริบทแบบยาว
MRCR v2 8 needle 128k (ค่าเฉลี่ย) 66.4% 44.1% 43.4% 25.4% 19.1% 13.5%

ความสามารถหลัก

โมเดล Gemma 4 สามารถจัดการงานได้หลากหลายในข้อความ ภาพ และเสียง ความสามารถหลักมีดังนี้

  • การคิด - โหมดการให้เหตุผลในตัวที่ช่วยให้โมเดลคิดทีละขั้นตอนก่อนตอบ
  • บริบทแบบยาว - หน้าต่างบริบทที่มีโทเค็นสูงสุด 128,000 โทเค็น (E2B/E4B) และ 256,000 โทเค็น (12B/26B A4B/31B)
  • การทำความเข้าใจรูปภาพ - การตรวจจับออบเจ็กต์ การแยกวิเคราะห์เอกสาร/PDF การทำความเข้าใจหน้าจอและ UI การทำความเข้าใจแผนภูมิ OCR (รวมถึงแบบหลายภาษา) การจดจำลายมือ และการชี้ ระบบประมวลผลรูปภาพได้โดยมี สัดส่วนภาพและความละเอียดที่หลากหลาย
  • การทำความเข้าใจวิดีโอ - วิเคราะห์วิดีโอโดยการประมวลผลลำดับของเฟรม
  • อินพุตหลายรูปแบบแบบแทรก - ผสมข้อความและรูปภาพได้อย่างอิสระในลำดับใดก็ได้ ภายในพรอมต์เดียว
  • การเรียกใช้ฟังก์ชัน - การรองรับการใช้เครื่องมือที่มีโครงสร้างโดยเนทีฟ ซึ่งช่วยให้เวิร์กโฟลว์ของเอเจนต์ทำงานได้
  • การเขียนโค้ด - การสร้าง การเติมให้สมบูรณ์ และการแก้ไขโค้ด
  • รองรับหลายภาษา - รองรับภาษามากกว่า 35 ภาษาทันที และได้รับการฝึกมาล่วงหน้าในภาษามากกว่า 140 ภาษา
  • เสียง (E2B, E4B และ 12B Unified เท่านั้น) - การจดจำคำพูดอัตโนมัติ (ASR) และ การแปลคำพูดเป็นข้อความที่แปลแล้วในหลายภาษา

แนวทางปฏิบัติแนะนำ

ใช้การกำหนดค่าและแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

1. พารามิเตอร์การสุ่มตัวอย่าง

ใช้การกำหนดค่าการสุ่มตัวอย่างที่ได้มาตรฐานต่อไปนี้ในทุกกรณีการใช้งาน

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. การกำหนดค่าโหมดการคิด

โมเดลใช้บทบาท system, assistant และ user มาตรฐานเมื่อเทียบกับ Gemma 3 หากต้องการจัดการกระบวนการคิดอย่างเหมาะสม ให้ใช้โทเค็นควบคุมต่อไปนี้

  • ทริกเกอร์การคิด: การคิดจะเปิดใช้ได้โดยการรวมโทเค็น <|think|> ไว้ที่จุดเริ่มต้นของพรอมต์ของระบบ หากต้องการปิดใช้การคิด ให้นำโทเค็นออก
  • การสร้างมาตรฐาน: เมื่อเปิดใช้การคิด โมเดลจะแสดงผลการให้เหตุผลภายใน ตามด้วยคำตอบสุดท้ายโดยใช้โครงสร้างต่อไปนี้ <|channel>thought\n[การให้เหตุผลภายใน]<channel|>
  • ลักษณะการคิดที่ปิดใช้: สำหรับโมเดลทั้งหมด ยกเว้นโมเดล E2B และ E4B หากปิดใช้การคิด โมเดลจะยังคงสร้างแท็ก แต่มีบล็อกความคิดว่างเปล่า: <|channel>thought\n<channel|>[คำตอบ สุดท้าย]

โปรดทราบว่าไลบรารีจำนวนมาก เช่น Transformers และ llama.cpp จะจัดการความซับซ้อนของเทมเพลตการแชทให้คุณ

3. การสนทนาหลายรอบ

  • ไม่มีเนื้อหาการคิดในประวัติ: ในการสนทนาไปมา เอาต์พุตโมเดลในอดีตควรมีเพียงคำตอบสุดท้ายเท่านั้น ความคิดจากรอบของโมเดลก่อนหน้าต้องไม่เพิ่มก่อนที่รอบของผู้ใช้ถัดไปจะเริ่มขึ้น

4. ลำดับวิธีการ

วางตำแหน่งดังนี้เพื่อให้ได้ประสิทธิภาพสูงสุดเมื่อใช้ข้อมูลหลายรูปแบบ

  • เนื้อหารูปภาพก่อนข้อความในพรอมต์
  • เนื้อหาเสียงหลังจากข้อความในพรอมต์

5. ความละเอียดของรูปภาพที่ปรับเปลี่ยนได้

นอกเหนือจากสัดส่วนภาพที่เปลี่ยนแปลงได้แล้ว Gemma 4 ยังรองรับความละเอียดของรูปภาพที่เปลี่ยนแปลงได้ ผ่านงบประมาณโทเค็นภาพที่กำหนดค่าได้ ซึ่งควบคุมจำนวนโทเค็นที่ ใช้เพื่อแสดงรูปภาพ งบประมาณโทเค็นที่สูงขึ้นจะช่วยรักษา รายละเอียดภาพได้มากขึ้นโดยต้องเสียค่าใช้จ่ายในการคำนวณเพิ่มเติม ในขณะที่งบประมาณที่ต่ำลงจะช่วยให้การอนุมานเร็วขึ้น สำหรับงานที่ไม่จำเป็นต้องมีความเข้าใจแบบละเอียด

  • งบประมาณโทเค็นที่รองรับ ได้แก่ 70, 140, 280, 560 และ 1120
    • ใช้งบประมาณที่ต่ำกว่าสำหรับการจัดประเภท การใส่คำบรรยายแทนเสียง หรือการทำความเข้าใจวิดีโอ ซึ่งการอนุมานที่เร็วขึ้นและการประมวลผลหลายเฟรม มีน้ำหนักมากกว่ารายละเอียดที่ละเอียด
    • ใช้งบประมาณที่สูงขึ้นสำหรับงานต่างๆ เช่น OCR, การแยกวิเคราะห์เอกสาร หรือการอ่านข้อความขนาดเล็ก

6. เสียง

ใช้โครงสร้างพรอมต์ต่อไปนี้สำหรับการประมวลผลเสียง

  • การรู้จำคำพูดจากเสียง (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • การแปลเสียงพูดอัตโนมัติ (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. ความยาวของเสียงและวิดีโอ

ทุกโมเดลรองรับอินพุตรูปภาพและประมวลผลวิดีโอเป็นเฟรมได้ ในขณะที่โมเดล E2B, E4B และ 12B รองรับอินพุตเสียงด้วย เสียงมีความยาวได้สูงสุด 30 วินาที วิดีโอรองรับความยาวสูงสุด 60 วินาที โดยสมมติว่าระบบประมวลผลรูปภาพ ที่ 1 เฟรมต่อวินาที

ข้อมูลโมเดล

ข้อมูลที่ใช้ในการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

ชุดข้อมูลการฝึกเบื้องต้นของเราคือชุดข้อมูลขนาดใหญ่และหลากหลาย ซึ่งครอบคลุมโดเมนและรูปแบบที่หลากหลาย รวมถึงเอกสารบนเว็บ โค้ด รูปภาพ และเสียง โดยมีวันที่สิ้นสุดคือเดือนมกราคม 2025 โดยมี องค์ประกอบสำคัญดังนี้

  • เอกสารบนเว็บ: ข้อความบนเว็บที่หลากหลายช่วยให้โมเดลได้เห็นรูปแบบภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกประกอบด้วยเนื้อหาในกว่า 140 ภาษา
  • โค้ด: การให้โมเดลได้เห็นโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และ รูปแบบของภาษาโปรแกรม ซึ่งจะช่วยปรับปรุงความสามารถในการสร้าง โค้ดและทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
  • คณิตศาสตร์: การฝึกข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การแทนค่าสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
  • รูปภาพ: รูปภาพที่หลากหลายช่วยให้โมเดลสามารถทำงานวิเคราะห์รูปภาพและดึงข้อมูลภาพได้

การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้มีความสำคัญอย่างยิ่งต่อการฝึกโมเดลมัลติโมดัลที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลที่แตกต่างกันได้หลากหลาย

การประมวลผลข้อมูลเบื้องต้น

ต่อไปนี้คือวิธีการทำความสะอาดข้อมูลและกรองข้อมูลที่สำคัญซึ่งใช้กับข้อมูลฝึกฝน

  • การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่ด้วย
  • การกรองข้อมูลที่ละเอียดอ่อน: ในการสร้างโมเดลที่ผ่านการฝึกมาก่อนของ Gemma ให้ปลอดภัยและเชื่อถือได้ เราได้ใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนอื่นๆ บางอย่างออกจากชุดการฝึก
  • วิธีอื่นๆ: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตามนโยบายของเรา

จริยธรรมและความปลอดภัย

เมื่อโมเดลแบบเปิดกลายเป็นหัวใจสำคัญของโครงสร้างพื้นฐานขององค์กร ที่มาและความปลอดภัยจึงเป็นสิ่งสำคัญยิ่ง Gemma 4 พัฒนาโดย Google DeepMind และผ่านการประเมินความปลอดภัยอย่างเข้มงวดเช่นเดียวกับโมเดล Gemini ที่เป็นกรรมสิทธิ์ของเรา

แนวทางการประเมิน

โมเดล Gemma 4 พัฒนาขึ้นโดยความร่วมมือกับทีมความปลอดภัยภายในและทีม AI ที่มีความรับผิดชอบ เราได้ทำการประเมินผลทั้งแบบอัตโนมัติและที่ดำเนินการโดยเจ้าหน้าที่เพื่อช่วยปรับปรุงความปลอดภัยของโมเดล การประเมินเหล่านี้สอดคล้องกับหลักการเกี่ยวกับ AI ของ Google รวมถึงนโยบายด้านความปลอดภัย ซึ่งมีเป้าหมายเพื่อป้องกันไม่ให้โมเดล Generative AI ของเราสร้างเนื้อหาที่เป็นอันตราย ซึ่งรวมถึงเนื้อหาต่อไปนี้

  • เนื้อหาที่เกี่ยวข้องกับสื่อที่มีการล่วงละเมิดทางเพศเด็กและการแสวงหาประโยชน์จากเด็ก
  • เนื้อหาที่เป็นอันตราย (เช่น การส่งเสริมการฆ่าตัวตาย หรือการให้คำแนะนำในกิจกรรม ที่อาจก่อให้เกิดอันตรายในชีวิตจริง)
  • เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง
  • วาจาสร้างความเกลียดชัง (เช่น การลดทอนคุณค่าความเป็นมนุษย์ของสมาชิกในกลุ่มที่ได้รับการคุ้มครอง)
  • การคุกคาม (เช่น การสนับสนุนให้ใช้ความรุนแรงต่อผู้อื่น)

ผลการประเมิน

สำหรับการทดสอบด้านความปลอดภัยทั้งหมด เราเห็นการปรับปรุงที่สำคัญในทุกหมวดหมู่ของความปลอดภัยของเนื้อหาเมื่อเทียบกับโมเดล Gemma ก่อนหน้า โดยรวมแล้ว โมเดล Gemma 4 มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 และ 3n อย่างมากในการปรับปรุงความปลอดภัย ขณะเดียวกันก็ยังคงปฏิเสธที่ไม่สมเหตุสมผลในระดับต่ำ การทดสอบทั้งหมดดำเนินการโดยไม่มีตัวกรองความปลอดภัยเพื่อประเมินความสามารถและลักษณะการทำงานของโมเดล สำหรับทั้งข้อความเป็นข้อความและรูปภาพต่อข้อความ รวมถึงในโมเดลทุกขนาด โมเดลสร้างการละเมิดนโยบายน้อยที่สุด และแสดงให้เห็นถึงการปรับปรุงที่สำคัญเมื่อเทียบกับประสิทธิภาพของโมเดล Gemma ก่อนหน้า

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

การใช้งานที่ตั้งใจไว้

โมเดลแบบหลายมิติ (ประมวลผลภาพ ภาษา และ/หรือเสียงได้) มี การใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการ การใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น จุดประสงค์ของรายการนี้คือ เพื่อให้ข้อมูลตามบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดล พิจารณาเป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล

  • การสร้างและการสื่อสารเนื้อหา
    • การสร้างข้อความ: โมเดลเหล่านี้ใช้เพื่อสร้างข้อความที่สร้างสรรค์ ในรูปแบบต่างๆ เช่น บทกวี สคริปต์ โค้ด ข้อความทางการตลาด และฉบับร่างอีเมล
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับ การบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปที่กระชับของคลังข้อความ เอกสารงานวิจัย หรือรายงาน
    • การแยกข้อมูลรูปภาพ: คุณใช้โมเดลเหล่านี้เพื่อแยก ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารด้วยข้อความได้
    • การประมวลผลและการโต้ตอบด้วยเสียง: โมเดล E2B, E4B และ 12B สามารถวิเคราะห์และตีความอินพุตเสียง ซึ่งช่วยให้โต้ตอบ และถอดเสียงเป็นคำได้ด้วยเสียง
  • การวิจัยและการศึกษา
    • การวิจัยด้านการประมวลผลภาษาธรรมชาติ (NLP) และ VLM: โมเดลเหล่านี้สามารถเป็นพื้นฐานให้นักวิจัยได้ทดลองใช้เทคนิค VLM และ NLP พัฒนาอัลกอริทึม และช่วยส่งเสริมความก้าวหน้าในสาขานี้
    • เครื่องมือการเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยการสร้างข้อมูลสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลฝึกฝนมีอิทธิพลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลฝึกฝนอาจทำให้คำตอบของโมเดลมีข้อจำกัด
    • ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตของเรื่องที่โมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
  • บริบทและความซับซ้อนของงาน
    • โมเดลทำงานได้ดีกับงานที่สามารถกำหนดกรอบด้วยพรอมต์และ คำสั่งที่ชัดเจน งานที่เป็นปลายเปิดหรือมีความซับซ้อนสูงอาจเป็นเรื่องท้าทาย
    • ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากปริมาณบริบท ที่ให้ (โดยทั่วไปแล้ว บริบทที่ยาวขึ้นจะทำให้เอาต์พุตดีขึ้น จนถึง จุดหนึ่ง)
  • ความคลุมเครือและความแตกต่างของภาษา
    • ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ โมเดลอาจเข้าใจ ความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมาได้ยาก
  • ความถูกต้องตามข้อเท็จจริง
    • โมเดลจะสร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่โมเดลไม่ใช่ฐานความรู้ และอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • Common Sense
    • โมเดลอาศัยรูปแบบทางสถิติในภาษา โมเดลอาจขาด ความสามารถในการใช้เหตุผลตามสามัญสำนึกในบางสถานการณ์

ข้อควรพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลวิชันภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความยุติธรรม
    • VLM ที่ได้รับการฝึกด้วยข้อมูลข้อความและรูปภาพในโลกแห่งความเป็นจริงขนาดใหญ่สามารถแสดงถึง อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการฝึก โมเดล Gemma 4 ได้รับการตรวจสอบอย่างละเอียด การประมวลผลข้อมูลอินพุตเบื้องต้น และการประเมินหลังการฝึก ตามที่รายงานในการ์ดนี้เพื่อช่วยลดความเสี่ยงของอคติเหล่านี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการละเมิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้สรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบจะช่วยให้เรามีโอกาสแชร์ นวัตกรรมด้วยการทำให้เทคโนโลยี VLM เข้าถึงได้สำหรับนักพัฒนาซอฟต์แวร์และ นักวิจัยในระบบนิเวศ AI

ความเสี่ยงที่ระบุและการลดความเสี่ยง:

  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ นักพัฒนาแอปควรใช้ความระมัดระวังและใช้มาตรการป้องกันด้านความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาแอปและ ผู้ใช้ปลายทางจะช่วยลดความเสี่ยงจากการใช้ VLM ในแอปพลิเคชันที่เป็นอันตรายได้ เรามีแหล่งข้อมูลด้านการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการใช้ในทางที่ผิด
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกด้วยข้อมูลที่กรองเพื่อนำ ข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
  • การคงอยู่ของอคติ: ขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคการลดอคติ ระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ

ประโยชน์

ในขณะที่เปิดตัว โมเดลตระกูลนี้มีการใช้งานโมเดลวิทัศน์ภาษาแบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน