การ์ดโมเดล Gemma 4

แบนเนอร์ Gemma 4

Hugging Face | GitHub | บล็อกการเปิดตัว | เอกสารประกอบ
สัญญาอนุญาต: Apache 2.0 | ผู้เขียน: Google DeepMind

Gemma เป็นกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่สร้างโดย Google DeepMind โมเดล Gemma 4 เป็นแบบ หลายรูปแบบ ซึ่งรองรับอินพุตข้อความและรูปภาพ (รองรับเสียงในโมเดล E2B, E4B และ 12B) และสร้างเอาต์พุตข้อความ รุ่นนี้มีโมเดลแบบเปิดน้ำหนักทั้งใน รูปแบบที่ผ่านการฝึกมาก่อนและรูปแบบที่ปรับตามคำสั่ง Gemma 4 มีหน้าต่างบริบทที่มีโทเค็นได้สูงสุด 256,000 โทเค็น และยังคงรองรับหลายภาษาในกว่า 140 ภาษา

Gemma 4 มีทั้งสถาปัตยกรรมแบบหนาแน่นและแบบ Mixture-of-Experts (MoE) จึงเหมาะกับงานต่างๆ เช่น การสร้างข้อความ การเขียนโค้ด และการให้เหตุผล โมเดลมี 5 ขนาด ได้แก่ E2B, E4B, 12B, 26B A4B และ 31B ขนาดที่หลากหลายทำให้สามารถใช้งานได้ใน สภาพแวดล้อมต่างๆ ตั้งแต่โทรศัพท์ระดับไฮเอนด์ไปจนถึงแล็ปท็อปและเซิร์ฟเวอร์ ซึ่งเป็นการกระจาย การเข้าถึง AI ที่ล้ำสมัย

Gemma 4 มาพร้อมความสามารถและความก้าวหน้าทางสถาปัตยกรรมที่สำคัญ ดังนี้

  • การให้เหตุผล - โมเดลทั้งหมดในตระกูลนี้ได้รับการออกแบบมาให้เป็นเครื่องมือให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิดที่กำหนดค่าได้

  • ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต - ประมวลผลข้อความ รูปภาพที่มีสัดส่วน การแสดงผลและความละเอียดที่หลากหลาย (ทุกโมเดล), วิดีโอ และเสียง (มีให้ใช้งาน ในโมเดล E2B, E4B และ 12B โดยเฉพาะ)

  • สถาปัตยกรรมที่หลากหลายและมีประสิทธิภาพ - มีตัวแปร Dense และ Mixture-of-Experts (MoE) ขนาดต่างๆ เพื่อการติดตั้งใช้งานที่ปรับขนาดได้

  • เพิ่มประสิทธิภาพสำหรับอุปกรณ์ - โมเดลขนาดเล็กได้รับการออกแบบมาโดยเฉพาะเพื่อ การดำเนินการในเครื่องอย่างมีประสิทธิภาพบนแล็ปท็อปและอุปกรณ์เคลื่อนที่

  • หน้าต่างบริบทที่เพิ่มขึ้น - โมเดลขนาดเล็กมีหน้าต่างบริบท 128,000 รายการ ส่วนโมเดลขนาดกลางรองรับ 256,000 รายการ

  • ความสามารถในการเขียนโค้ดและ Agent ที่ได้รับการปรับปรุง - ปรับปรุงได้อย่างเห็นได้ชัด ในการทดสอบการเขียนโค้ดควบคู่ไปกับการรองรับการเรียกใช้ฟังก์ชันแบบเนทีฟ ซึ่งขับเคลื่อน Agent ที่ทำงานโดยอัตโนมัติที่มีความสามารถสูง

  • การรองรับพรอมต์ของระบบโดยกำเนิด - Gemma 4 เปิดตัวการรองรับบทบาท system โดยกำเนิด ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น

ภาพรวมของโมเดล

โมเดล Gemma 4 ออกแบบมาเพื่อให้ประสิทธิภาพระดับแนวหน้าในแต่ละขนาด โดยมุ่งเป้าไปที่สถานการณ์การใช้งานตั้งแต่ในอุปกรณ์เคลื่อนที่และอุปกรณ์ Edge (E2B, E4B) ไปจนถึง GPU สำหรับผู้บริโภคและเวิร์กสเตชัน (12B, 26B A4B, 31B) โมเดลเหล่านี้เหมาะ สำหรับการให้เหตุผล เวิร์กโฟลว์แบบ Agent การเขียนโค้ด และความเข้าใจแบบ Multimodal

โมเดลใช้กลไกการทำงานแบบผสมที่สลับการทำงานของกลไกการทำงานแบบเลื่อนหน้าต่างในเครื่องกับการทำงานแบบทั่วโลกเต็มรูปแบบ เพื่อให้มั่นใจว่าเลเยอร์สุดท้ายจะเป็นแบบทั่วโลกเสมอ การออกแบบแบบไฮบริดนี้ให้ความเร็วในการประมวลผลและใช้หน่วยความจำน้อย ของโมเดลขนาดเล็กโดยไม่ลดทอนความตระหนักรู้เชิงลึกที่จำเป็น สำหรับงานที่ซับซ้อนและมีบริบทขนาดยาว เพื่อเพิ่มประสิทธิภาพหน่วยความจำสำหรับบริบทที่ยาว เลเยอร์ทั่วโลก มีคีย์และค่าที่รวมกัน และใช้ Proportional RoPE (p-RoPE)

โมเดลแบบหนาแน่น

พร็อพเพอร์ตี้ E2B E4B 12B Unified 31B Dense
พารามิเตอร์ทั้งหมด 2.3 พันล้านพารามิเตอร์ (5.1 พันล้านพารามิเตอร์เมื่อใช้การฝัง) 4.5 พันล้านพารามิเตอร์ (8 พันล้านพารามิเตอร์เมื่อใช้การฝัง) 11.95 พันล้าน 30.7 พันล้าน
เลเยอร์ 35 42 48 60
หน้าต่างเลื่อน 512 โทเค็น 512 โทเค็น 1024 โทเค็น 1024 โทเค็น
ความยาวบริบท 128,000 โทเค็น 128,000 โทเค็น 256,000 โทเค็น 256,000 โทเค็น
ขนาดคำศัพท์ 262K 262K 262K 262K
รูปแบบที่รองรับ ข้อความ, รูปภาพ, เสียง ข้อความ, รูปภาพ, เสียง ข้อความ, รูปภาพ, เสียง ข้อความ รูปภาพ
พารามิเตอร์ของ Vision Encoder ~150 ล้าน ~150 ล้าน - ~550 ล้าน
พารามิเตอร์ของตัวเข้ารหัสเสียง ~300 ล้าน ~300 ล้าน - ไม่มีเสียง

"E" ใน E2B และ E4B ย่อมาจากพารามิเตอร์ "effective" โมเดลขนาดเล็ก ใช้การฝังต่อเลเยอร์ (PLE) เพื่อเพิ่มประสิทธิภาพพารามิเตอร์ในการ การติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับทุกโทเค็น แทนที่จะเพิ่มเลเยอร์หรือพารามิเตอร์ลงในโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นสาเหตุที่จำนวนพารามิเตอร์ที่มีประสิทธิภาพจึงน้อยกว่าจำนวนทั้งหมดมาก

คำว่า "Unified" ใน Gemma 4 12B Unified หมายถึงสถาปัตยกรรมที่ไม่มีตัวเข้ารหัส โมเดล Gemma 4 อื่นๆ ใช้ตัวเข้ารหัสเฉพาะเพื่อประมวลผลข้อมูลหลายรูปแบบก่อน ส่งไปยัง LLM Gemma 4 12B จะตัดตัวเข้ารหัสเหล่านี้ออกไปโดยสิ้นเชิง โดยการฉายแพตช์รูปภาพดิบและรูปคลื่นเสียงลงในพื้นที่ฝังของ LLM โดยตรงผ่านเลเยอร์เชิงเส้นแบบเบา แนวทางแบบรวมนี้หมายความว่า รูปแบบข้อมูลทั้งหมดจะไหลเข้าสู่ Transformer แบบถอดรหัสอย่างเดียว ซึ่งจะช่วยลด เวลาในการตอบสนองแบบมัลติโมดัล และช่วยให้ปรับแต่งโมเดลทั้งหมดได้ในครั้งเดียว

โมเดล Mixture-of-Experts (MoE)

พร็อพเพอร์ตี้ 26B A4B MoE
พารามิเตอร์ทั้งหมด 25.2 พันล้าน
พารามิเตอร์ที่ใช้งานอยู่ 3.8 พันล้าน
เลเยอร์ 30
หน้าต่างเลื่อน 1024 โทเค็น
ความยาวบริบท 256,000 โทเค็น
ขนาดคำศัพท์ 262K
จำนวนผู้เชี่ยวชาญ ใช้งานอยู่ 8 / ทั้งหมด 128 และแชร์ 1
รูปแบบที่รองรับ ข้อความ รูปภาพ
พารามิเตอร์ของ Vision Encoder ~550 ล้าน

"A" ใน 26B A4B ย่อมาจาก "พารามิเตอร์ที่ใช้งานอยู่" ซึ่งตรงข้ามกับจำนวนพารามิเตอร์ทั้งหมดที่โมเดลมี การเปิดใช้งานเฉพาะชุดย่อย 4 พันล้านพารามิเตอร์ในระหว่างการอนุมานทำให้โมเดล Mixture-of-Experts ทำงานได้เร็วกว่าที่พารามิเตอร์ทั้งหมด 26 พันล้านอาจบ่งบอกไว้มาก จึงเป็นตัวเลือกที่ยอดเยี่ยมสำหรับการอนุมานที่รวดเร็วเมื่อเทียบกับโมเดลแบบหนาแน่นขนาด 31 พันล้านพารามิเตอร์ เนื่องจากทำงานได้เร็วเกือบเท่าโมเดลที่มีพารามิเตอร์ 4 พันล้านรายการ

ผลการเปรียบเทียบ

เราประเมินโมเดลเหล่านี้กับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ผลการประเมินที่ทำเครื่องหมาย ในตารางเป็นของโมเดลที่ปรับแต่งตามคำสั่ง

Gemma 4 31B Gemma 4 26B A4B Gemma 4 12B Unified Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (ไม่คิด)
MMLU Pro 85.2% 82.6% 77.2% 69.4% 60.0% 67.6%
AIME 2026 no tools 89.2% 88.3% 77.5% 42.5% 37.5% 20.8%
LiveCodeBench v6 80.0% 77.1% 72.0% 52.0% 44.0% 29.1%
ELO ของ Codeforces 2150 1718 1659 940 633 110
GPQA Diamond 84.3% 82.3% 78.8% 58.6% 43.4% 42.4%
Tau2 (ค่าเฉลี่ยในช่วง 3) 76.9% 68.2% 69.0% 42.2% 24.5% 16.2%
HLE no tools 19.5% 8.7% 5.2% - - -
HLE พร้อมการค้นหา 26.5% 17.2% - - - -
BigBench Extra Hard 74.4% 64.8% 53.0% 33.1% 21.9% 19.3%
MMMLU 88.4% 86.3% 83.4% 76.6% 67.4% 70.7%
การมองเห็น
MMMU Pro 76.9% 73.8% 69.1% 52.6% 44.2% 49.7%
OmniDocBench 1.5 (ระยะการแก้ไขโดยเฉลี่ย ยิ่งต่ำยิ่งดี) 0.131 0.149 0.164 0.181 0.290 0.365
MATH-Vision 85.6% 82.4% 79.7% 59.5% 52.4% 46.0%
MedXPertQA MM 61.3% 58.1% 48.7% 28.7% 23.5% -
เสียง
CoVoST - - 38.5* 35.54 33.47 -
FLEURS (ยิ่งต่ำยิ่งดี) - - 0.069* 0.08 0.09 -
บริบทแบบยาว
MRCR v2 8 needle 128k (ค่าเฉลี่ย) 66.4% 44.1% 43.4% 25.4% 19.1% 13.5%

*ไม่รวมภาษาจีน

ความสามารถหลัก

โมเดล Gemma 4 สามารถจัดการงานได้หลากหลายประเภทในข้อความ ภาพ และเสียง ความสามารถหลักๆ มีดังนี้

  • การคิด - โหมดการให้เหตุผลในตัวที่ช่วยให้โมเดลคิดทีละขั้นตอนก่อนตอบ
  • บริบทแบบยาว - หน้าต่างบริบทที่มีโทเค็นสูงสุด 128,000 โทเค็น (E2B/E4B) และ 256,000 โทเค็น (12B/26B A4B/31B)
  • การทำความเข้าใจรูปภาพ - การตรวจจับออบเจ็กต์ การแยกวิเคราะห์เอกสาร/PDF การทำความเข้าใจหน้าจอและ UI การทำความเข้าใจแผนภูมิ OCR (รวมถึงแบบหลายภาษา) การจดจำลายมือ และการชี้ ระบบประมวลผลรูปภาพได้โดยมี สัดส่วนภาพและความละเอียดที่หลากหลาย
  • การทำความเข้าใจวิดีโอ - วิเคราะห์วิดีโอโดยการประมวลผลลำดับของเฟรม
  • อินพุตหลายรูปแบบแบบสลับ - ผสมข้อความและรูปภาพได้อย่างอิสระในลำดับใดก็ได้ ภายในพรอมต์เดียว
  • การเรียกใช้ฟังก์ชัน - การรองรับการใช้เครื่องมือที่มีโครงสร้างโดยเนทีฟ ซึ่งช่วยให้เวิร์กโฟลว์ของเอเจนต์ทำงานได้
  • การเขียนโค้ด - การสร้าง การเติมให้สมบูรณ์ และการแก้ไขโค้ด
  • รองรับหลายภาษา - รองรับภาษามากกว่า 35 ภาษาทันที และได้รับการฝึกมาล่วงหน้าในภาษามากกว่า 140 ภาษา
  • เสียง (E2B, E4B และ 12B Unified เท่านั้น) - การจดจำคำพูดอัตโนมัติ (ASR) และ การแปลคำพูดเป็นข้อความที่แปลแล้วในหลายภาษา

แนวทางปฏิบัติแนะนำ

ใช้การกำหนดค่าและแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

1. พารามิเตอร์การสุ่มตัวอย่าง

ใช้การกำหนดค่าการสุ่มตัวอย่างที่ได้มาตรฐานต่อไปนี้ในทุกกรณีการใช้งาน

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. การกำหนดค่าโหมดการคิด

โมเดลใช้บทบาท system, assistant และ user มาตรฐานเมื่อเทียบกับ Gemma 3 หากต้องการจัดการกระบวนการคิดอย่างเหมาะสม ให้ใช้โทเค็นควบคุมต่อไปนี้

  • ทริกเกอร์การคิด: การคิดจะเปิดใช้ได้โดยการรวมโทเค็น <|think|> ไว้ที่จุดเริ่มต้นของพรอมต์ของระบบ หากต้องการปิดใช้การคิด ให้นำโทเค็นออก
  • การสร้างมาตรฐาน: เมื่อเปิดใช้การคิด โมเดลจะแสดงผลการให้เหตุผลภายในตามด้วยคำตอบสุดท้ายโดยใช้โครงสร้างต่อไปนี้ <|channel>thought\n[การให้เหตุผลภายใน]<channel|>
  • ลักษณะการคิดที่ปิดใช้: สำหรับโมเดลทั้งหมด ยกเว้นโมเดล E2B และ E4B หากปิดใช้การคิด โมเดลจะยังคงสร้างแท็ก แต่มีบล็อกความคิดว่างเปล่า: <|channel>thought\n<channel|>[คำตอบ สุดท้าย]

โปรดทราบว่าไลบรารีจำนวนมาก เช่น Transformers และ llama.cpp จะจัดการความซับซ้อนของเทมเพลตการแชทให้คุณ

3. การสนทนาหลายรอบ

  • ไม่มีเนื้อหาการคิดในประวัติ: ในการสนทนาไปมา เอาต์พุตโมเดลในอดีตควรมีเพียงคำตอบสุดท้าย ความคิด จากโมเดลรอบก่อนหน้าต้องไม่ถูกเพิ่มก่อนที่รอบของผู้ใช้คนถัดไปจะเริ่ม

4. ลำดับวิธีการ

วางตำแหน่งดังนี้เพื่อให้ได้ประสิทธิภาพสูงสุดเมื่อใช้ข้อมูลหลายรูปแบบ

  • เนื้อหารูปภาพก่อนข้อความในพรอมต์
  • เนื้อหาเสียงหลังจากข้อความในพรอมต์

5. ความละเอียดของรูปภาพที่ปรับเปลี่ยนได้

นอกเหนือจากสัดส่วนภาพที่เปลี่ยนแปลงได้แล้ว Gemma 4 ยังรองรับความละเอียดของรูปภาพที่เปลี่ยนแปลงได้ ผ่านงบประมาณโทเค็นภาพที่กำหนดค่าได้ ซึ่งควบคุมจำนวนโทเค็นที่ ใช้เพื่อแสดงรูปภาพ งบประมาณโทเค็นที่สูงขึ้นจะช่วยรักษา รายละเอียดภาพได้มากขึ้นโดยต้องเสียค่าใช้จ่ายในการคำนวณเพิ่มเติม ในขณะที่งบประมาณที่ต่ำลงจะช่วยให้การอนุมานเร็วขึ้น สำหรับงานที่ไม่จำเป็นต้องมีความเข้าใจแบบละเอียด

  • งบประมาณโทเค็นที่รองรับ ได้แก่ 70, 140, 280, 560 และ 1120
    • ใช้งบประมาณที่ต่ำกว่าสำหรับการจัดประเภท การใส่คำบรรยายแทนเสียง หรือการทำความเข้าใจวิดีโอ ซึ่งการอนุมานที่เร็วขึ้นและการประมวลผลหลายเฟรม มีน้ำหนักมากกว่ารายละเอียดที่ละเอียด
    • ใช้งบประมาณที่สูงขึ้นสำหรับงานต่างๆ เช่น OCR, การแยกวิเคราะห์เอกสาร หรือการอ่านข้อความขนาดเล็ก

6. เสียง

ใช้โครงสร้างพรอมต์ต่อไปนี้สำหรับการประมวลผลเสียง

  • การจดจำคำพูดจากเสียง (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • การแปลเสียงพูดอัตโนมัติ (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. ความยาวของเสียงและวิดีโอ

ทุกโมเดลรองรับอินพุตรูปภาพและประมวลผลวิดีโอเป็นเฟรมได้ ในขณะที่โมเดล E2B, E4B และ 12B รองรับอินพุตเสียงด้วย เสียงมีความยาวได้สูงสุด 30 วินาที วิดีโอรองรับความยาวสูงสุด 60 วินาที โดยสมมติว่าระบบประมวลผลรูปภาพ ที่ 1 เฟรมต่อวินาที

ข้อมูลโมเดล

ข้อมูลที่ใช้ในการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

ชุดข้อมูลการฝึกเบื้องต้นของเราคือชุดข้อมูลขนาดใหญ่ที่หลากหลาย ซึ่งครอบคลุมโดเมนและรูปแบบที่หลากหลาย รวมถึงเอกสารบนเว็บ โค้ด รูปภาพ เสียง โดยมีวันที่สิ้นสุดคือเดือนมกราคม 2025 โดยมี องค์ประกอบสำคัญดังนี้

  • เอกสารบนเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้โมเดลได้เห็นรูปแบบทางภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกประกอบด้วยเนื้อหาในกว่า 140 ภาษา
  • โค้ด: การให้โมเดลได้เห็นโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และ รูปแบบของภาษาโปรแกรม ซึ่งจะช่วยปรับปรุงความสามารถในการสร้าง โค้ดและทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
  • คณิตศาสตร์: การฝึกข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การแทนค่าสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
  • รูปภาพ: รูปภาพที่หลากหลายช่วยให้โมเดลสามารถทำงานวิเคราะห์รูปภาพและดึงข้อมูลภาพได้

การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้มีความสำคัญอย่างยิ่งต่อการฝึกโมเดลมัลติโมดัลที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลที่แตกต่างกันได้หลากหลาย

การประมวลผลข้อมูลเบื้องต้น

ต่อไปนี้คือวิธีการทำความสะอาดข้อมูลและกรองข้อมูลที่สำคัญซึ่งใช้กับข้อมูลฝึกฝน

  • การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่ด้วย
  • การกรองข้อมูลที่ละเอียดอ่อน: ในการสร้างโมเดลที่ผ่านการฝึกมาก่อนของ Gemma ให้ปลอดภัยและเชื่อถือได้ เราได้ใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนอื่นๆ บางอย่างออกจากชุดการฝึก
  • วิธีอื่นๆ: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตามนโยบายของเรา

จริยธรรมและความปลอดภัย

เมื่อโมเดลแบบเปิดกลายเป็นหัวใจสำคัญของโครงสร้างพื้นฐานขององค์กร ที่มาและความปลอดภัยจึงเป็นสิ่งสำคัญยิ่ง Gemma 4 พัฒนาโดย Google DeepMind และผ่านการประเมินความปลอดภัยอย่างเข้มงวดเช่นเดียวกับโมเดล Gemini ที่เป็นกรรมสิทธิ์ของเรา

แนวทางการประเมิน

โมเดล Gemma 4 พัฒนาขึ้นโดยความร่วมมือกับทีมความปลอดภัยภายในและทีม AI ที่มีความรับผิดชอบ เราได้ทำการประเมินทั้งแบบอัตโนมัติและที่ดำเนินการโดยเจ้าหน้าที่เพื่อช่วยปรับปรุงความปลอดภัยของโมเดล การประเมินเหล่านี้สอดคล้องกับหลักการเกี่ยวกับ AI ของ Google รวมถึงนโยบายด้านความปลอดภัย ซึ่งมีเป้าหมายเพื่อป้องกันไม่ให้โมเดล Generative AI ของเราสร้างเนื้อหาที่เป็นอันตราย ซึ่งรวมถึงเนื้อหาต่อไปนี้

  • เนื้อหาที่เกี่ยวข้องกับสื่อที่มีการล่วงละเมิดทางเพศเด็กและการแสวงหาประโยชน์จากเด็ก
  • เนื้อหาที่เป็นอันตราย (เช่น การส่งเสริมการฆ่าตัวตาย หรือการให้คำแนะนำในกิจกรรม ที่อาจก่อให้เกิดอันตรายในชีวิตจริง)
  • เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง
  • วาจาสร้างความเกลียดชัง (เช่น การลดทอนคุณค่าความเป็นมนุษย์ของสมาชิกในกลุ่มที่ได้รับการคุ้มครอง)
  • การคุกคาม (เช่น การสนับสนุนให้ใช้ความรุนแรงต่อผู้อื่น)

ผลการประเมิน

สำหรับการทดสอบด้านความปลอดภัยทั้งหมด เราเห็นการปรับปรุงที่สำคัญในทุกหมวดหมู่ของ ความปลอดภัยของเนื้อหาเมื่อเทียบกับโมเดล Gemma ก่อนหน้า โดยรวมแล้ว โมเดล Gemma 4 มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 และ 3n อย่างมากในการปรับปรุงความปลอดภัย ขณะเดียวกันก็ ยังคงปฏิเสธที่ไม่สมเหตุสมผลในระดับต่ำ การทดสอบทั้งหมดดำเนินการโดยไม่มีตัวกรองความปลอดภัย เพื่อประเมินความสามารถและลักษณะการทำงานของโมเดล ทั้งสำหรับข้อความเป็นข้อความ และรูปภาพต่อข้อความ รวมถึงในโมเดลทุกขนาด โมเดลนี้ละเมิดนโยบายน้อยมาก และแสดงให้เห็นถึงประสิทธิภาพที่ปรับปรุงขึ้นอย่างมากเมื่อเทียบกับโมเดล Gemma รุ่นก่อนหน้า

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

การใช้งานที่ตั้งใจไว้

โมเดลหลายรูปแบบ (ประมวลผลภาพ ภาษา และ/หรือเสียงได้) มี การใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น จุดประสงค์ของรายการนี้คือการ ให้ข้อมูลตามบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ที่ผู้สร้างโมเดล พิจารณาเป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล

  • การสร้างและการสื่อสารเนื้อหา
    • การสร้างข้อความ: โมเดลเหล่านี้ใช้เพื่อสร้างข้อความที่สร้างสรรค์ ในรูปแบบต่างๆ เช่น บทกวี สคริปต์ โค้ด ข้อความทางการตลาด และฉบับร่างอีเมล
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับ การบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปที่กระชับของคลังข้อความ เอกสารงานวิจัย หรือรายงาน
    • การแยกข้อมูลรูปภาพ: คุณใช้โมเดลเหล่านี้เพื่อแยก ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารด้วยข้อความได้
    • การประมวลผลและการโต้ตอบด้วยเสียง: โมเดล E2B, E4B และ 12B สามารถวิเคราะห์และตีความอินพุตเสียง ซึ่งช่วยให้โต้ตอบ และถอดเสียงเป็นคำได้ด้วยเสียง
  • การวิจัยและการศึกษา
    • การวิจัยด้านการประมวลผลภาษาธรรมชาติ (NLP) และ VLM: โมเดลเหล่านี้สามารถเป็นพื้นฐานให้นักวิจัยได้ทดลองใช้เทคนิค VLM และ NLP พัฒนาอัลกอริทึม และช่วยส่งเสริมความก้าวหน้าในสาขานี้
    • เครื่องมือการเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยการสร้างข้อมูลสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลฝึกฝนมีผลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลฝึกฝนอาจทำให้คำตอบของโมเดลมีข้อจำกัด
    • ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตของเรื่องที่โมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
  • บริบทและความซับซ้อนของงาน
    • โมเดลทำงานได้ดีกับงานที่สามารถจัดกรอบด้วยพรอมต์และคำสั่งที่ชัดเจน งานที่เป็นปลายเปิดหรือมีความซับซ้อนสูงอาจเป็นเรื่องท้าทาย
    • ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากปริมาณบริบท ที่ให้ (โดยทั่วไปแล้ว บริบทที่ยาวขึ้นจะทำให้เอาต์พุตดีขึ้น จนถึง จุดหนึ่ง)
  • ความคลุมเครือและความแตกต่างของภาษา
    • ภาษาธรรมชาติมีความซับซ้อนโดยธรรมชาติ โมเดลอาจเข้าใจความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมาได้ยาก
  • ความถูกต้องตามข้อเท็จจริง
    • โมเดลจะสร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ ซึ่งอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • Common Sense
    • โมเดลอาศัยรูปแบบทางสถิติในภาษา โดยอาจขาดความสามารถในการใช้เหตุผลตามสามัญสำนึกในบางสถานการณ์

ข้อควรพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลวิชันภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความยุติธรรม
    • VLM ที่ได้รับการฝึกด้วยข้อมูลข้อความและรูปภาพในโลกแห่งความเป็นจริงขนาดใหญ่สามารถแสดงถึง อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการฝึก โมเดล Gemma 4 ได้รับการตรวจสอบอย่างละเอียด การประมวลผลข้อมูลอินพุตเบื้องต้น และการประเมินหลังการฝึก ตามที่รายงานในการ์ดนี้เพื่อช่วยลดความเสี่ยงของอคติเหล่านี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการละเมิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้สรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบจะช่วยให้เรามีโอกาสแชร์ นวัตกรรมด้วยการทำให้เทคโนโลยี VLM เข้าถึงได้สำหรับนักพัฒนาซอฟต์แวร์และ นักวิจัยทั่วทั้งระบบนิเวศ AI

ความเสี่ยงที่ระบุและการลดความเสี่ยง:

  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและ ใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยลดการใช้ VLM ในแอปพลิเคชันที่เป็นอันตรายได้ เรามีแหล่งข้อมูลด้านการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการละเมิด
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกด้วยข้อมูลที่กรองเพื่อนำ ข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
  • การคงอยู่ของอคติ: ขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคการลดอคติ ระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ

ประโยชน์

ในขณะที่เปิดตัว โมเดลตระกูลนี้จะมีการใช้งานโมเดลภาษาที่มองเห็นได้แบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน