การ์ดโมเดล Gemma 3

หน้าโมเดล: Gemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google DeepMind

ข้อมูลรุ่น

คําอธิบายสรุปและคําจํากัดความสั้นๆ ของอินพุตและเอาต์พุต

คำอธิบาย

Gemma คือกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่ทันสมัยและน้ำหนักเบาจาก Google ซึ่งสร้างขึ้นจากงานวิจัยและเทคโนโลยีเดียวกับที่ใช้สร้างโมเดล Gemini โมเดล Gemma 3 เป็นโมเดลหลายรูปแบบที่จัดการกับอินพุตข้อความและรูปภาพ รวมถึงสร้างเอาต์พุตข้อความ โดยมีน้ำหนักแบบเปิดสำหรับทั้งตัวแปรที่ฝึกล่วงหน้าและตัวแปรที่ปรับตามคำสั่ง Gemma 3 มีหน้าต่างบริบทขนาดใหญ่ 128 KB รองรับหลายภาษากว่า 140 ภาษา และมีขนาดให้เลือกมากกว่าเวอร์ชันก่อนหน้า โมเดล Gemma 3 เหมาะสําหรับงานการสร้างข้อความและการทําความเข้าใจรูปภาพต่างๆ ซึ่งรวมถึงการตอบคําถาม การสรุป และการหาเหตุผล โมเดลเหล่านี้มีขนาดเล็กเมื่อเทียบกับโมเดลอื่นๆ จึงนำไปใช้งานได้ในสภาพแวดล้อมที่มีทรัพยากรจํากัด เช่น แล็ปท็อป เดสก์ท็อป หรือโครงสร้างพื้นฐานระบบคลาวด์ของคุณเอง ซึ่งช่วยให้ทุกคนเข้าถึงโมเดล AI ล้ำสมัยได้และช่วยส่งเสริมนวัตกรรม

อินพุตและเอาต์พุต

  • อินพุต:

    • สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป
    • รูปภาพที่ได้รับการปรับให้เป็นความละเอียด 896 x 896 และเข้ารหัสเป็นโทเค็น 256 รายการต่อการเข้ารหัส 1 ครั้ง
    • บริบทอินพุตทั้งหมด 128,000 โทเค็นสำหรับขนาด 4,000 ล้าน 12,000 ล้าน และ 27,000 ล้าน และ 32,000 โทเค็นสำหรับขนาด 1,000 ล้าน
  • เอาต์พุต:

    • ข้อความที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำตอบสำหรับคำถาม การวิเคราะห์เนื้อหารูปภาพ หรือสรุปของเอกสาร
    • บริบทเอาต์พุตทั้งหมดสูงสุด 128,000 โทเค็นสำหรับขนาด 4,000 ล้านไบต์ 12,000 ล้านไบต์ และ 27,000 ล้านไบต์ และ 32,000 โทเค็นสำหรับขนาด 1,000 ล้านไบต์ต่อคำขอ โดยหักโทเค็นอินพุตของคำขอ

การอ้างอิง

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

ข้อมูลโมเดล

ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

โมเดลเหล่านี้ได้รับการฝึกจากชุดข้อมูลข้อความซึ่งมีแหล่งที่มาที่หลากหลาย โมเดล 27,000 ล้านได้รับการฝึกด้วยโทเค็น 14 ล้านล้าน โมเดล 12,000 ล้านได้รับการฝึกด้วยโทเค็น 12 ล้านล้าน โมเดล 4,000 ล้านได้รับการฝึกด้วยโทเค็น 4 ล้านล้าน และโมเดล 1,000 ล้านได้รับการฝึกด้วยโทเค็น 2 ล้านล้าน วันที่สิ้นสุดของความรู้สำหรับข้อมูลการฝึกคือเดือนสิงหาคม 2024 องค์ประกอบหลักๆ มีดังนี้

  • เอกสารบนเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้มั่นใจได้ว่าโมเดลจะได้สัมผัสกับรูปแบบ หัวข้อ และคำศัพท์ทางภาษาที่หลากหลาย ชุดข้อมูลการฝึกอบรมมีเนื้อหาในภาษาต่างๆ กว่า 140 ภาษา
  • โค้ด: การแสดงโค้ดต่อโมเดลจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งจะช่วยปรับปรุงความสามารถในการสร้างโค้ดและทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
  • คณิตศาสตร์: การฝึกด้วยข้อความทางคณิตศาสตร์จะช่วยให้โมเดลเรียนรู้การหาเหตุผลเชิงตรรกะ การนำเสนอด้วยสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
  • รูปภาพ: รูปภาพหลากหลายประเภทช่วยให้โมเดลสามารถทํางานวิเคราะห์รูปภาพและดึงข้อมูลภาพ

การรวมแหล่งข้อมูลอันหลากหลายเหล่านี้เป็นสิ่งสําคัญอย่างยิ่งในการฝึกโมเดลมัลติโมดัลที่มีประสิทธิภาพซึ่งจัดการกับงานและรูปแบบข้อมูลที่หลากหลายได้

การเตรียมข้อมูลล่วงหน้า

วิธีการล้างและกรองข้อมูลหลักที่ใช้กับข้อมูลการฝึกมีดังนี้

  • การกรอง CSAM: มีการใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะถูกนำออก
  • การกรองข้อมูลที่มีความละเอียดอ่อน: เราได้ทําให้โมเดลที่ผ่านการฝึกล่วงหน้าของ Gemma ปลอดภัยและเชื่อถือได้โดยใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลอื่นๆ ที่มีความละเอียดอ่อนออกจากชุดข้อมูลการฝึก
  • วิธีเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาให้สอดคล้องกับนโยบายของเรา

ข้อมูลการใช้งาน

รายละเอียดเกี่ยวกับข้อมูลภายในของโมเดล

ฮาร์ดแวร์

Gemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) (TPUv4p, TPUv5p และ TPUv5e) การฝึกโมเดลการมองเห็นและภาษา (VLMS) ต้องใช้ความสามารถในการประมวลผลที่สูง TPU ที่ออกแบบมาเพื่อการดำเนินการกับเมทริกซ์ซึ่งพบได้ทั่วไปในแมชชีนเลิร์นนิงโดยเฉพาะมีข้อดีหลายประการในโดเมนนี้ ดังนี้

  • ประสิทธิภาพ: TPU ออกแบบมาเพื่อรองรับการประมวลผลจำนวนมากที่เกี่ยวข้องกับการฝึก VLM โดยเฉพาะ ซึ่งช่วยเร่งการฝึกได้อย่างมากเมื่อเทียบกับ CPU
  • หน่วยความจํา: TPU มักจะมาพร้อมกับหน่วยความจําที่มีแบนด์วิดท์สูงจํานวนมาก ซึ่งช่วยให้จัดการโมเดลขนาดใหญ่และขนาดกลุ่มระหว่างการฝึกได้ ซึ่งอาจทําให้โมเดลมีคุณภาพดีขึ้น
  • ความสามารถในการปรับขนาด: พ็อด TPU (คลัสเตอร์ TPU ขนาดใหญ่) เป็นโซลูชันที่ปรับขนาดได้เพื่อจัดการกับความซับซ้อนที่เพิ่มขึ้นของโมเดลพื้นฐานขนาดใหญ่ คุณสามารถกระจายการฝึกอบรมไปยังอุปกรณ์ TPU หลายเครื่องเพื่อให้การประมวลผลเร็วขึ้นและมีประสิทธิภาพมากขึ้น
  • คุ้มค่า: ในหลายสถานการณ์ TPU เป็นโซลูชันที่คุ้มค่ากว่าสำหรับการฝึกโมเดลขนาดใหญ่เมื่อเทียบกับโครงสร้างพื้นฐานที่ใช้ CPU โดยเฉพาะเมื่อพิจารณาถึงเวลาและทรัพยากรที่ประหยัดไปเนื่องจากการฝึกที่เร็วขึ้น
  • ข้อดีเหล่านี้สอดคล้องกับความมุ่งมั่นของ Google ในการดำเนินงานอย่างยั่งยืน

ซอฟต์แวร์

การฝึกอบรมนี้ทําโดยใช้ JAX และ ML Pathways

JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อฝึกโมเดลขนาดใหญ่ได้เร็วขึ้นและมีประสิทธิภาพมากขึ้น ML Pathways คือความพยายามล่าสุดของ Google ในการสร้างระบบปัญญาประดิษฐ์ (AI) ที่ทํางานได้หลายอย่าง ซึ่งเหมาะอย่างยิ่งสำหรับโมเดลพื้นฐาน รวมถึงโมเดลภาษาขนาดใหญ่เช่นนี้

JAX และ ML Pathways ใช้ร่วมกันตามที่อธิบายไว้ในเอกสารเกี่ยวกับโมเดลตระกูล Gemini "รูปแบบการเขียนโปรแกรม "ตัวควบคุมเดี่ยว" ของ Jax และ Pathways ช่วยให้กระบวนการ Python เดียวสามารถควบคุมการเรียกใช้การฝึกทั้งหมดได้ ซึ่งทำให้เวิร์กโฟลว์การพัฒนาง่ายขึ้นอย่างมาก"

การประเมิน

เมตริกและผลลัพธ์การประเมินโมเดล

ผลลัพธ์การเปรียบเทียบ

โมเดลเหล่านี้ได้รับการประเมินเทียบกับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ผลการประเมินที่มีเครื่องหมาย IT แสดงถึงโมเดลที่ปรับแต่งตามคำสั่ง ผลการประเมินที่มีเครื่องหมาย PT แสดงถึงโมเดลที่ผ่านการฝึกล่วงหน้า

การให้เหตุผลและข้อเท็จจริง

เปรียบเทียบ n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
GPQA Diamond 0 นัด 19.2 30.8 40.9 42.4
SimpleQA 0 ช็อต 2.2 4.0 6.3 10.0
การยึดเหนี่ยว FACTS - 36.4 70.1 75.8 74.9
BIG-Bench Hard 0 นัด 39.1 72.2 85.7 87.6
BIG-Bench Extra Hard 0 ช็อต 7.2 11.0 16.3 19.3
IFEval 0 ช็อต 80.2 90.2 88.9 90.4
เปรียบเทียบ n-shot Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10 ช็อต 62.3 77.2 84.2 85.6
BoolQ 0 นัด 63.2 72.3 78.8 82.4
PIQA 0 ช็อต 73.8 79.6 81.8 83.3
SocialIQA 0 นัด 48.9 51.9 53.4 54.9
TriviaQA 5 นัด 39.8 65.8 78.2 85.5
คำถามที่เป็นธรรมชาติ 5 นัด 9.48 20.0 31.4 36.1
ARC-c 25 ภาพ 38.4 56.2 68.9 70.6
ARC-e 0 นัด 73.0 82.4 88.3 89.0
WinoGrande 5 นัด 58.2 64.7 74.3 78.8
BIG-Bench Hard ข้อมูลจำนวนน้อย 28.4 50.9 72.6 77.7
DROP 1 ช็อต 42.4 60.1 72.2 77.2

STEM และโค้ด

เปรียบเทียบ n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMLU (Pro) 0 ช็อต 14.7 43.6 60.6 67.5
LiveCodeBench 0 ช็อต 1.9 12.6 24.6 29.7
Bird-SQL (สำหรับนักพัฒนาซอฟต์แวร์) - 6.4 36.3 47.9 54.4
คณิตศาสตร์ 0 นัด 48.0 75.6 83.8 89.0
HiddenMath 0 ช็อต 15.8 43.0 54.5 60.3
MBPP 3 ช็อต 35.2 63.2 73.0 74.4
HumanEval 0 นัด 41.5 71.3 85.4 87.8
Natural2Code 0 นัด 56.0 70.3 80.7 84.5
GSM8K 0 นัด 62.8 89.2 94.4 95.9
เปรียบเทียบ n-shot Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5 นัด 59.6 74.5 78.6
MMLU (Pro COT) 5 นัด 29.2 45.3 52.2
AGIEval 3-5-shot 42.1 57.4 66.2
MATH 4 ช็อต 24.2 43.3 50.0
GSM8K 8 ช็อต 38.4 71.0 82.6
GPQA 5 นัด 15.0 25.4 24.3
MBPP 3 ช็อต 46.0 60.4 65.6
HumanEval 0 นัด 36.0 45.7 48.8

หลายภาษา

เปรียบเทียบ n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
Global-MMLU-Lite 0 นัด 34.2 54.5 69.5 75.1
ECLeKTic 0 นัด 1.4 4.6 10.3 16.7
WMT24++ 0 นัด 35.9 46.8 51.6 53.4
เปรียบเทียบ Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2.04 34.7 64.3 74.3
Global-MMLU-Lite 24.9 57.0 69.4 75.7
WMT24++ (ChrF) 36.7 48.4 53.9 55.7
FloRes 29.5 39.2 46.0 48.8
XQuAD (ทั้งหมด) 43.9 68.0 74.5 76.8
ECLeKTic 4.69 11.0 17.2 24.4
IndicGenBench 41.4 57.2 61.7 63.4

หลายรูปแบบ

เปรียบเทียบ Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMMU (val) 48.8 59.6 64.9
DocVQA 75.8 87.1 86.6
InfoVQA 50.0 64.9 70.6
TextVQA 57.8 67.7 65.1
AI2D 74.8 84.2 84.5
ChartQA 68.8 75.7 78.0
VQAv2 (val) 62.4 71.6 71.0
MathVista (testmini) 50.0 62.9 67.6
เปรียบเทียบ Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72.8 82.3 85.6
InfoVQA (val) 44.1 54.8 59.4
MMMU (pt) 39.2 50.3 56.1
TextVQA (val) 58.9 66.5 68.6
RealWorldQA 45.5 52.2 53.9
ReMI 27.3 38.5 44.8
AI2D 63.2 75.2 79.0
ChartQA 63.6 74.7 76.3
VQAv2 63.9 71.2 72.9
BLINK 38.0 35.9 39.6
OKVQA 51.0 58.7 60.2
TallyQA 42.5 51.8 54.3
SpatialSense VQA 50.9 60.0 59.4
CountBenchQA 26.1 17.8 68.0

จริยธรรมและความปลอดภัย

แนวทางและผลลัพธ์การประเมินด้านจริยธรรมและความปลอดภัย

แนวทางการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบนโยบายเนื้อหาที่เกี่ยวข้องโดยทีมจำลองการโจมตีภายใน ทีมจำลองการโจมตีดำเนินการโดยทีมต่างๆ ซึ่งแต่ละทีมมีเป้าหมายและเมตริกการประเมินของมนุษย์ที่แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินตามหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย ซึ่งรวมถึง

  • ความปลอดภัยของเด็ก: การประเมินพรอมต์การแปลงข้อความเป็นข้อความและรูปภาพเป็นข้อความซึ่งครอบคลุมนโยบายด้านความปลอดภัยของเด็ก รวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก
  • ความปลอดภัยของเนื้อหา: การประเมินพรอมต์การแปลงข้อความเป็นข้อความและรูปภาพเป็นข้อความซึ่งครอบคลุมนโยบายด้านความปลอดภัย เช่น การคุกคาม ความรุนแรงและภาพเลือด และวาจาสร้างความเกลียดชัง
  • อันตรายจากการสื่อถึง: การประเมินพรอมต์การแปลงข้อความเป็นข้อความและรูปภาพเป็นข้อความซึ่งครอบคลุมนโยบายด้านความปลอดภัย รวมถึงอคติ การเหมารวม และการเชื่อมโยงที่เป็นอันตรายหรือไม่ถูกต้อง

นอกจากการประเมินระดับการพัฒนาแล้ว เรายังทำ "การประเมินความเชื่อมั่น" ซึ่งเป็นการประเมินภายในแบบ "ไม่เกี่ยวข้อง" สำหรับการตัดสินใจด้านธรรมาภิบาล โดยเราจะดำเนินการแยกจากทีมพัฒนาโมเดลเพื่อใช้เป็นข้อมูลประกอบการตัดสินใจเกี่ยวกับการเผยแพร่ ระบบจะส่งข้อมูลเชิงลึกระดับสูงกลับไปยังทีมโมเดล แต่ชุดพรอมต์จะเก็บไว้เพื่อไม่ให้มีการปรับให้พอดีมากเกินไปและรักษาความสามารถของผลลัพธ์ในการช่วยในการตัดสินใจ ผลการประเมินการรับรองจะได้รับการรายงานไปยังสภาความรับผิดชอบและความปลอดภัยของเรา ซึ่งเป็นส่วนหนึ่งของการตรวจสอบรุ่น

ผลการประเมิน

สำหรับการทดสอบความปลอดภัยในทุกด้าน เราเห็นการปรับปรุงที่สำคัญในหมวดหมู่ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายจากการนำเสนอเมื่อเทียบกับโมเดล Gemma เวอร์ชันก่อนหน้า การทดสอบทั้งหมดดำเนินการโดยไม่มีตัวกรองความปลอดภัยเพื่อประเมินความสามารถและลักษณะการทํางานของโมเดล ทั้งสำหรับโมเดลเปลี่ยนข้อความเป็นข้อความและเปลี่ยนรูปภาพเป็นข้อความ รวมถึงโมเดลทุกขนาด โมเดลมีการละเมิดนโยบายน้อยมาก และแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพอย่างมากเมื่อเทียบกับโมเดล Gemma เวอร์ชันก่อนหน้าในแง่ของการอนุมานที่ไม่มีมูลความจริง ข้อจำกัดของการประเมินคือมีเฉพาะพรอมต์ภาษาอังกฤษเท่านั้น

การใช้งานและข้อจํากัด

ซึ่งโมเดลเหล่านี้มีข้อจํากัดบางอย่างที่ผู้ใช้ควรทราบ

วัตถุประสงค์การใช้งาน

โมเดลภาษาที่มองเห็นภาพ (VLM) แบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล

  • การสร้างเนื้อหาและการสื่อสาร
    • การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้ในการสร้างข้อความรูปแบบต่างๆ ที่สร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด และเดราฟต์อีเมล
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปที่กระชับของชุดข้อความ เอกสารงานวิจัย หรือรายงาน
    • การสกัดข้อมูลรูปภาพ: โมเดลเหล่านี้สามารถใช้เพื่อดึงข้อมูล ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารด้วยข้อความ
  • การวิจัยและการศึกษา
    • การประมวลผลภาษาธรรมชาติ (NLP) และการวิจัย VLM: โมเดลเหล่านี้ใช้เป็นรากฐานให้ผู้วิจัยได้ทดลองใช้เทคนิค VLM และ NLP, พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขานี้
    • เครื่องมือเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
    • การสํารวจความรู้: ช่วยเหลือนักวิจัยในการสํารวจข้อความจำนวนมากด้วยการสร้างสรุปหรือตอบคําถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก อคติหรือช่องว่างในข้อมูลที่ใช้ฝึกอาจทําให้คำตอบของโมเดลมีข้อจํากัด
    • ขอบเขตของชุดข้อมูลการฝึกจะกําหนดขอบเขตหัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
  • บริบทและความซับซ้อนของงาน
    • โมเดลจะทำงานได้ดีขึ้นกับงานที่ระบุพรอมต์และวิธีการที่ชัดเจน งานแบบปลายเปิดหรือซับซ้อนมากอาจเป็นเรื่องท้าทาย
    • ประสิทธิภาพของโมเดลอาจได้รับอิทธิพลจากปริมาณบริบทที่ระบุ (โดยทั่วไปแล้วบริบทที่ยาวกว่าจะให้ผลลัพธ์ที่ดีกว่า แต่ไม่เกินจุดหนึ่ง)
  • ภาษาที่มีความกำกวมและความซับซ้อน
    • ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ โมเดลอาจเข้าใจความแตกต่างเล็กๆ น้อยๆ การเสียดสี หรือภาษาเชิงอุปมาอุปไมยได้ยาก
  • ความถูกต้องของข้อเท็จจริง
    • โมเดลจะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • Common Sense
    • โมเดลใช้รูปแบบทางสถิติในภาษา บุคคลดังกล่าวอาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์

ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง

การพัฒนาโมเดลการมองเห็นและภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความเป็นธรรม
    • VLM ที่ได้รับการฝึกด้วยข้อมูลข้อความและรูปภาพในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และการประเมินผลในภายหลังที่รายงานในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี VLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้

ความเสี่ยงที่พบและการลดความเสี่ยง

  • การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการเฝ้าติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและนำมาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมมาใช้ตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ VLM ที่เป็นอันตรายได้ มีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการใช้ในทางที่ผิด การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
  • การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

ประโยชน์

ขณะเปิดตัว โมเดลตระกูลนี้จะให้บริการการใช้งานโมเดลภาษาและภาพแบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นสําหรับการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน

เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ พบว่าโมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าทางเลือกอื่นๆ ของโมเดลแบบเปิดที่มีขนาดใกล้เคียงกัน