หน้าโมเดล: Gemma
แหล่งข้อมูลและเอกสารทางเทคนิค
- รายงานทางเทคนิคของ Gemma 3
- ชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
- Gemma ใน Kaggle
- Gemma ใน Vertex Model Garden
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google DeepMind
ข้อมูลรุ่น
คําอธิบายสรุปและคําจํากัดความสั้นๆ ของอินพุตและเอาต์พุต
คำอธิบาย
Gemma คือกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่ทันสมัยและน้ำหนักเบาจาก Google ซึ่งสร้างขึ้นจากงานวิจัยและเทคโนโลยีเดียวกับที่ใช้สร้างโมเดล Gemini โมเดล Gemma 3 เป็นโมเดลหลายรูปแบบที่จัดการกับอินพุตข้อความและรูปภาพ รวมถึงสร้างเอาต์พุตข้อความ โดยมีน้ำหนักแบบเปิดสำหรับทั้งตัวแปรที่ฝึกล่วงหน้าและตัวแปรที่ปรับตามคำสั่ง Gemma 3 มีหน้าต่างบริบทขนาดใหญ่ 128 KB รองรับหลายภาษากว่า 140 ภาษา และมีขนาดให้เลือกมากกว่าเวอร์ชันก่อนหน้า โมเดล Gemma 3 เหมาะสําหรับงานการสร้างข้อความและการทําความเข้าใจรูปภาพต่างๆ ซึ่งรวมถึงการตอบคําถาม การสรุป และการหาเหตุผล โมเดลเหล่านี้มีขนาดเล็กเมื่อเทียบกับโมเดลอื่นๆ จึงนำไปใช้งานได้ในสภาพแวดล้อมที่มีทรัพยากรจํากัด เช่น แล็ปท็อป เดสก์ท็อป หรือโครงสร้างพื้นฐานระบบคลาวด์ของคุณเอง ซึ่งช่วยให้ทุกคนเข้าถึงโมเดล AI ล้ำสมัยได้และช่วยส่งเสริมนวัตกรรม
อินพุตและเอาต์พุต
อินพุต:
- สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป
- รูปภาพที่ได้รับการปรับให้เป็นความละเอียด 896 x 896 และเข้ารหัสเป็นโทเค็น 256 รายการต่อการเข้ารหัส 1 ครั้ง
- บริบทอินพุตทั้งหมด 128,000 โทเค็นสำหรับขนาด 4,000 ล้าน 12,000 ล้าน และ 27,000 ล้าน และ 32,000 โทเค็นสำหรับขนาด 1,000 ล้าน
เอาต์พุต:
- ข้อความที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำตอบสำหรับคำถาม การวิเคราะห์เนื้อหารูปภาพ หรือสรุปของเอกสาร
- บริบทเอาต์พุตทั้งหมดสูงสุด 128,000 โทเค็นสำหรับขนาด 4,000 ล้านไบต์ 12,000 ล้านไบต์ และ 27,000 ล้านไบต์ และ 32,000 โทเค็นสำหรับขนาด 1,000 ล้านไบต์ต่อคำขอ โดยหักโทเค็นอินพุตของคำขอ
การอ้างอิง
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
ข้อมูลโมเดล
ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีประมวลผลข้อมูล
ชุดข้อมูลการฝึก
โมเดลเหล่านี้ได้รับการฝึกจากชุดข้อมูลข้อความซึ่งมีแหล่งที่มาที่หลากหลาย โมเดล 27,000 ล้านได้รับการฝึกด้วยโทเค็น 14 ล้านล้าน โมเดล 12,000 ล้านได้รับการฝึกด้วยโทเค็น 12 ล้านล้าน โมเดล 4,000 ล้านได้รับการฝึกด้วยโทเค็น 4 ล้านล้าน และโมเดล 1,000 ล้านได้รับการฝึกด้วยโทเค็น 2 ล้านล้าน วันที่สิ้นสุดของความรู้สำหรับข้อมูลการฝึกคือเดือนสิงหาคม 2024 องค์ประกอบหลักๆ มีดังนี้
- เอกสารบนเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้มั่นใจได้ว่าโมเดลจะได้สัมผัสกับรูปแบบ หัวข้อ และคำศัพท์ทางภาษาที่หลากหลาย ชุดข้อมูลการฝึกอบรมมีเนื้อหาในภาษาต่างๆ กว่า 140 ภาษา
- โค้ด: การแสดงโค้ดต่อโมเดลจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งจะช่วยปรับปรุงความสามารถในการสร้างโค้ดและทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
- คณิตศาสตร์: การฝึกด้วยข้อความทางคณิตศาสตร์จะช่วยให้โมเดลเรียนรู้การหาเหตุผลเชิงตรรกะ การนำเสนอด้วยสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
- รูปภาพ: รูปภาพหลากหลายประเภทช่วยให้โมเดลสามารถทํางานวิเคราะห์รูปภาพและดึงข้อมูลภาพ
การรวมแหล่งข้อมูลอันหลากหลายเหล่านี้เป็นสิ่งสําคัญอย่างยิ่งในการฝึกโมเดลมัลติโมดัลที่มีประสิทธิภาพซึ่งจัดการกับงานและรูปแบบข้อมูลที่หลากหลายได้
การเตรียมข้อมูลล่วงหน้า
วิธีการล้างและกรองข้อมูลหลักที่ใช้กับข้อมูลการฝึกมีดังนี้
- การกรอง CSAM: มีการใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะถูกนำออก
- การกรองข้อมูลที่มีความละเอียดอ่อน: เราได้ทําให้โมเดลที่ผ่านการฝึกล่วงหน้าของ Gemma ปลอดภัยและเชื่อถือได้โดยใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลอื่นๆ ที่มีความละเอียดอ่อนออกจากชุดข้อมูลการฝึก
- วิธีเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาให้สอดคล้องกับนโยบายของเรา
ข้อมูลการใช้งาน
รายละเอียดเกี่ยวกับข้อมูลภายในของโมเดล
ฮาร์ดแวร์
Gemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) (TPUv4p, TPUv5p และ TPUv5e) การฝึกโมเดลการมองเห็นและภาษา (VLMS) ต้องใช้ความสามารถในการประมวลผลที่สูง TPU ที่ออกแบบมาเพื่อการดำเนินการกับเมทริกซ์ซึ่งพบได้ทั่วไปในแมชชีนเลิร์นนิงโดยเฉพาะมีข้อดีหลายประการในโดเมนนี้ ดังนี้
- ประสิทธิภาพ: TPU ออกแบบมาเพื่อรองรับการประมวลผลจำนวนมากที่เกี่ยวข้องกับการฝึก VLM โดยเฉพาะ ซึ่งช่วยเร่งการฝึกได้อย่างมากเมื่อเทียบกับ CPU
- หน่วยความจํา: TPU มักจะมาพร้อมกับหน่วยความจําที่มีแบนด์วิดท์สูงจํานวนมาก ซึ่งช่วยให้จัดการโมเดลขนาดใหญ่และขนาดกลุ่มระหว่างการฝึกได้ ซึ่งอาจทําให้โมเดลมีคุณภาพดีขึ้น
- ความสามารถในการปรับขนาด: พ็อด TPU (คลัสเตอร์ TPU ขนาดใหญ่) เป็นโซลูชันที่ปรับขนาดได้เพื่อจัดการกับความซับซ้อนที่เพิ่มขึ้นของโมเดลพื้นฐานขนาดใหญ่ คุณสามารถกระจายการฝึกอบรมไปยังอุปกรณ์ TPU หลายเครื่องเพื่อให้การประมวลผลเร็วขึ้นและมีประสิทธิภาพมากขึ้น
- คุ้มค่า: ในหลายสถานการณ์ TPU เป็นโซลูชันที่คุ้มค่ากว่าสำหรับการฝึกโมเดลขนาดใหญ่เมื่อเทียบกับโครงสร้างพื้นฐานที่ใช้ CPU โดยเฉพาะเมื่อพิจารณาถึงเวลาและทรัพยากรที่ประหยัดไปเนื่องจากการฝึกที่เร็วขึ้น
- ข้อดีเหล่านี้สอดคล้องกับความมุ่งมั่นของ Google ในการดำเนินงานอย่างยั่งยืน
ซอฟต์แวร์
การฝึกอบรมนี้ทําโดยใช้ JAX และ ML Pathways
JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อฝึกโมเดลขนาดใหญ่ได้เร็วขึ้นและมีประสิทธิภาพมากขึ้น ML Pathways คือความพยายามล่าสุดของ Google ในการสร้างระบบปัญญาประดิษฐ์ (AI) ที่ทํางานได้หลายอย่าง ซึ่งเหมาะอย่างยิ่งสำหรับโมเดลพื้นฐาน รวมถึงโมเดลภาษาขนาดใหญ่เช่นนี้
JAX และ ML Pathways ใช้ร่วมกันตามที่อธิบายไว้ในเอกสารเกี่ยวกับโมเดลตระกูล Gemini "รูปแบบการเขียนโปรแกรม "ตัวควบคุมเดี่ยว" ของ Jax และ Pathways ช่วยให้กระบวนการ Python เดียวสามารถควบคุมการเรียกใช้การฝึกทั้งหมดได้ ซึ่งทำให้เวิร์กโฟลว์การพัฒนาง่ายขึ้นอย่างมาก"
การประเมิน
เมตริกและผลลัพธ์การประเมินโมเดล
ผลลัพธ์การเปรียบเทียบ
โมเดลเหล่านี้ได้รับการประเมินเทียบกับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ผลการประเมินที่มีเครื่องหมาย IT แสดงถึงโมเดลที่ปรับแต่งตามคำสั่ง ผลการประเมินที่มีเครื่องหมาย PT แสดงถึงโมเดลที่ผ่านการฝึกล่วงหน้า
การให้เหตุผลและข้อเท็จจริง
เปรียบเทียบ | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
GPQA Diamond | 0 นัด | 19.2 | 30.8 | 40.9 | 42.4 |
SimpleQA | 0 ช็อต | 2.2 | 4.0 | 6.3 | 10.0 |
การยึดเหนี่ยว FACTS | - | 36.4 | 70.1 | 75.8 | 74.9 |
BIG-Bench Hard | 0 นัด | 39.1 | 72.2 | 85.7 | 87.6 |
BIG-Bench Extra Hard | 0 ช็อต | 7.2 | 11.0 | 16.3 | 19.3 |
IFEval | 0 ช็อต | 80.2 | 90.2 | 88.9 | 90.4 |
เปรียบเทียบ | n-shot | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10 ช็อต | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0 นัด | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0 ช็อต | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0 นัด | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5 นัด | 39.8 | 65.8 | 78.2 | 85.5 |
คำถามที่เป็นธรรมชาติ | 5 นัด | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25 ภาพ | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0 นัด | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5 นัด | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | ข้อมูลจำนวนน้อย | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1 ช็อต | 42.4 | 60.1 | 72.2 | 77.2 |
STEM และโค้ด
เปรียบเทียบ | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU (Pro) | 0 ช็อต | 14.7 | 43.6 | 60.6 | 67.5 |
LiveCodeBench | 0 ช็อต | 1.9 | 12.6 | 24.6 | 29.7 |
Bird-SQL (สำหรับนักพัฒนาซอฟต์แวร์) | - | 6.4 | 36.3 | 47.9 | 54.4 |
คณิตศาสตร์ | 0 นัด | 48.0 | 75.6 | 83.8 | 89.0 |
HiddenMath | 0 ช็อต | 15.8 | 43.0 | 54.5 | 60.3 |
MBPP | 3 ช็อต | 35.2 | 63.2 | 73.0 | 74.4 |
HumanEval | 0 นัด | 41.5 | 71.3 | 85.4 | 87.8 |
Natural2Code | 0 นัด | 56.0 | 70.3 | 80.7 | 84.5 |
GSM8K | 0 นัด | 62.8 | 89.2 | 94.4 | 95.9 |
เปรียบเทียบ | n-shot | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5 นัด | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5 นัด | 29.2 | 45.3 | 52.2 |
AGIEval | 3-5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4 ช็อต | 24.2 | 43.3 | 50.0 |
GSM8K | 8 ช็อต | 38.4 | 71.0 | 82.6 |
GPQA | 5 นัด | 15.0 | 25.4 | 24.3 |
MBPP | 3 ช็อต | 46.0 | 60.4 | 65.6 |
HumanEval | 0 นัด | 36.0 | 45.7 | 48.8 |
หลายภาษา
เปรียบเทียบ | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Global-MMLU-Lite | 0 นัด | 34.2 | 54.5 | 69.5 | 75.1 |
ECLeKTic | 0 นัด | 1.4 | 4.6 | 10.3 | 16.7 |
WMT24++ | 0 นัด | 35.9 | 46.8 | 51.6 | 53.4 |
เปรียบเทียบ | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (ทั้งหมด) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
หลายรูปแบบ
เปรียบเทียบ | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU (val) | 48.8 | 59.6 | 64.9 |
DocVQA | 75.8 | 87.1 | 86.6 |
InfoVQA | 50.0 | 64.9 | 70.6 |
TextVQA | 57.8 | 67.7 | 65.1 |
AI2D | 74.8 | 84.2 | 84.5 |
ChartQA | 68.8 | 75.7 | 78.0 |
VQAv2 (val) | 62.4 | 71.6 | 71.0 |
MathVista (testmini) | 50.0 | 62.9 | 67.6 |
เปรียบเทียบ | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
จริยธรรมและความปลอดภัย
แนวทางและผลลัพธ์การประเมินด้านจริยธรรมและความปลอดภัย
แนวทางการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบนโยบายเนื้อหาที่เกี่ยวข้องโดยทีมจำลองการโจมตีภายใน ทีมจำลองการโจมตีดำเนินการโดยทีมต่างๆ ซึ่งแต่ละทีมมีเป้าหมายและเมตริกการประเมินของมนุษย์ที่แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินตามหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย ซึ่งรวมถึง
- ความปลอดภัยของเด็ก: การประเมินพรอมต์การแปลงข้อความเป็นข้อความและรูปภาพเป็นข้อความซึ่งครอบคลุมนโยบายด้านความปลอดภัยของเด็ก รวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก
- ความปลอดภัยของเนื้อหา: การประเมินพรอมต์การแปลงข้อความเป็นข้อความและรูปภาพเป็นข้อความซึ่งครอบคลุมนโยบายด้านความปลอดภัย เช่น การคุกคาม ความรุนแรงและภาพเลือด และวาจาสร้างความเกลียดชัง
- อันตรายจากการสื่อถึง: การประเมินพรอมต์การแปลงข้อความเป็นข้อความและรูปภาพเป็นข้อความซึ่งครอบคลุมนโยบายด้านความปลอดภัย รวมถึงอคติ การเหมารวม และการเชื่อมโยงที่เป็นอันตรายหรือไม่ถูกต้อง
นอกจากการประเมินระดับการพัฒนาแล้ว เรายังทำ "การประเมินความเชื่อมั่น" ซึ่งเป็นการประเมินภายในแบบ "ไม่เกี่ยวข้อง" สำหรับการตัดสินใจด้านธรรมาภิบาล โดยเราจะดำเนินการแยกจากทีมพัฒนาโมเดลเพื่อใช้เป็นข้อมูลประกอบการตัดสินใจเกี่ยวกับการเผยแพร่ ระบบจะส่งข้อมูลเชิงลึกระดับสูงกลับไปยังทีมโมเดล แต่ชุดพรอมต์จะเก็บไว้เพื่อไม่ให้มีการปรับให้พอดีมากเกินไปและรักษาความสามารถของผลลัพธ์ในการช่วยในการตัดสินใจ ผลการประเมินการรับรองจะได้รับการรายงานไปยังสภาความรับผิดชอบและความปลอดภัยของเรา ซึ่งเป็นส่วนหนึ่งของการตรวจสอบรุ่น
ผลการประเมิน
สำหรับการทดสอบความปลอดภัยในทุกด้าน เราเห็นการปรับปรุงที่สำคัญในหมวดหมู่ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา และอันตรายจากการนำเสนอเมื่อเทียบกับโมเดล Gemma เวอร์ชันก่อนหน้า การทดสอบทั้งหมดดำเนินการโดยไม่มีตัวกรองความปลอดภัยเพื่อประเมินความสามารถและลักษณะการทํางานของโมเดล ทั้งสำหรับโมเดลเปลี่ยนข้อความเป็นข้อความและเปลี่ยนรูปภาพเป็นข้อความ รวมถึงโมเดลทุกขนาด โมเดลมีการละเมิดนโยบายน้อยมาก และแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพอย่างมากเมื่อเทียบกับโมเดล Gemma เวอร์ชันก่อนหน้าในแง่ของการอนุมานที่ไม่มีมูลความจริง ข้อจำกัดของการประเมินคือมีเฉพาะพรอมต์ภาษาอังกฤษเท่านั้น
การใช้งานและข้อจํากัด
ซึ่งโมเดลเหล่านี้มีข้อจํากัดบางอย่างที่ผู้ใช้ควรทราบ
วัตถุประสงค์การใช้งาน
โมเดลภาษาที่มองเห็นภาพ (VLM) แบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล
- การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้ในการสร้างข้อความรูปแบบต่างๆ ที่สร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด และเดราฟต์อีเมล
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของชุดข้อความ เอกสารงานวิจัย หรือรายงาน
- การสกัดข้อมูลรูปภาพ: โมเดลเหล่านี้สามารถใช้เพื่อดึงข้อมูล ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารด้วยข้อความ
- การวิจัยและการศึกษา
- การประมวลผลภาษาธรรมชาติ (NLP) และการวิจัย VLM: โมเดลเหล่านี้ใช้เป็นรากฐานให้ผู้วิจัยได้ทดลองใช้เทคนิค VLM และ NLP, พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขานี้
- เครื่องมือเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
- การสํารวจความรู้: ช่วยเหลือนักวิจัยในการสํารวจข้อความจำนวนมากด้วยการสร้างสรุปหรือตอบคําถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง
ข้อจำกัด
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก อคติหรือช่องว่างในข้อมูลที่ใช้ฝึกอาจทําให้คำตอบของโมเดลมีข้อจํากัด
- ขอบเขตของชุดข้อมูลการฝึกจะกําหนดขอบเขตหัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
- บริบทและความซับซ้อนของงาน
- โมเดลจะทำงานได้ดีขึ้นกับงานที่ระบุพรอมต์และวิธีการที่ชัดเจน งานแบบปลายเปิดหรือซับซ้อนมากอาจเป็นเรื่องท้าทาย
- ประสิทธิภาพของโมเดลอาจได้รับอิทธิพลจากปริมาณบริบทที่ระบุ (โดยทั่วไปแล้วบริบทที่ยาวกว่าจะให้ผลลัพธ์ที่ดีกว่า แต่ไม่เกินจุดหนึ่ง)
- ภาษาที่มีความกำกวมและความซับซ้อน
- ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ โมเดลอาจเข้าใจความแตกต่างเล็กๆ น้อยๆ การเสียดสี หรือภาษาเชิงอุปมาอุปไมยได้ยาก
- ความถูกต้องของข้อเท็จจริง
- โมเดลจะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- Common Sense
- โมเดลใช้รูปแบบทางสถิติในภาษา บุคคลดังกล่าวอาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์
ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง
การพัฒนาโมเดลการมองเห็นและภาษา (VLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความเป็นธรรม
- VLM ที่ได้รับการฝึกด้วยข้อมูลข้อความและรูปภาพในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และการประเมินผลในภายหลังที่รายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- VLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- โปรดดูหลักเกณฑ์สำหรับการใช้โมเดลอย่างมีความรับผิดชอบที่ชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี VLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้
ความเสี่ยงที่พบและการลดความเสี่ยง
- การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการเฝ้าติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและนำมาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมมาใช้ตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ VLM ที่เป็นอันตรายได้ มีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการใช้ในทางที่ผิด การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
- การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
ประโยชน์
ขณะเปิดตัว โมเดลตระกูลนี้จะให้บริการการใช้งานโมเดลภาษาและภาพแบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นสําหรับการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน
เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ พบว่าโมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าทางเลือกอื่นๆ ของโมเดลแบบเปิดที่มีขนาดใกล้เคียงกัน