หน้าโมเดล: Gemma
แหล่งข้อมูลและเอกสารทางเทคนิค
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
คําอธิบายสรุปและคําจํากัดความสั้นๆ ของอินพุตและเอาต์พุต
คำอธิบาย
Gemma เป็นกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่ทันสมัยและน้ำหนักเบาจาก Google ซึ่งสร้างขึ้นจากงานวิจัยและเทคโนโลยีเดียวกับที่ใช้สร้างโมเดล Gemini โดยเป็นโมเดลภาษาขนาดใหญ่แบบถอดรหัสเท่านั้นที่แปลงจากข้อความเป็นข้อความ มีให้บริการเป็นภาษาอังกฤษ โดยมีน้ำหนักแบบเปิด ตัวแปรที่ฝึกล่วงหน้า และตัวแปรที่ปรับตามคำสั่ง โมเดล Gemma เหมาะสําหรับงานการสร้างข้อความที่หลากหลาย ซึ่งรวมถึงการตอบคําถาม การสรุป และการหาเหตุผล โมเดลเหล่านี้มีขนาดเล็กเมื่อเทียบกับโมเดลอื่นๆ จึงนำไปใช้งานได้ในสภาพแวดล้อมที่มีทรัพยากรจํากัด เช่น แล็ปท็อป เดสก์ท็อป หรือโครงสร้างพื้นฐานระบบคลาวด์ของคุณเอง ซึ่งช่วยให้ทุกคนเข้าถึงโมเดล AI ล้ำสมัยได้ และช่วยส่งเสริมนวัตกรรมสำหรับทุกคน
อินพุตและเอาต์พุต
- อินพุต: สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป
- เอาต์พุต: ข้อความภาษาอังกฤษที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำตอบสำหรับคำถาม หรือสรุปของเอกสาร
การอ้างอิง
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
ข้อมูลโมเดล
ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีประมวลผลข้อมูล
ชุดข้อมูลการฝึก
โมเดลเหล่านี้ได้รับการฝึกจากชุดข้อมูลข้อความซึ่งมีแหล่งที่มาที่หลากหลาย โดยมีโทเค็นทั้งหมด 6 ล้านล้านรายการ องค์ประกอบหลักๆ มีดังนี้
- เอกสารบนเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้มั่นใจได้ว่าโมเดลจะได้เห็นรูปแบบ หัวข้อ และคำศัพท์ทางภาษาที่หลากหลาย เนื้อหาภาษาอังกฤษเป็นหลัก
- โค้ด: การแสดงโค้ดต่อโมเดลจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งจะช่วยเพิ่มความสามารถในการสร้างโค้ดหรือทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
- คณิตศาสตร์: การฝึกกับข้อความทางคณิตศาสตร์จะช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การนำเสนอด้วยสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
การรวมแหล่งข้อมูลอันหลากหลายเหล่านี้เป็นสิ่งสําคัญในการฝึกโมเดลภาษาที่มีประสิทธิภาพซึ่งจัดการกับงานและรูปแบบข้อความที่หลากหลายได้
การเตรียมข้อมูลล่วงหน้า
วิธีการล้างและกรองข้อมูลหลักที่ใช้กับข้อมูลการฝึกมีดังนี้
- การกรอง CSAM: มีการใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะถูกนำออก
- การกรองข้อมูลที่ละเอียดอ่อน: เราได้ทําให้โมเดลที่ฝึกล่วงหน้าของ Gemma ปลอดภัยและเชื่อถือได้โดยใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกจากชุดข้อมูลการฝึก
- วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาให้สอดคล้องกับนโยบายของเรา
ข้อมูลการใช้งาน
รายละเอียดเกี่ยวกับข้อมูลภายในของโมเดล
ฮาร์ดแวร์
Gemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e)
การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้พลังการประมวลผลอย่างมาก TPU ที่ออกแบบมาเพื่อการดำเนินการกับเมทริกซ์ซึ่งพบได้ทั่วไปในแมชชีนเลิร์นนิงโดยเฉพาะมีข้อดีหลายประการในโดเมนนี้
- ประสิทธิภาพ: TPU ออกแบบมาเพื่อรองรับการประมวลผลจำนวนมากที่เกี่ยวข้องกับการฝึก LLM โดยเฉพาะ ซึ่งช่วยเร่งการฝึกได้อย่างมากเมื่อเทียบกับ CPU
- หน่วยความจํา: TPU มักจะมาพร้อมกับหน่วยความจําที่มีแบนด์วิดท์สูงจํานวนมาก ซึ่งช่วยให้จัดการโมเดลขนาดใหญ่และขนาดกลุ่มระหว่างการฝึกได้ ซึ่งอาจทําให้โมเดลมีคุณภาพดีขึ้น
- ความสามารถในการปรับขนาด: พ็อด TPU (คลัสเตอร์ TPU ขนาดใหญ่) เป็นโซลูชันที่ปรับขนาดได้เพื่อจัดการกับโมเดลพื้นฐานขนาดใหญ่ที่มีความซับซ้อนมากขึ้น คุณสามารถกระจายการฝึกอบรมไปยังอุปกรณ์ TPU หลายเครื่องเพื่อให้การประมวลผลรวดเร็วและมีประสิทธิภาพมากขึ้น
- คุ้มค่า: ในหลายสถานการณ์ TPU เป็นโซลูชันที่คุ้มค่ากว่าสำหรับการฝึกโมเดลขนาดใหญ่เมื่อเทียบกับโครงสร้างพื้นฐานที่ใช้ CPU โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงเวลาและทรัพยากรที่ประหยัดไปเนื่องจากการฝึกที่เร็วขึ้น
- ข้อดีเหล่านี้สอดคล้องกับความมุ่งมั่นของ Google ในการดำเนินงานอย่างยั่งยืน
ซอฟต์แวร์
การฝึกอบรมนี้ทําโดยใช้ JAX และ ML Pathways
JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อฝึกโมเดลขนาดใหญ่ได้เร็วขึ้นและมีประสิทธิภาพมากขึ้น
ML Pathways เป็นโครงการล่าสุดของ Google ในการสร้างระบบปัญญาประดิษฐ์ (AI) ที่ทํางานได้หลายอย่าง ซึ่งเหมาะอย่างยิ่งสำหรับโมเดลพื้นฐาน รวมถึงโมเดลภาษาขนาดใหญ่อย่างเช่นโมเดลเหล่านี้
JAX และ ML Pathways ใช้ร่วมกันตามที่อธิบายไว้ในเอกสารเกี่ยวกับโมเดลตระกูล Gemini "รูปแบบการเขียนโปรแกรม "single controller" ของ Jax และ Pathways ช่วยให้กระบวนการ Python เดียวสามารถควบคุมการเรียกใช้การฝึกทั้งหมด ซึ่งทำให้เวิร์กโฟลว์การพัฒนาง่ายขึ้นอย่างมาก"
การประเมิน
เมตริกและผลลัพธ์การประเมินโมเดล
ผลลัพธ์การเปรียบเทียบ
โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้
เปรียบเทียบ | เมตริก | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5 ช็อต ยอดนิยม 1 อันดับ | 42.3 | 64.3 |
HellaSwag | 0 ช็อต | 71.4 | 81.2 |
PIQA | 0 ช็อต | 77.3 | 81.2 |
SocialIQA | 0 ช็อต | 49.7 | 51.8 |
BoolQ | 0 ช็อต | 69.4 | 83.2 |
WinoGrande | คะแนนบางส่วน | 65.4 | 72.3 |
CommonsenseQA | 7 ช็อต | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5 นัด | 53.2 | 63.4 |
คำถามที่เป็นธรรมชาติ | 5 นัด | 12.5 | 23.0 |
HumanEval | pass@1 | 22.0 | 32.3 |
MBPP | 3 ช็อต | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATH | 4 ช็อต | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Bench | 35.2 | 55.1 | |
ปานกลาง | 44.9 | 56.4 |
จริยธรรมและความปลอดภัย
แนวทางและผลลัพธ์การประเมินด้านจริยธรรมและความปลอดภัย
แนวทางการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบนโยบายเนื้อหาที่เกี่ยวข้องโดยทีมจำลองการโจมตีภายใน ทีมจำลองการโจมตีดำเนินการโดยทีมต่างๆ ซึ่งแต่ละทีมมีเป้าหมายและเมตริกการประเมินของมนุษย์แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินตามหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย ซึ่งรวมถึง
- ความปลอดภัยของเนื้อหาที่เป็นข้อความล้วน: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่เกี่ยวข้องกับนโยบายด้านความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรงและการนองเลือด ตลอดจนวาจาสร้างความเกลียดชัง
- อันตรายจากการสื่อแทนด้วยข้อความจากข้อความหนึ่งไปยังอีกข้อความหนึ่ง: เปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และ BBQ Dataset
- การจดจำ: การประเมินการจดจำข้อมูลการฝึกอบรมโดยอัตโนมัติ รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
- อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงด้านสารเคมี ชีววิทยา รังสีวิทยา และนิวเคลียร์ (CBRN)
ผลการประเมิน
ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อปฏิบัติตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา อันตรายจากการนำเสนอ การท่องจำ อันตรายในวงกว้าง นอกจากการประเมินภายในที่มีประสิทธิภาพแล้ว ผลลัพธ์ของมาตรฐานความปลอดภัยที่รู้จักกันดี เช่น BBQ, BOLD, Winogender, Winobias, RealToxicity และ TruthfulQA ก็จะแสดงที่นี่ด้วย
Gemma 1.0
เปรียบเทียบ | เมตริก | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | เฉลี่ย | 6.86 | 7.90 |
ตัวหนา | 45.57 | 49.08 | |
CrowS-Pairs | top-1 | 45.82 | 51.33 |
BBQ Ambig | 1 ช็อต อันดับ 1 | 62.58 | 92.54 |
BBQ Disambig | top-1 | 54.62 | 71.99 |
Winogender | top-1 | 51.25 | 54.17 |
TruthfulQA | 44.84 | 31.81 | |
Winobias 1_2 | 56.12 | 59.09 | |
Winobias 2_2 | 91.10 | 92.23 | |
Toxigen | 29.77 | 39.59 |
Gemma 1.1
เปรียบเทียบ | เมตริก | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | เฉลี่ย | 7.03 | 8.04 |
ตัวหนา | 47.76 | ||
CrowS-Pairs | top-1 | 45.89 | 49.67 |
BBQ Ambig | 1 ช็อต อันดับ 1 | 58.97 | 86.06 |
BBQ Disambig | top-1 | 53.90 | 85.08 |
Winogender | top-1 | 50.14 | 57.64 |
TruthfulQA | 44.24 | 45.34 | |
Winobias 1_2 | 55.93 | 59.22 | |
Winobias 2_2 | 89.46 | 89.2 | |
Toxigen | 29.64 | 38.75 |
การใช้งานและข้อจํากัด
ซึ่งโมเดลเหล่านี้มีข้อจํากัดบางอย่างที่ผู้ใช้ควรทราบ
วัตถุประสงค์การใช้งาน
โมเดลภาษาขนาดใหญ่ (LLM) แบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วน วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล
- การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้ในการสร้างรูปแบบข้อความที่สร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด และอีเมลฉบับร่าง
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสําหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของชุดข้อความ เอกสารวิจัย หรือรายงาน
- การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้ใช้เป็นพื้นฐานสําหรับนักวิจัยในการทดสอบเทคนิค NLP, พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขานี้
- เครื่องมือเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
- การสํารวจความรู้: ช่วยเหลือผู้วิจัยในการสํารวจข้อความจำนวนมากด้วยการสรุปหรือตอบคําถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง
ข้อจำกัด
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกอบรมส่งผลต่อความสามารถของโมเดลอย่างมาก อคติหรือช่องว่างในข้อมูลที่ใช้ฝึกอาจทําให้คำตอบของโมเดลมีข้อจํากัด
- ขอบเขตของชุดข้อมูลการฝึกจะกําหนดขอบเขตหัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
- บริบทและความซับซ้อนของงาน
- LLM ทำงานได้ดีกว่ากับงานที่ระบุพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรืองานที่มีความซับซ้อนสูงอาจเป็นเรื่องยาก
- ประสิทธิภาพของโมเดลอาจได้รับอิทธิพลจากปริมาณบริบทที่ระบุ (โดยทั่วไปแล้วบริบทที่ยาวกว่าจะให้เอาต์พุตที่ดีกว่าจนถึงจุดหนึ่ง)
- ความกำกวมและความซับซ้อนของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ LLM อาจไม่เข้าใจความหมายที่ซับซ้อน การเสียดสี หรือภาษาเชิงอุปมา
- ความถูกต้องของข้อเท็จจริง
- LLM จะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- Common Sense
- LLM อาศัยรูปแบบทางสถิติในภาษา ผู้ใช้อาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์
ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง
การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความเป็นธรรม
- LLM ที่ฝึกด้วยข้อมูลข้อความในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และการประเมินผลในภายหลังที่รายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- LLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เรามีหลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่ใช้อย่างมีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี LLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้
ความเสี่ยงที่พบและการลดความเสี่ยง
- การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่อันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและติดตั้งใช้งานมาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ LLM ในทางที่ผิดได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งว่ามีการละเมิด การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
- การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำ PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราขอแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
ประโยชน์
ในช่วงที่เปิดตัว โมเดลตระกูลนี้จะติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูงซึ่งออกแบบมาตั้งแต่ต้นสําหรับการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน
เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ พบว่าโมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าทางเลือกอื่นๆ ของโมเดลแบบเปิดที่มีขนาดใกล้เคียงกัน