หน้าโมเดล: Gemma
แหล่งข้อมูลและเอกสารทางเทคนิค
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
คำอธิบายสรุปและคำจำกัดความโดยสรุปของอินพุตและเอาต์พุต
คำอธิบาย
Gemma เป็นชุดโมเดลเปิดที่ทันสมัยและน้ำหนักเบาจาก Google ซึ่งสร้างขึ้นจากการวิจัยและเทคโนโลยีเดียวกันกับที่ใช้สร้างโมเดล Gemini โมเดลเหล่านี้คือโมเดลภาษาขนาดใหญ่สำหรับการแปลงข้อความเป็นเครื่องถอดรหัสเท่านั้น มีให้บริการเป็นภาษาอังกฤษ โดยมีน้ำหนักแบบเปิดสำหรับทั้งตัวแปรก่อนการฝึกและตัวแปรที่ปรับแต่งตามคำสั่ง โมเดล Gemma เหมาะกับงานสร้างข้อความที่หลากหลาย เช่น การตอบคำถาม การสรุป และการให้เหตุผล ขนาดที่ค่อนข้างเล็กทำให้ติดตั้งใช้งานในสภาพแวดล้อมที่มีทรัพยากรจำกัดได้ เช่น แล็ปท็อป เดสก์ท็อป หรือโครงสร้างพื้นฐานของระบบคลาวด์ของคุณเอง ทำให้ทุกคนเข้าถึงสถานะของโมเดล AI ศิลปะได้ และช่วยส่งเสริมนวัตกรรมสำหรับทุกคน
อินพุตและเอาต์พุต
- อินพุต: สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป
- เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อข้อมูลที่ป้อน เช่น การตอบคำถามหรือข้อมูลสรุปของเอกสาร
การอ้างอิง
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
ข้อมูลโมเดล
ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีการประมวลผลข้อมูล
ชุดข้อมูลการฝึก
โมเดลเหล่านี้ได้รับการฝึกจากชุดข้อมูลของข้อมูลข้อความที่มีแหล่งที่มาหลากหลาย โมเดล 27B ได้รับการฝึกด้วยโทเค็น 13 ล้านล้านโทเค็น และโมเดล 9B ได้รับการฝึกด้วยโทเค็น 8 ล้านล้านโทเค็น องค์ประกอบหลักมีดังนี้
- เอกสารในเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้โมเดลมองเห็นรูปแบบ หัวข้อ และคำศัพท์ที่หลากหลายทางภาษา ส่วนใหญ่เป็นเนื้อหาภาษาอังกฤษ
- โค้ด: การเปิดเผยโมเดลให้กับโค้ดช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งช่วยปรับปรุงความสามารถในการสร้างโค้ดหรือทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
- คณิตศาสตร์: การฝึกอบรมเรื่องข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การนำเสนอด้วยสัญลักษณ์ และจัดการคำค้นหาทางคณิตศาสตร์
การผสานแหล่งข้อมูลที่หลากหลายเหล่านี้เข้าด้วยกันเป็นสิ่งที่สำคัญมากสำหรับการฝึกโมเดลภาษาที่มีประสิทธิภาพ ซึ่งรองรับงานและรูปแบบข้อความที่หลากหลายได้
การประมวลผลข้อมูลล่วงหน้า
วิธีการทำความสะอาดและกรองข้อมูลที่สำคัญที่ใช้กับข้อมูลการฝึกมีดังนี้
- การกรอง CSAM: การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดถูกนำมาใช้ในหลายขั้นตอนในกระบวนการเตรียมข้อมูล เพื่อให้แน่ใจว่าจะกรองเนื้อหาที่เป็นอันตรายและผิดกฎหมายออก
- การกรองข้อมูลที่ละเอียดอ่อน: เทคนิคอัตโนมัติบางอย่างใช้เพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกจากชุดการฝึก ซึ่งเป็นส่วนหนึ่งของการทำให้โมเดลก่อนการฝึกของ Gemma ปลอดภัยและเชื่อถือได้
- วิธีการเพิ่มเติม: การกรองตามคุณภาพเนื้อหาและความปลอดภัยตามนโยบายของเรา
ข้อมูลการใช้งาน
รายละเอียดเกี่ยวกับโครงสร้างภายในของโมเดล
ฮาร์ดแวร์
Gemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) (TPUv5p) รุ่นล่าสุด
การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้กำลังในการประมวลผลอย่างมาก TPU ซึ่งออกแบบมาโดยเฉพาะสำหรับการดำเนินการเมทริกซ์ที่พบได้ทั่วไปในแมชชีนเลิร์นนิง มีข้อดีหลายอย่างในโดเมนนี้
- ประสิทธิภาพ: TPU ออกแบบมาเพื่อจัดการกับการคำนวณขนาดใหญ่ที่เกี่ยวข้องในการฝึก LLM โดยเฉพาะ ทีมจะเพิ่มความเร็วในการฝึกอบรมได้มากเมื่อเทียบกับ CPU
- หน่วยความจำ: TPU มักมาพร้อมกับหน่วยความจำแบนด์วิดท์สูงจำนวนมาก ทำให้สามารถจัดการโมเดลขนาดใหญ่และขนาดแบบกลุ่มในระหว่างการฝึกได้ ซึ่งจะทำให้โมเดลมีคุณภาพดีขึ้น
- ความสามารถในการปรับขนาด: พ็อด TPU (คลัสเตอร์ TPU ขนาดใหญ่) เป็นโซลูชันที่รองรับการปรับขนาดสำหรับการจัดการความซับซ้อนที่เพิ่มขึ้นของโมเดลพื้นฐานขนาดใหญ่ คุณสามารถกระจายการฝึกทำงานในอุปกรณ์ TPU หลายเครื่องเพื่อการประมวลผลที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น
- ความคุ้มค่า: ในหลายๆ สถานการณ์ TPU เป็นโซลูชันที่คุ้มค่าสำหรับการฝึกโมเดลขนาดใหญ่มากกว่าเมื่อเทียบกับโครงสร้างพื้นฐานที่อิงตาม CPU โดยเฉพาะอย่างยิ่งเมื่อพิจารณาเวลาและทรัพยากรที่ประหยัดได้เนื่องจากมีการฝึกที่เร็วกว่า
- ข้อได้เปรียบเหล่านี้สอดคล้องกับความมุ่งมั่นของ Google ในการดำเนินงานอย่างยั่งยืน
ซอฟต์แวร์
การฝึกทำโดยใช้ JAX และ เส้นทาง ML
JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อการฝึกโมเดลขนาดใหญ่ได้รวดเร็วและมีประสิทธิภาพมากยิ่งขึ้น
ML Pathways คือความพยายามล่าสุดของ Google ที่จะสร้างระบบอัจฉริยะที่ประดิษฐ์ขึ้นมา ซึ่งรองรับการทำงานหลายๆ อย่างได้ ซึ่งเหมาะเป็นอย่างยิ่งสำหรับโมเดลพื้นฐาน รวมถึงโมเดลภาษาขนาดใหญ่อย่างเช่นโมเดลเหล่านี้
เส้นทางทั้ง JAX และ ML มีการนำมาใช้ตามที่อธิบายไว้ในรายงานเกี่ยวกับกลุ่มโมเดลของ Gemini "โมเดลการเขียนโปรแกรม "คอนโทรลเลอร์เดี่ยว" ของ Jax และ Pathways ช่วยให้กระบวนการ Python เดี่ยวสามารถจัดการขั้นตอนการฝึกทั้งหมด ทำให้เวิร์กโฟลว์การพัฒนาง่ายขึ้นอย่างมาก"
การประเมิน
เมตริกและผลลัพธ์การประเมินโมเดล
ผลลัพธ์การเปรียบเทียบ
โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกจำนวนมากเพื่อให้ครอบคลุมการสร้างข้อความในด้านต่างๆ ดังนี้
การเปรียบเทียบ | เมตริก | Gemma PT 9B | Gemma PT 27B |
---|---|---|---|
MMLU | 5 - ช็อต, สูงสุด 1 | 71.3 | 75.2 |
HellaSwag | 10 นัด | 81.9 | 86.4 |
PIQA | 0-ช็อต | 81.7 | 83.2 |
SocialIQA | 0-ช็อต | 53.4 | 53.7 |
BoolQ | 0-ช็อต | 84.2 | 84.8 |
WinoGrande | คะแนนบางส่วน | 80.6 | 83.7 |
ARC-e | 0-ช็อต | 88.0 | 88.6 |
ARC-C | 25 ช็อต | 68.4 | 71.4 |
TriviaQA | 5 นัด | 76.6 | 83.7 |
คำถามเกี่ยวกับธรรมชาติ | 5 นัด | 29.2 | 34.5 |
HumanEval | บัตร@1 | 40.2 | 51.8 |
MBPP | 3 ช็อต | 52.4 | 62.6 |
GSM8K | 5-ช็อต, maj@1 | 68.6 | 74.0 |
MATH | 4 ช็อต | 36.6 | 42.3 |
AGIEval | 3-5 ช็อต | 52.8 | 55.1 |
BIG-Bench | 3 ช็อต, CoT | 68.2 | 74.9 |
จริยธรรมและความปลอดภัย
แนวทางและผลลัพธ์ด้านจริยธรรมและความปลอดภัย
แนวทางการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบภายในทีมสีแดงสำหรับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงจะดำเนินการโดยทีมต่างๆ หลายทีม ซึ่งมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน แบบจำลองเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากซึ่งเกี่ยวข้องกับจริยธรรมและความปลอดภัย ได้แก่
- ความปลอดภัยของเนื้อหาที่ส่งข้อความเป็นข้อความ: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมนโยบายความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรง และการนองเลือด และวาจาสร้างความเกลียดชัง
- อันตรายจากข้อความที่เป็นตัวแทนข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และชุดข้อมูล BBQ
- การจำ: การประเมินการจำข้อมูลฝึกฝนโดยอัตโนมัติ รวมถึงความเสี่ยงที่จะมีการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
- อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงทางเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN)
ผลการประเมิน
ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา การทำร้ายในการนำเสนอ การท่องจำ และภัยในวงกว้าง นอกเหนือจากการประเมินภายในที่เข้มงวดแล้ว ผลของเกณฑ์มาตรฐานด้านความปลอดภัยที่รู้จักกันดี เช่น Barb, BOLD, Winogender, Winobias, RealToxicity และ TruthfulQA จะแสดงที่นี่
Gemma 2.0
การเปรียบเทียบ | เมตริก | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|
RealToxicity | เฉลี่ย | 8.25 | 8.84 |
คู่อีกา | top-1 | 37.47 | 36.67 |
ภาพบาร์บีคิวขนาดใหญ่ | 1 ช็อต, 1 นัด | 88.58 | 859.90 THB |
การชี้แจงสำหรับบาร์บีคิว | top-1 | 82.67 | 86.94 |
วิโนเจนเดอร์ | top-1 | 79.17 | 77.22 |
TruthfulQA | 50.27 | 51.60 | |
วิโนเบียส 1_2 | 78.09 | 81.94 | |
วิโนเบียส 2_2 | 95.32 | 97.22 | |
ท็อกซิเจน | 39.30 | 38.42 |
การใช้งานและข้อจำกัด
โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ
วัตถุประสงค์การใช้งาน
Open Large Language Models (LLM) มีแอปพลิเคชันมากมายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ยังไม่ครอบคลุม วัตถุประสงค์ของรายการนี้คือการให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล
- การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: รูปแบบเหล่านี้สามารถใช้ในการสร้างรูปแบบข้อความสร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด สำเนาทางการตลาด และร่างจดหมายอีเมล
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่สั้นกระชับของข้อความคลังข้อความ รายงานการวิจัย หรือรายงาน
- การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้อาจใช้เป็นรากฐานสำหรับนักวิจัยในการทดลองเทคนิค NLP พัฒนาอัลกอริทึม และมีส่วนช่วยพัฒนาสาขานี้
- เครื่องมือการเรียนภาษา: สนับสนุนประสบการณ์การเรียนภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
- การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง
ข้อจำกัด
- ข้อมูลการฝึกอบรม
- คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึกอาจนำไปสู่ข้อจำกัดในคำตอบของโมเดล
- ขอบเขตของชุดข้อมูลการฝึกจะกำหนดขอบเขตเรื่องที่โมเดลสามารถจัดการได้อย่างมีประสิทธิภาพ
- บริบทและความซับซ้อนของงาน
- LLM จะทำงานที่ใส่พรอมต์และวิธีการที่ชัดเจนได้ดีกว่า งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
- ประสิทธิภาพของโมเดลอาจขึ้นอยู่กับจำนวนบริบทที่ให้ไว้ (บริบทที่ยาวนานกว่าปกติจะนำไปสู่เอาต์พุตที่ดีขึ้นจนถึงจุดหนึ่ง)
- ความอยากรู้และความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง LLM อาจพบปัญหาในการเข้าใจความแตกต่างที่เล็กน้อย การเสียดสี หรือภาษาเชิงเปรียบเทียบ
- ความถูกต้องของข้อเท็จจริง
- LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้างข้อความ ข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- สามัญสำนึก
- LLM ใช้รูปแบบทางสถิติในภาษา พวกเขาอาจขาดความสามารถในการใช้ การให้เหตุผลโดยใช้สามัญสำนึกในบางสถานการณ์
การพิจารณาและความเสี่ยงด้านจริยธรรม
การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดความกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ
- การให้อคติและความยุติธรรม
- LLM ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เป็นข้อความขนาดใหญ่ในโลกแห่งความเป็นจริงสามารถสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการเรียนการสอนของชั้นเรียนได้ โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด ผ่านการประมวลผลข้อมูลอินพุตก่อนการประมวลผลตามที่อธิบายไว้ และการประเมินหลังรายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- อาจมีการใช้ LLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- มีหลักเกณฑ์สำหรับการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และขั้นตอนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบมอบโอกาสในการแชร์นวัตกรรมด้วยการทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยสามารถเข้าถึงเทคโนโลยี LLM ในระบบนิเวศ AI ได้
การระบุและการลดความเสี่ยง:
- การทำให้อคติเกิดขึ้นตลอด: ขอแนะนำให้ดำเนินการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจเทคนิคการลดการให้น้ำหนักระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้การป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค ตลอดจนการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางสามารถช่วยลดปริมาณการใช้งาน LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด การใช้งานโมเดล Gemma ที่ไม่อนุญาตจะมีระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกโดยใช้ข้อมูลที่กรองเพื่อนำ PII ออก (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวโดยใช้เทคนิคการรักษาความเป็นส่วนตัว
ประโยชน์
ในช่วงเปิดตัว กลุ่มโมเดลนี้จะมีการติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดประสิทธิภาพสูง ซึ่งได้รับการออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI ที่มีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน
จากเมตริกการประเมินเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ แสดงให้เห็นว่าโมเดลเหล่านี้ให้ประสิทธิภาพที่เหนือกว่าตัวเลือกอื่นๆ ของโมเดลเปิดที่มีขนาดใกล้เคียงกัน