หน้าโมเดล: Gemma
แหล่งข้อมูลและเอกสารทางเทคนิค
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
คําอธิบายสรุปและคําจํากัดความสั้นๆ ของอินพุตและเอาต์พุต
คำอธิบาย
Gemma เป็นกลุ่มผลิตภัณฑ์โมเดลแบบเปิดที่ทันสมัยและน้ำหนักเบาจาก Google ซึ่งสร้างขึ้นจากงานวิจัยและเทคโนโลยีเดียวกับที่ใช้สร้างโมเดล Gemini โดยเป็นโมเดลภาษาขนาดใหญ่แบบถอดรหัสเท่านั้นที่แปลงจากข้อความเป็นข้อความ ซึ่งมีให้บริการเป็นภาษาอังกฤษ โดยมีน้ำหนักแบบเปิดสำหรับทั้งตัวแปรที่ฝึกล่วงหน้าและตัวแปรที่ปรับตามคำสั่ง โมเดล Gemma เหมาะสําหรับงานการสร้างข้อความที่หลากหลาย ซึ่งรวมถึงการตอบคําถาม การสรุป และการหาเหตุผล โมเดลเหล่านี้มีขนาดเล็กเมื่อเทียบกับโมเดลอื่นๆ จึงนำไปใช้งานได้ในสภาพแวดล้อมที่มีทรัพยากรจํากัด เช่น แล็ปท็อป เดสก์ท็อป หรือโครงสร้างพื้นฐานระบบคลาวด์ของคุณเอง ซึ่งช่วยให้ทุกคนเข้าถึงโมเดล AI ล้ำสมัยได้ และช่วยส่งเสริมนวัตกรรมสำหรับทุกคน
อินพุตและเอาต์พุต
- อินพุต: สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป
- เอาต์พุต: ข้อความภาษาอังกฤษที่สร้างขึ้นเพื่อตอบสนองต่ออินพุต เช่น คำตอบสำหรับคำถาม หรือสรุปของเอกสาร
การอ้างอิง
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
ข้อมูลโมเดล
ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีประมวลผลข้อมูล
ชุดข้อมูลการฝึก
โมเดลเหล่านี้ได้รับการฝึกจากชุดข้อมูลข้อความซึ่งมีแหล่งที่มาที่หลากหลาย โมเดล 27,000 ล้านได้รับการฝึกด้วยโทเค็น 13 ล้านล้านรายการ โมเดล 9,000 ล้านได้รับการฝึกด้วยโทเค็น 8 ล้านล้านรายการ และโมเดล 2,000 ล้านได้รับการฝึกด้วยโทเค็น 2 ล้านล้านรายการ องค์ประกอบหลักๆ มีดังนี้
- เอกสารบนเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้มั่นใจได้ว่าโมเดลจะได้เห็นรูปแบบ หัวข้อ และคำศัพท์ทางภาษาที่หลากหลาย เนื้อหาภาษาอังกฤษเป็นหลัก
- โค้ด: การแสดงโค้ดต่อโมเดลจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งจะช่วยเพิ่มความสามารถในการสร้างโค้ดหรือทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
- คณิตศาสตร์: การฝึกกับข้อความทางคณิตศาสตร์จะช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การนำเสนอด้วยสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์
การรวมแหล่งข้อมูลอันหลากหลายเหล่านี้เป็นสิ่งสําคัญในการฝึกโมเดลภาษาที่มีประสิทธิภาพซึ่งจัดการกับงานและรูปแบบข้อความที่หลากหลายได้
การเตรียมข้อมูลล่วงหน้า
วิธีการล้างและกรองข้อมูลหลักที่ใช้กับข้อมูลการฝึกมีดังนี้
- การกรอง CSAM: มีการใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะถูกนำออก
- การกรองข้อมูลที่ละเอียดอ่อน: เราได้ทําให้โมเดลที่ฝึกล่วงหน้าของ Gemma ปลอดภัยและเชื่อถือได้โดยใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกจากชุดข้อมูลการฝึก
- วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาให้สอดคล้องกับนโยบายของเรา
ข้อมูลการใช้งาน
รายละเอียดเกี่ยวกับข้อมูลภายในของโมเดล
ฮาร์ดแวร์
Gemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5p)
การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้พลังการประมวลผลอย่างมาก TPU ที่ออกแบบมาเพื่อการดำเนินการกับเมทริกซ์ซึ่งพบได้ทั่วไปในแมชชีนเลิร์นนิงโดยเฉพาะมีข้อดีหลายประการในโดเมนนี้
- ประสิทธิภาพ: TPU ออกแบบมาเพื่อรองรับการประมวลผลจำนวนมากที่เกี่ยวข้องกับการฝึก LLM โดยเฉพาะ ซึ่งช่วยเร่งการฝึกได้อย่างมากเมื่อเทียบกับ CPU
- หน่วยความจํา: TPU มักจะมาพร้อมกับหน่วยความจําที่มีแบนด์วิดท์สูงจํานวนมาก ซึ่งช่วยให้จัดการโมเดลขนาดใหญ่และขนาดกลุ่มระหว่างการฝึกได้ ซึ่งอาจทําให้โมเดลมีคุณภาพดีขึ้น
- ความสามารถในการปรับขนาด: พ็อด TPU (คลัสเตอร์ TPU ขนาดใหญ่) เป็นโซลูชันที่ปรับขนาดได้เพื่อจัดการกับโมเดลพื้นฐานขนาดใหญ่ที่มีความซับซ้อนมากขึ้น คุณสามารถกระจายการฝึกอบรมไปยังอุปกรณ์ TPU หลายเครื่องเพื่อให้การประมวลผลรวดเร็วและมีประสิทธิภาพมากขึ้น
- คุ้มค่า: ในหลายสถานการณ์ TPU เป็นโซลูชันที่คุ้มค่ากว่าสำหรับการฝึกโมเดลขนาดใหญ่เมื่อเทียบกับโครงสร้างพื้นฐานที่ใช้ CPU โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงเวลาและทรัพยากรที่ประหยัดไปเนื่องจากการฝึกที่เร็วขึ้น
- ข้อดีเหล่านี้สอดคล้องกับความมุ่งมั่นของ Google ในการดำเนินงานอย่างยั่งยืน
ซอฟต์แวร์
การฝึกอบรมนี้ทําโดยใช้ JAX และ ML Pathways
JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อฝึกโมเดลขนาดใหญ่ได้เร็วขึ้นและมีประสิทธิภาพมากขึ้น
ML Pathways เป็นโครงการล่าสุดของ Google ในการสร้างระบบปัญญาประดิษฐ์ (AI) ที่ทํางานได้หลายอย่าง ซึ่งเหมาะอย่างยิ่งสำหรับโมเดลพื้นฐาน รวมถึงโมเดลภาษาขนาดใหญ่อย่างเช่นโมเดลเหล่านี้
JAX และ ML Pathways ใช้ร่วมกันตามที่อธิบายไว้ในเอกสารเกี่ยวกับโมเดลตระกูล Gemini "รูปแบบการเขียนโปรแกรม "single controller" ของ Jax และ Pathways ช่วยให้กระบวนการ Python เดียวสามารถควบคุมการเรียกใช้การฝึกทั้งหมด ซึ่งทำให้เวิร์กโฟลว์การพัฒนาง่ายขึ้นอย่างมาก"
การประเมิน
เมตริกและผลลัพธ์การประเมินโมเดล
ผลลัพธ์การเปรียบเทียบ
โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้
เปรียบเทียบ | เมตริก | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5 ช็อต ยอดนิยม 1 อันดับ | 51.3 | 71.3 | 75.2 |
HellaSwag | 10 ช็อต | 73.0 | 81.9 | 86.4 |
PIQA | 0 ช็อต | 77.8 | 81.7 | 83.2 |
SocialIQA | 0 ช็อต | 51.9 | 53.4 | 53.7 |
BoolQ | 0 ช็อต | 72.5 | 84.2 | 84.8 |
WinoGrande | คะแนนบางส่วน | 70.9 | 80.6 | 83.7 |
ARC-e | 0 ช็อต | 80.1 | 88.0 | 88.6 |
ARC-c | 25 ภาพ | 55.4 | 68.4 | 71.4 |
TriviaQA | 5 นัด | 59.4 | 76.6 | 83.7 |
คำถามที่เป็นธรรมชาติ | 5 นัด | 16.7 | 29.2 | 34.5 |
HumanEval | pass@1 | 17.7 | 40.2 | 51.8 |
MBPP | 3 ช็อต | 29.6 | 52.4 | 62.6 |
GSM8K | 5 ช็อต, maj@1 | 23.9 | 68.6 | 74.0 |
MATH | 4 ช็อต | 15.0 | 36.6 | 42.3 |
AGIEval | 3-5-shot | 30.6 | 52.8 | 55.1 |
DROP | 3 ช็อต, F1 | 52.0 | 69.4 | 72.2 |
BIG-Bench | 3 ช็อต, COT | 41.9 | 68.2 | 74.9 |
จริยธรรมและความปลอดภัย
แนวทางและผลลัพธ์การประเมินด้านจริยธรรมและความปลอดภัย
แนวทางการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบนโยบายเนื้อหาที่เกี่ยวข้องโดยทีมจำลองการโจมตีภายใน ทีมจำลองการโจมตีดำเนินการโดยทีมต่างๆ ซึ่งแต่ละทีมมีเป้าหมายและเมตริกการประเมินของมนุษย์แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินตามหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย ซึ่งรวมถึง
- ความปลอดภัยของเนื้อหาที่เป็นข้อความล้วน: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่เกี่ยวข้องกับนโยบายด้านความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรงและการนองเลือด ตลอดจนวาจาสร้างความเกลียดชัง
- อันตรายจากการสื่อแทนด้วยข้อความจากข้อความหนึ่งไปยังอีกข้อความหนึ่ง: เปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และ BBQ Dataset
- การจดจำ: การประเมินการจดจำข้อมูลการฝึกอบรมโดยอัตโนมัติ รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
- อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงด้านสารเคมี ชีววิทยา รังสีวิทยา และนิวเคลียร์ (CBRN)
ผลการประเมิน
ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อปฏิบัติตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา อันตรายจากการนำเสนอ การท่องจำ อันตรายในวงกว้าง นอกจากการประเมินภายในที่มีประสิทธิภาพแล้ว ผลลัพธ์ของมาตรฐานความปลอดภัยที่รู้จักกันดี เช่น BBQ, BOLD, Winogender, Winobias, RealToxicity และ TruthfulQA ก็จะแสดงที่นี่ด้วย
Gemma 2.0
เปรียบเทียบ | เมตริก | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | เฉลี่ย | 8.16 | 8.25 | 8.84 |
CrowS-Pairs | top-1 | 37.67 | 37.47 | 36.67 |
BBQ Ambig | 1 ช็อต อันดับ 1 | 83.20 | 88.58 | 85.99 |
BBQ Disambig | top-1 | 69.31 | 82.67 | 86.94 |
Winogender | top-1 | 52.91 | 79.17 | 77.22 |
TruthfulQA | 43.72 | 50.27 | 51.60 | |
Winobias 1_2 | 59.28 | 78.09 | 81.94 | |
Winobias 2_2 | 88.57 | 95.32 | 97.22 | |
Toxigen | 48.32 | 39.30 | 38.42 |
การประเมินความสามารถที่เป็นอันตราย
แนวทางการประเมิน
เราประเมินความสามารถที่เป็นอันตรายต่างๆ ดังนี้
- ไซเบอร์ซีเคียวริตีเชิงรุก: เราประเมินศักยภาพของโมเดลในการใช้ในทางที่ผิดในบริบทไซเบอร์ซีเคียวริตีโดยใช้ทั้งแพลตฟอร์ม Capture-the-Flag (CTF) ที่เผยแพร่ต่อสาธารณะ เช่น InterCode-CTF และ Hack the Box รวมถึงโจทย์ CTF ที่พัฒนาขึ้นภายใน การประเมินเหล่านี้จะวัดความสามารถของโมเดลในการใช้ประโยชน์จากช่องโหว่และรับสิทธิ์เข้าถึงที่ไม่ได้รับอนุญาตในสภาพแวดล้อมจำลอง
- การแพร่กระจายด้วยตนเอง: เราประเมินความสามารถในการแพร่กระจายด้วยตนเองของโมเดลโดยการออกแบบงานที่เกี่ยวข้องกับการดึงข้อมูลทรัพยากร การดำเนินการโค้ด และการโต้ตอบกับระบบระยะไกล การประเมินเหล่านี้จะประเมินความสามารถของโมเดลในการทําซ้ำและแพร่กระจายอย่างอิสระ
- การโน้มน้าวใจ: เราได้ทำการวิจัยการโน้มน้าวใจมนุษย์เพื่อประเมินความสามารถของโมเดลในการโน้มน้าวใจและการหลอกลวง การศึกษาเหล่านี้เกี่ยวข้องกับสถานการณ์ที่วัดความสามารถของโมเดลในการสร้างความสัมพันธ์ โน้มน้าวความเชื่อ และกระตุ้นให้ผู้ใช้ดำเนินการบางอย่าง
ผลการประเมิน
การประเมินทั้งหมดมีรายละเอียดอยู่ในหัวข้อการประเมินโมเดลขั้นสูงเพื่อหาความสามารถที่เป็นอันตรายและสรุปอยู่ในหัวข้อรายงานทางเทคนิคของ Gemma 2
การประเมิน | ความสามารถ | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | การรักษาความมั่นคงปลอดภัยไซเบอร์เชิงรุก | ด่าน 34/76 |
CTF ภายใน | การรักษาความมั่นคงปลอดภัยไซเบอร์เชิงรุก | ชาเลนจ์ 1/13 |
Hack the Box | การรักษาความมั่นคงปลอดภัยไซเบอร์เชิงรุก | 0/13 ชาเลนจ์ |
การเตือนล่วงหน้าการแพร่กระจายด้วยตนเอง | การแพร่กระจายด้วยตนเอง | ชาเลนจ์ 1/10 |
เสน่ห์ไม่เหมาะสม | การโน้มน้าวใจ | เปอร์เซ็นต์ของผู้เข้าร่วมที่เห็นว่าน่าสนใจ 81% ต้องการพูดคุยอีกครั้ง 75% และสร้างความสัมพันธ์ส่วนตัว 80% |
คลิกลิงก์ | การโน้มน้าวใจ | 34% ของผู้เข้าร่วม |
ค้นหาข้อมูล | การโน้มน้าวใจ | 9% ของผู้เข้าร่วม |
ใช้โค้ด | การโน้มน้าวใจ | 11% ของผู้เข้าร่วม |
เงินสำคัญ | การโน้มน้าวใจ | เงินบริจาคเฉลี่ย £3.72 |
Web of Lies | การโน้มน้าวใจ | 18% หมายถึงการเปลี่ยนไปเชื่อในสิ่งที่ถูกต้อง 1% หมายถึงการเปลี่ยนไปเชื่อในสิ่งที่ไม่ถูกต้อง |
การใช้งานและข้อจํากัด
ซึ่งโมเดลเหล่านี้มีข้อจํากัดบางอย่างที่ผู้ใช้ควรทราบ
วัตถุประสงค์การใช้งาน
โมเดลภาษาขนาดใหญ่ (LLM) แบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วน วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล
- การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้ในการสร้างรูปแบบข้อความที่สร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด และอีเมลฉบับร่าง
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสําหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของชุดข้อความ เอกสารวิจัย หรือรายงาน
- การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้ใช้เป็นพื้นฐานสําหรับนักวิจัยในการทดสอบเทคนิค NLP, พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขานี้
- เครื่องมือเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
- การสํารวจความรู้: ช่วยเหลือผู้วิจัยในการสํารวจข้อความจำนวนมากด้วยการสรุปหรือตอบคําถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง
ข้อจำกัด
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกอบรมส่งผลต่อความสามารถของโมเดลอย่างมาก อคติหรือช่องว่างในข้อมูลที่ใช้ฝึกอาจทําให้คำตอบของโมเดลมีข้อจํากัด
- ขอบเขตของชุดข้อมูลการฝึกจะกําหนดขอบเขตหัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
- บริบทและความซับซ้อนของงาน
- LLM ทำงานได้ดีกว่ากับงานที่ระบุพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรืองานที่มีความซับซ้อนสูงอาจเป็นเรื่องยาก
- ประสิทธิภาพของโมเดลอาจได้รับอิทธิพลจากปริมาณบริบทที่ระบุ (โดยทั่วไปแล้วบริบทที่ยาวกว่าจะให้เอาต์พุตที่ดีกว่าจนถึงจุดหนึ่ง)
- ความกำกวมและความซับซ้อนของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ LLM อาจไม่เข้าใจความหมายที่ซับซ้อน การเสียดสี หรือภาษาเชิงอุปมา
- ความถูกต้องของข้อเท็จจริง
- LLM จะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- Common Sense
- LLM อาศัยรูปแบบทางสถิติในภาษา ผู้ใช้อาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์
ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง
การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความเป็นธรรม
- LLM ที่ฝึกด้วยข้อมูลข้อความในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และการประเมินผลในภายหลังที่รายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- LLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เรามีหลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่ใช้อย่างมีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี LLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้
ความเสี่ยงที่พบและการลดความเสี่ยง
- การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่อันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและติดตั้งใช้งานมาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ LLM ในทางที่ผิดได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งว่ามีการละเมิด การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
- การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำ PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราขอแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
ประโยชน์
ในช่วงที่เปิดตัว โมเดลตระกูลนี้จะติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูงซึ่งออกแบบมาตั้งแต่ต้นสําหรับการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน
เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ พบว่าโมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าทางเลือกอื่นๆ ของโมเดลแบบเปิดที่มีขนาดใกล้เคียงกัน