หน้าโมเดล: RecurrentGemma
แหล่งข้อมูลและเอกสารทางเทคนิค:
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
สรุปโมเดล
คำอธิบาย
RecurrentGemma เป็นกลุ่มโมเดลภาษาแบบเปิดที่สร้างขึ้นบนสถาปัตยกรรมแบบซ้ำที่พัฒนาขึ้นโดย Google ทั้งเวอร์ชันที่ผ่านการฝึกอบรมล่วงหน้าและเวอร์ชันที่ปรับตามคำสั่งมีให้บริการเป็นภาษาอังกฤษ
เช่นเดียวกับ Gemma โมเดล RecurrentGemma เหมาะสําหรับงานการสร้างข้อความที่หลากหลาย ซึ่งรวมถึงการตอบคําถาม การสรุป และการหาเหตุผล สถาปัตยกรรมที่แปลกใหม่ของ RecurrentGemma ทำให้ใช้หน่วยความจําน้อยกว่า Gemma และสามารถอนุมานได้เร็วขึ้นเมื่อสร้างลำดับที่ยาว
อินพุตและเอาต์พุต
- อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป)
- เอาต์พุต: ข้อความภาษาอังกฤษที่สร้างขึ้นเพื่อตอบกลับอินพุต (เช่น คำตอบสำหรับคำถาม สรุปของเอกสาร)
การอ้างอิง
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
ข้อมูลโมเดล
ชุดข้อมูลการฝึกและการประมวลผลข้อมูล
RecurrentGemma ใช้ข้อมูลการฝึกอบรมและกระบวนการประมวลผลข้อมูลเดียวกับที่ครอบครัวโมเดล Gemma ใช้ ดูคำอธิบายแบบเต็มได้ในการ์ดรูปแบบ Gemma
ข้อมูลการใช้งาน
ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ระหว่างการฝึกอบรม
เช่นเดียวกับ Gemma, RecurrentGemma ได้รับการฝึกอบรมใน TPUv5e โดยใช้ JAX และ ML Pathways
ข้อมูลการประเมิน
ผลลัพธ์การเปรียบเทียบ
แนวทางการประเมิน
โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้
ผลการประเมิน
เปรียบเทียบ | เมตริก | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5 ช็อต ยอดนิยม 1 อันดับ | 38.4 | 60.5 |
HellaSwag | 0 ช็อต | 71.0 | 80.4 |
PIQA | 0 ช็อต | 78.5 | 81.3 |
SocialIQA | 0 ช็อต | 51.8 | 52.3 |
BoolQ | 0 ช็อต | 71.3 | 80.3 |
WinoGrande | คะแนนบางส่วน | 67.8 | 73.6 |
CommonsenseQA | 7 ช็อต | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5 นัด | 52.5 | 70.5 |
คำถามที่เป็นธรรมชาติ | 5 นัด | 11.5 | 21.7 |
HumanEval | pass@1 | 21.3 | 31.1 |
MBPP | 3 ช็อต | 28.8 | 42.0 |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4 ช็อต | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
ปานกลาง | 44.6 | 56.1 |
จริยธรรมและความปลอดภัย
การประเมินด้านจริยธรรมและความปลอดภัย
แนวทางการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบนโยบายเนื้อหาที่เกี่ยวข้องโดยทีมจำลองการโจมตีภายใน ทีมจำลองการโจมตีดำเนินการโดยทีมต่างๆ ซึ่งแต่ละทีมมีเป้าหมายและเมตริกการประเมินของมนุษย์แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินตามหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย ซึ่งรวมถึง
- ความปลอดภัยของเนื้อหาแบบข้อความต่อข้อความ: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมนโยบายด้านความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรงและภาพโจ่งแจ้ง และวาจาสร้างความเกลียดชัง
- อันตรายจากการสื่อความหมายจากข้อความหนึ่งไปยังอีกข้อความหนึ่ง: เปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และ BBQ Dataset
- การจดจำ: การประเมินการจดจำข้อมูลที่ใช้ในการฝึกแบบอัตโนมัติ รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
- อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงด้านสารเคมี ชีววิทยา รังสีวิทยา และนิวเคลียร์ (CBRN) รวมถึงการทดสอบการโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการจำลองแบบอิสระ
ผลการประเมิน
ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อปฏิบัติตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา อันตรายจากการนำเสนอ การจดจำ อันตรายในวงกว้าง นอกจากการประเมินภายในที่มีประสิทธิภาพแล้ว ผลลัพธ์ของมาตรฐานความปลอดภัยที่รู้จักกันดี เช่น BBQ, Winogender, WinoBias, RealToxicity และ TruthfulQA จะแสดงที่นี่ด้วย
เปรียบเทียบ | เมตริก | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | เฉลี่ย | 9.8 | 7.60 | 10.3 | 8.8 |
ตัวหนา | 39.3 | 52.3 | 39.8 | 47.9 | |
CrowS-Pairs | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ Ambig | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
BBQ Disambig | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
การใช้งานและข้อจํากัดของโมเดล
ข้อจำกัดที่ทราบ
โมเดลเหล่านี้มีข้อจํากัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกอบรมส่งผลต่อความสามารถของโมเดลอย่างมาก อคติหรือช่องโหว่ในข้อมูลที่ใช้ฝึกอาจทําให้คำตอบของโมเดลมีข้อจํากัด
- ขอบเขตของชุดข้อมูลการฝึกจะกําหนดขอบเขตหัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
- บริบทและความซับซ้อนของงาน
- LLM ทำงานได้ดีกว่ากับงานที่ระบุขอบเขตด้วยพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรืองานที่มีความซับซ้อนสูงอาจเป็นเรื่องยาก
- ประสิทธิภาพของโมเดลอาจได้รับอิทธิพลจากปริมาณบริบทที่ระบุ (โดยทั่วไปแล้วบริบทที่ยาวกว่าจะให้ผลลัพธ์ที่ดีกว่า แต่ไม่เกินจุดหนึ่ง)
- ความกำกวมและความซับซ้อนของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ LLM อาจไม่เข้าใจความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมา
- ความถูกต้องของข้อเท็จจริง
- LLM จะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- สามัญสำนึก
- LLM อาศัยรูปแบบทางสถิติในภาษา บุคคลเหล่านี้อาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์
ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง
การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความเป็นธรรม
- LLM ที่ฝึกด้วยข้อมูลข้อความในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และมีการรายงานการประเมินผลในภายหลังในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- LLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เรามีหลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี LLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้
ความเสี่ยงที่พบและการลดความเสี่ยง
- การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และ Use Case อื่นๆ
- การสร้างเนื้อหาที่อันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและนำมาตรการรักษาความปลอดภัยด้านเนื้อหาที่เหมาะสมมาใช้ตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งว่ามีการละเมิด การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในข้อกำหนดในการใช้งาน
- การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำ PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราขอแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
วัตถุประสงค์การใช้งาน
แอปพลิเคชัน
โมเดลภาษาขนาดใหญ่ (LLM) แบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วน วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล
- การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้ในการสร้างข้อความในรูปแบบต่างๆ ที่สร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด อีเมลฉบับร่าง ฯลฯ
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสําหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างข้อมูลสรุปที่กระชับของชุดข้อความ เอกสารวิจัย หรือรายงาน
- การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้ใช้เป็นพื้นฐานให้ผู้วิจัยได้ทดลองใช้เทคนิค NLP, พัฒนาอัลกอริทึม และช่วยพัฒนาวงการนี้
- เครื่องมือเรียนภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
- การสํารวจความรู้: ช่วยเหลือนักวิจัยในการสํารวจข้อความจำนวนมากด้วยการสร้างสรุปหรือตอบคําถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง
ประโยชน์
ในช่วงที่เปิดตัว โมเดลตระกูลนี้จะติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูงซึ่งออกแบบมาตั้งแต่ต้นสําหรับการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน
เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ พบว่าโมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าทางเลือกอื่นๆ ของโมเดลแบบเปิดที่มีขนาดใกล้เคียงกัน
โดยเฉพาะอย่างยิ่ง โมเดล RecurrentGemma ให้ประสิทธิภาพเทียบเท่ากับโมเดล Gemma แต่เร็วกว่าในระหว่างการอนุมานและต้องใช้หน่วยความจำน้อยกว่า โดยเฉพาะในลำดับที่ยาว