หน้ารูปแบบ: RecurrentGemma
แหล่งข้อมูลและเอกสารทางเทคนิค
ข้อกำหนดในการให้บริการ: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
สรุปโมเดล
คำอธิบาย
RecurrentGemma คือตระกูลของโมเดลภาษาแบบเปิดที่สร้างขึ้นจากสถาปัตยกรรมแบบเกิดซ้ำใหม่ซึ่งพัฒนาขึ้นที่ Google ทั้งเวอร์ชันก่อนการฝึกและเวอร์ชันที่ปรับตามการสอนจะมีให้บริการเป็นภาษาอังกฤษ
โมเดล RecurrentGemma เหมาะกับงานการสร้างข้อความที่หลากหลาย ซึ่งรวมถึงการตอบคำถาม การสรุป และการให้เหตุผล เช่นเดียวกับ Gemma ด้วยสถาปัตยกรรมที่ล้ำสมัย RecurrentGemma ต้องใช้หน่วยความจำน้อยกว่า Gemma และใช้การอนุมานได้เร็วกว่าเมื่อสร้างลำดับแบบยาว
อินพุตและเอาต์พุต
- อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่ต้องการสรุป)
- เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อการป้อนข้อมูล (เช่น คำตอบสำหรับคำถาม ข้อมูลสรุปของเอกสาร)
การอ้างอิง
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
ข้อมูลโมเดล
ชุดข้อมูลการฝึกอบรมและการประมวลผลข้อมูล
RecurrentGemma ใช้ข้อมูลการฝึกและการประมวลผลข้อมูลแบบเดียวกับที่กลุ่มโมเดลของ Gemma ใช้ ดูคำอธิบายแบบเต็มได้ในการ์ดโมเดลของ Gemma
ข้อมูลการใช้งาน
ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ระหว่างการฝึกอบรม
RecurrentGemma ได้รับการฝึกบน TPUv5e โดยใช้ JAX และ ML Pathways เช่นเดียวกับ Gemma
ข้อมูลการประเมิน
ผลลัพธ์การเปรียบเทียบ
วิธีการประเมิน
โมเดลเหล่านี้ได้รับการประเมินโดยใช้ชุดข้อมูลและเมตริกต่างๆ ขนาดใหญ่เพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้
ผลการประเมิน
การเปรียบเทียบ | เมตริก | RecurrentGemma 2B |
---|---|---|
MMLU | ยิง 5 ลูก, ติดอันดับ 1 | 38.4 |
HellaSwag | ยิงลูก 0 | 71.0 |
PIQA | ยิงลูก 0 | 78.5 |
SocialIQA | ยิงลูก 0 | 51.8 |
BoolQ | ยิงลูก 0 | 71.3 |
WinoGrande | คะแนนบางส่วน | 67.8 |
CommonsenseQA | ยิง 7 ช็อต | 63.7 |
OpenBookQA | 47.2 | |
ARC-E | 72.9 | |
ARC-C | 42.3 | |
TriviaQA | ยิง 5 ลูก | 52.5 |
คำถามตามธรรมชาติ | ยิง 5 ลูก | 11.5 |
HumanEval | บัตร@1 | 21.3 |
MBPP | ยิง 3 ช็อต | 28.8 |
GSM8K | maj@1 | 13.4 |
MATH | 4 ช็อต | 11.0 |
AGIEval | 23.8 | |
Bench ขนาดใหญ่ | 35.3 | |
ปานกลาง | 44.6 |
จริยธรรมและความปลอดภัย
การประเมินจริยธรรมและความปลอดภัย
วิธีการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินแบบมีโครงสร้างและการทดสอบภายในเกี่ยวกับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงดำเนินการโดยทีมต่างๆ มากมายที่มีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่ที่แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย เช่น
- ความปลอดภัยของเนื้อหาการแปลงจากข้อความ: การประเมินจากมนุษย์เกี่ยวกับพรอมต์ที่ครอบคลุมนโยบายความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การล่วงละเมิด ความรุนแรง และการนองเลือด และวาจาสร้างความเกลียดชัง
- อันตรายในการนำเสนอข้อความเป็นข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น ชุดข้อมูล WinoBias และบาร์บีคิว
- การจดจำ: การประเมินอัตโนมัติจากการจดจำข้อมูลการฝึกอบรม รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
- อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงทางเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) รวมถึงการทดสอบการโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการทำซ้ำโดยอัตโนมัติ
ผลการประเมิน
ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้ว่าเป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา อันตรายในการนำเสนอ การจำ อันตรายในวงกว้าง นอกเหนือจากการประเมินภายในที่มีประสิทธิภาพแล้ว ผลลัพธ์ของการเปรียบเทียบความปลอดภัยซึ่งเป็นที่รู้จักกันดี เช่นบาร์บีคิว, Winogender, Winobias, RealToxicity และ TruthfulQA จะแสดงที่นี่
การเปรียบเทียบ | เมตริก | RecurrentGemma 2B | RecurrentGemma 2 พันล้านไอที |
---|---|---|---|
RealToxicity | เฉลี่ย | 9.8 | 7.6 |
ตัวหนา | 39.3 | 52.4 | |
คู่กา | top-1 | 41.1 | 43.4 |
BBQ Ambig | top-1 | 62.6 | 71.1 |
การขจัดความกำกวมสำหรับบาร์บีคิว | top-1 | 58.4 | 50.8 |
ไวโนเจนเดอร์ | top-1 | 55.1 | 54.7 |
TruthfulQA | 35.1 | 42.7 | |
ไวโนเบีย 1_2 | 58.4 | 56.4 | |
ไวโนเบียส 2_2 | 90.0 | 75.4 | |
ท็อกซิเกน | 56.7 | 50.0 |
การใช้งานและข้อจํากัดของโมเดล
ข้อจำกัดที่ทราบ
รูปแบบเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึกอาจทำให้เกิดข้อจำกัดในการตอบสนองของโมเดล
- ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตวิชาที่โมเดลสามารถจัดการได้อย่างมีประสิทธิภาพ
- บริบทและความซับซ้อนของงาน
- LLM จะดีกว่าในงานที่สามารถจัดกรอบด้วยพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรือมีความซับซ้อนมากอาจทำได้ยาก
- ประสิทธิภาพของโมเดลอาจได้รับผลจากจำนวนบริบทที่ให้ไว้ (บริบทที่ยาวกว่าโดยทั่วไปจะนำไปสู่ผลลัพธ์ที่ดีขึ้นจนถึงจุดใดจุดหนึ่ง)
- ความกำกวมและความแตกต่างทางภาษา
- ภาษาที่เป็นธรรมชาติมีความซับซ้อนโดยธรรมชาติ LLM อาจพบปัญหาในการทำความเข้าใจ ความแตกต่างเล็กน้อย การเสียดสี หรือถ้อยคำที่หยาบคาย
- ความถูกต้องของข้อเท็จจริง
- LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ จึงอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- สามัญสำนึก
- LLM จะใช้รูปแบบทางสถิติในภาษา พวกเขาอาจไม่สามารถใช้เหตุผลทั่วไปในบางสถานการณ์
ความเสี่ยงและข้อควรพิจารณาด้านจริยธรรม
การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความยุติธรรม
- LLM ที่ได้รับการฝึกกับข้อมูลแบบข้อความขนาดใหญ่จากสถานการณ์จริงจะแสดงให้เห็นถึงอคติด้านวัฒนธรรมและสังคมที่ฝังไว้ในเนื้อหาการฝึกอบรมได้ โมเดลเหล่านี้ผ่านการพิจารณาอย่างละเอียดรอบคอบ อธิบายการป้อนข้อมูลก่อนประมวลผลข้อมูล และการประเมินภายหลังที่รายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- ระบบอาจใช้ LLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เราจัดทำหลักเกณฑ์ไว้เพื่อการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่ได้รับการพัฒนาอย่างมีความรับผิดชอบจะมอบโอกาสในการแชร์นวัตกรรมโดยทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยในระบบนิเวศ AI เข้าถึงเทคโนโลยี LLM ได้
การระบุและลดความเสี่ยง
- การไม่มีอคติ: ขอแนะนำให้ดำเนินการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจเทคนิคการลดความลำเอียงในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานของแอปพลิเคชันโดยเฉพาะ
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยลดการใช้งาน LLM ที่เป็นอันตราย เราได้จัดเตรียมแหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้ทราบว่ามีการใช้ในทางที่ผิด การใช้งานโมเดลของ Gemma ที่ไม่อนุญาตจะแสดงอยู่ในข้อกำหนดในการใช้งานของเรา
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกเกี่ยวกับข้อมูลที่กรองเพื่อนํา PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราแนะนำให้นักพัฒนาแอปปฏิบัติตาม กฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
วัตถุประสงค์การใช้งาน
แอปพลิเคชัน
โมเดลภาษาขนาดใหญ่ (LLM) มีแอปพลิเคชันมากมายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ครอบคลุม รายการนี้มีจุดประสงค์เพื่อให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล
- การสร้างคอนเทนต์และการสื่อสาร
- การสร้างข้อความ: รูปแบบเหล่านี้สามารถใช้สร้างรูปแบบข้อความครีเอทีฟโฆษณา เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด อีเมลฉบับร่าง ฯลฯ
- แชทบ็อตและ AI แบบสนทนา: เพิ่มประสิทธิภาพอินเทอร์เฟซการสนทนาสำหรับ ฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปคลังข้อความ เอกสารงานวิจัย หรือรายงานอย่างกระชับ
- การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้สามารถใช้เป็นรากฐานให้นักวิจัยทดลองเทคนิค NLP พัฒนาอัลกอริทึม และมีส่วนสนับสนุนความก้าวหน้าของวงการ
- เครื่องมือเรียนรู้ภาษา: สนับสนุนประสบการณ์การเรียนภาษาแบบอินเทอร์แอกทีฟ ช่วยเรื่องการแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
- การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความเนื้อหาขนาดใหญ่ด้วยการสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เจาะจง
ข้อดี
ในช่วงเปิดตัว โมเดลในกลุ่มนี้มีการติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นสำหรับการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน
เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ โมเดลเหล่านี้จะให้ประสิทธิภาพที่เหนือกว่าโมเดลอื่นแบบเปิดที่มีขนาดใกล้เคียงกัน
โดยเฉพาะอย่างยิ่งโมเดล RecurrentGemma จะให้ประสิทธิภาพเทียบเท่ากับโมเดล Gemma แต่จะทำงานเร็วกว่าในระหว่างการอนุมานและใช้หน่วยความจำน้อยกว่า โดยเฉพาะในลำดับแบบยาว