หน้าโมเดล: RecurrentGemma
แหล่งข้อมูลและเอกสารทางเทคนิค
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
สรุปโมเดล
คำอธิบาย
RecurrentGemma คือตระกูลของโมเดลภาษาแบบเปิดที่สร้างขึ้นจากนวนิยายซ้ำ สถาปัตยกรรมที่ Google พัฒนาขึ้น ทั้ง 2 อย่าง เวอร์ชันก่อนการฝึกและการปรับแต่งคำแนะนำจะมีให้บริการเป็นภาษาอังกฤษ
โมเดล RecurrentGemma เหมาะกับข้อความที่หลากหลาย เช่นเดียวกับ Gemma งานที่สร้างขึ้น ซึ่งรวมถึงการตอบคำถาม การสรุป และการให้เหตุผล เนื่องจากสถาปัตยกรรมที่ล้ำสมัย RecurrentGemma ใช้หน่วยความจำน้อยกว่า Gemma และได้อนุมานที่เร็วขึ้นเมื่อสร้างลำดับยาวๆ
อินพุตและเอาต์พุต
- อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่จะ โดยสรุป)
- เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อข้อมูลที่ป้อน (เช่น คำตอบสำหรับคำถาม ข้อมูลสรุปของเอกสาร)
การอ้างอิง
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
ข้อมูลโมเดล
ชุดข้อมูลการฝึกและการประมวลผลข้อมูล
RecurrentGemma ใช้ข้อมูลการฝึกและการประมวลผลข้อมูลเดียวกับที่ กลุ่มโมเดล Gemma ดูรายละเอียดทั้งหมดได้ใน โมเดล Gemma
ข้อมูลการใช้งาน
ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ในระหว่างการฝึก
ชอบ Gemma RecurrentGemma ได้รับการฝึกเมื่อ TPUv5e โดยใช้ JAX และ ML เส้นทาง
ข้อมูลการประเมิน
ผลการเปรียบเทียบ
วิธีการประเมิน
โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลขนาดใหญ่และ ให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้
ผลการประเมิน
เปรียบเทียบ | เมตริก | Gemma 2B ซ้ำ | Gemma 9B ซ้ำ |
---|---|---|---|
MMLU | 5 - ช็อต, สูงสุด 1 | 38.4 | 60.5 |
HellaSwag | 0-ช็อต | 71.0 | 80.4 |
PIQA | 0-ช็อต | 78.5 | 81.3 |
SocialIQA | 0-ช็อต | 51.8 | 52.3 |
BoolQ | 0-ช็อต | 71.3 | 80.3 |
WinoGrande | คะแนนบางส่วน | 67.8 | 73.6 |
CommonsenseQA | 7 ช็อต | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5 นัด | 52.5 | 70.5 |
คำถามเกี่ยวกับธรรมชาติ | 5 นัด | 11.5 | 21.7 |
HumanEval | บัตร@1 | 21.3 | 31.1 |
MBPP | 3 ช็อต | 28.8 | 42 วินาที |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4 ช็อต | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
เฉลี่ย | 44.6 | 56.1 |
จริยธรรมและความปลอดภัย
การประเมินจริยธรรมและความปลอดภัย
วิธีการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและทีมสีแดงภายใน นโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงได้ดำเนินการโดย ทีมต่างๆ แต่ละคนมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน เหล่านี้ โมเดลได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากที่เกี่ยวข้องกับ จริยธรรมและความปลอดภัย ซึ่งรวมถึง
- ความปลอดภัยของเนื้อหาที่แปลงข้อความเป็นข้อความ: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมเรื่องความปลอดภัย นโยบายซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรง และการนองเลือด ตลอดจนวาจาสร้างความเกลียดชัง
- อันตรายจากการนำเสนอแบบข้อความ: การเปรียบเทียบกับเอกสารวิชาการที่เกี่ยวข้อง ชุดข้อมูล เช่น WinoBias และชุดข้อมูลบาร์บีคิว
- การบันทึก: การประเมินโดยอัตโนมัติสำหรับการท่องจำข้อมูลการฝึก ซึ่งรวมถึงความเสี่ยงต่อการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
- อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น สารเคมี ความเสี่ยงทางชีววิทยา รังสี และนิวเคลียร์ (CBRN) รวมถึงการทดสอบสำหรับ การโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการจำลองแบบอัตโนมัติ
ผลการประเมิน
ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้ สำหรับการประชุมภายใน นโยบาย สำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา การทำร้ายตัวแทน การท่องจำและอันตรายในวงกว้าง นอกเหนือจากการประเมินภายในที่เชื่อถือได้ ของมาตรฐานความปลอดภัยที่เป็นที่รู้จัก เช่น บาร์บีคิว, Winogender, WinoBias RealToxicity และ TruthfulQA จะแสดงที่นี่
เปรียบเทียบ | เมตริก | Gemma 2B ซ้ำ | RecurrentGemma 2B IT | Gemma 9B ซ้ำ | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | เฉลี่ย | 9.8 | 7.60 | 10.3 | 8.8 |
BOLD | 39.3 | 52.3 | 39.8 | 47.9 | |
คู่อีกา | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
ภาพบาร์บีคิวขนาดใหญ่ | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
การชี้แจงสำหรับบาร์บีคิว | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
วิโนเจนเดอร์ | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
การใช้งานโมเดลและข้อจำกัด
ข้อจำกัดที่ทราบ
รูปแบบเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกมีอิทธิพลอย่างมาก ความสามารถของโมเดล การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึกอาจทำให้เกิด ข้อจำกัดในคำตอบของโมเดล
- ขอบเขตของชุดข้อมูลการฝึกจะกำหนดขอบเขตเรื่องของโมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
- ความซับซ้อนของบริบทและงาน
- LLM จะทำงานได้ดียิ่งขึ้นหากจัดเฟรมด้วยพรอมต์ที่ชัดเจน วิธีทำ งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
- ประสิทธิภาพของโมเดลอาจขึ้นอยู่กับปริมาณบริบท ให้ (บริบทที่ยาวนานกว่าปกติจะนำไปสู่เอาต์พุตที่ดีขึ้น เฉพาะบางจุด)
- ความกำกวมและความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง LLM อาจทำความเข้าใจได้ยาก ถ้อยคำที่เล็กน้อยมาก การเสียดสี หรือภาษาเชิงเปรียบเทียบ
- ความถูกต้องของข้อเท็จจริง
- LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จาก ชุดข้อมูลการฝึกอบรมนี้ แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้าง ข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- สามัญสำนึก
- LLM ใช้รูปแบบทางสถิติในภาษา พวกเขาอาจขาด สามารถใช้การให้เหตุผลสามัญสำนึกในบางสถานการณ์
การพิจารณาและความเสี่ยงด้านจริยธรรม
การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดความกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ
- อคติและความยุติธรรม
- LLM ที่ได้รับการฝึกโดยใช้ข้อมูลข้อความจำนวนมากที่เกิดขึ้นจริงสามารถสะท้อน อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการเรียนการสอน โมเดลเหล่านี้ ได้ผ่านการตรวจสอบอย่างรอบคอบและประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และ การประเมินส่วนหลังที่รายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- อาจมีการใช้ LLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือ เป็นอันตราย
- มีหลักเกณฑ์สำหรับการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดู Generative AI ที่มีความรับผิดชอบ ชุดเครื่องมือ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับโมเดล สถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินผล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แบ่งปัน โดยทำให้นักพัฒนาซอฟต์แวร์สามารถเข้าถึงเทคโนโลยี LLM และ นักวิจัยในระบบนิเวศ AI
การระบุและการลดความเสี่ยง:
- การคงอยู่ของอคติ: ขอแนะนำให้คุณทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจการลดการให้น้ำหนัก เทคนิคในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์สำหรับเนื้อหา ความปลอดภัยเป็นสิ่งสำคัญ ขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและ ใช้มาตรการป้องกันความปลอดภัยเนื้อหาที่เหมาะสมโดยอิงตาม นโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและนักพัฒนา และ การให้ความรู้แก่ผู้ใช้ปลายทางช่วยลดการใช้ LLM ที่เป็นอันตรายได้ แหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด ที่มีให้ การใช้งานโมเดล Gemma โดยต้องห้ามมีระบุไว้ในข้อกำหนดในการให้บริการ การใช้งาน
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกกับข้อมูลที่กรองเพื่อนำออกจากผลการค้นหา PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ขอแนะนำให้นักพัฒนาซอฟต์แวร์ ปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวที่มีเทคนิคการรักษาความเป็นส่วนตัว
วัตถุประสงค์การใช้งาน
แอปพลิเคชัน
Open Large Language Models (LLM) มีแอปพลิเคชันที่หลากหลายใน อุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ใช่ ครอบคลุม จุดประสงค์ของรายการนี้คือการให้ข้อมูลตามบริบท เกี่ยวกับกรณีการใช้งานที่เป็นไปได้ที่ผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของโมเดล การฝึกอบรมและการพัฒนา
- การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: รูปแบบเหล่านี้ใช้เพื่อสร้างข้อความครีเอทีฟโฆษณาได้ รูปแบบต่างๆ เช่น บทกวี สคริปต์ โค้ด สำเนาทางการตลาด อีเมลฉบับร่าง ฯลฯ
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับ การบริการลูกค้า ผู้ช่วยเสมือนจริง หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของข้อมูลคลังข้อความ เอกสารงานวิจัย หรือรายงานต่างๆ
- การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้ เป็นรากฐานสำหรับนักวิจัยในการทดลองใช้เทคนิค NLP พัฒนาอัลกอริทึมและส่งเสริมให้เกิดความก้าวหน้าในวงการนี้
- เครื่องมือการเรียนภาษา: รองรับการเรียนภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
- การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจพื้นที่ขนาดใหญ่ โดยการสร้างสรุปหรือตอบคำถามเกี่ยวกับ หัวข้อ
ประโยชน์
ในช่วงเปิดตัว กลุ่มโมเดลนี้จะให้ประสิทธิภาพการทำงานแบบเปิดที่มีประสิทธิภาพสูง การติดตั้งใช้งานโมเดลภาษาขนาดใหญ่ที่ออกแบบใหม่ทั้งหมดสำหรับ การพัฒนา AI เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน
โมเดลเหล่านี้ใช้เมตริกการประเมินเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ มอบประสิทธิภาพที่เหนือกว่าโมเดลเปิดอื่นๆ ที่มีขนาดเท่าๆ กัน ทางเลือก
ยิ่งไปกว่านั้น โมเดล RecurrentGemma มีประสิทธิภาพที่เทียบเคียงได้กับ Gemma แต่จะทำงานได้เร็วขึ้นในระหว่างการอนุมานและใช้หน่วยความจำน้อยลง โดยเฉพาะเมื่อ เป็นลำดับยาวๆ